Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Link- SpamErkennung und Unterdrückung               Florian Holzhauer               fh@fholzhauer.de
Spam? „Kommerziell motivierter Datenmüll“ Mail, Telefon, Post, Web, .. Hier: Linkspam  Ziel: Suchmaschinenranking verb...
Warum Linkspam? Gutes Suchranking = $$$  Höhere Besucherzahlen  Populärer als die Konkurrenz Viele Links auf beworbene...
PageRank „Google-Algorithmus“ Oft Verlinkt = Hoher PageRank  PageRank der verlinkenden Seiten wichtig d = Damping fact...
HITS Hub-Rank, Authority-Rank Rekursiv
Wie Spam? Häufig verlinkt Verlinkt durch hoch bewertete Seiten Spamseite selbst will nicht unbedingt  hoch bewertet wer...
Blogspam Trackbacks Kommentare Captchas/ Rechenaufgaben Auch Wikis, Gästebücher, Foren
Linkfarm Automatisch generiert Gegenseitig verlinkt Dynamische Inhalte
Erkennung Soziale Probleme, technische Lösung Neuer Algorithmus -> neuer Spam False Positives Definition?
Quantitative Eigenschaften Domain/URL Worthäufigkeiten Seiteneigenschaften  Metatags Servereigenschaften „nearby dup...
Sprachmodell Sprachliche Unterschiede  Blogspam  Blogbeitrag  Kommentare  Verlinkte Seiten Kullback Leibler Divergen...
SVM Support Vector Machine Trainierbarer Separationsalgorithmus Gruppiert in zwei Teile  Nicht linear separierbar: „Mö...
Graphen Links = Gerichteter Graph Verlinkungsanomalien Good Core Kombinierbar
Good Core Manuell erstellt Klein Unzuverlässig Subjektiv Teuer
TrustRank Good Core Enfernung = Score   1*β Dämpfungsfaktor  (1/Linkzahl)*β Basiert auf „gewollten Links“?   Veralte...
BadRank „Umgedrehter Pagerank“ E(A) durch Spamfilter  Nicht unbedingt nötig
ParentPenalty Schnittmenge eingehender und  Ausgehender Links einer Domain  Gross = Vermutlich Spam  Matrix (A) = 1 wen...
ParentPenalty Iterieren durch A Anzahl eingehender Seiten mit An=1   > Treshold? -> An=1 Mehrfache Iteration Problem:...
Ausblick Idee: Kein absoluter Pagerank? Unterschiedliche Benutzer wollen  unterschiedliche Seiten Technischer Wettkampf...
Nächste SlideShare
Wird geladen in …5
×

Slides Link Spam-Erkennung und -Unterdrückung

668 Aufrufe

Veröffentlicht am

2007

  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Slides Link Spam-Erkennung und -Unterdrückung

  1. 1. Link- SpamErkennung und Unterdrückung Florian Holzhauer fh@fholzhauer.de
  2. 2. Spam? „Kommerziell motivierter Datenmüll“ Mail, Telefon, Post, Web, .. Hier: Linkspam Ziel: Suchmaschinenranking verbessern Maschinenoptimiert
  3. 3. Warum Linkspam? Gutes Suchranking = $$$ Höhere Besucherzahlen Populärer als die Konkurrenz Viele Links auf beworbene Seite PageRank HITS Zusätzlich „Queryoptimierung“
  4. 4. PageRank „Google-Algorithmus“ Oft Verlinkt = Hoher PageRank PageRank der verlinkenden Seiten wichtig d = Damping factor (meist 0.85)
  5. 5. HITS Hub-Rank, Authority-Rank Rekursiv
  6. 6. Wie Spam? Häufig verlinkt Verlinkt durch hoch bewertete Seiten Spamseite selbst will nicht unbedingt hoch bewertet werden Automatisiert Selten manuelle Ansätze
  7. 7. Blogspam Trackbacks Kommentare Captchas/ Rechenaufgaben Auch Wikis, Gästebücher, Foren
  8. 8. Linkfarm Automatisch generiert Gegenseitig verlinkt Dynamische Inhalte
  9. 9. Erkennung Soziale Probleme, technische Lösung Neuer Algorithmus -> neuer Spam False Positives Definition?
  10. 10. Quantitative Eigenschaften Domain/URL Worthäufigkeiten Seiteneigenschaften Metatags Servereigenschaften „nearby duplicates“ Änderungsfrequenz
  11. 11. Sprachmodell Sprachliche Unterschiede Blogspam Blogbeitrag Kommentare Verlinkte Seiten Kullback Leibler Divergenz „Wahrscheinlichkeitsunterschiede“
  12. 12. SVM Support Vector Machine Trainierbarer Separationsalgorithmus Gruppiert in zwei Teile Nicht linear separierbar: „Möglichst“ gut
  13. 13. Graphen Links = Gerichteter Graph Verlinkungsanomalien Good Core Kombinierbar
  14. 14. Good Core Manuell erstellt Klein Unzuverlässig Subjektiv Teuer
  15. 15. TrustRank Good Core Enfernung = Score  1*β Dämpfungsfaktor (1/Linkzahl)*β Basiert auf „gewollten Links“?  Veraltete Links Spam!
  16. 16. BadRank „Umgedrehter Pagerank“ E(A) durch Spamfilter Nicht unbedingt nötig
  17. 17. ParentPenalty Schnittmenge eingehender und Ausgehender Links einer Domain Gross = Vermutlich Spam Matrix (A) = 1 wenn Anzahl > Treshold, sonst 0
  18. 18. ParentPenalty Iterieren durch A Anzahl eingehender Seiten mit An=1  > Treshold? -> An=1 Mehrfache Iteration Problem: Treshold-Wahl?
  19. 19. Ausblick Idee: Kein absoluter Pagerank? Unterschiedliche Benutzer wollen unterschiedliche Seiten Technischer Wettkampf Semantic Web?

×