Link- SpamErkennung und Unterdrückung               Florian Holzhauer               fh@fholzhauer.de
Spam? „Kommerziell motivierter Datenmüll“ Mail, Telefon, Post, Web, .. Hier: Linkspam  Ziel: Suchmaschinenranking verb...
Warum Linkspam? Gutes Suchranking = $$$  Höhere Besucherzahlen  Populärer als die Konkurrenz Viele Links auf beworbene...
PageRank „Google-Algorithmus“ Oft Verlinkt = Hoher PageRank  PageRank der verlinkenden Seiten wichtig d = Damping fact...
HITS Hub-Rank, Authority-Rank Rekursiv
Wie Spam? Häufig verlinkt Verlinkt durch hoch bewertete Seiten Spamseite selbst will nicht unbedingt  hoch bewertet wer...
Blogspam Trackbacks Kommentare Captchas/ Rechenaufgaben Auch Wikis, Gästebücher, Foren
Linkfarm Automatisch generiert Gegenseitig verlinkt Dynamische Inhalte
Erkennung Soziale Probleme, technische Lösung Neuer Algorithmus -> neuer Spam False Positives Definition?
Quantitative Eigenschaften Domain/URL Worthäufigkeiten Seiteneigenschaften  Metatags Servereigenschaften „nearby dup...
Sprachmodell Sprachliche Unterschiede  Blogspam  Blogbeitrag  Kommentare  Verlinkte Seiten Kullback Leibler Divergen...
SVM Support Vector Machine Trainierbarer Separationsalgorithmus Gruppiert in zwei Teile  Nicht linear separierbar: „Mö...
Graphen Links = Gerichteter Graph Verlinkungsanomalien Good Core Kombinierbar
Good Core Manuell erstellt Klein Unzuverlässig Subjektiv Teuer
TrustRank Good Core Enfernung = Score   1*β Dämpfungsfaktor  (1/Linkzahl)*β Basiert auf „gewollten Links“?   Veralte...
BadRank „Umgedrehter Pagerank“ E(A) durch Spamfilter  Nicht unbedingt nötig
ParentPenalty Schnittmenge eingehender und  Ausgehender Links einer Domain  Gross = Vermutlich Spam  Matrix (A) = 1 wen...
ParentPenalty Iterieren durch A Anzahl eingehender Seiten mit An=1   > Treshold? -> An=1 Mehrfache Iteration Problem:...
Ausblick Idee: Kein absoluter Pagerank? Unterschiedliche Benutzer wollen  unterschiedliche Seiten Technischer Wettkampf...
Nächste SlideShare
Wird geladen in …5
×

Slides Link Spam-Erkennung und -Unterdrückung

580 Aufrufe

Veröffentlicht am

2007

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
580
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Slides Link Spam-Erkennung und -Unterdrückung

  1. 1. Link- SpamErkennung und Unterdrückung Florian Holzhauer fh@fholzhauer.de
  2. 2. Spam? „Kommerziell motivierter Datenmüll“ Mail, Telefon, Post, Web, .. Hier: Linkspam Ziel: Suchmaschinenranking verbessern Maschinenoptimiert
  3. 3. Warum Linkspam? Gutes Suchranking = $$$ Höhere Besucherzahlen Populärer als die Konkurrenz Viele Links auf beworbene Seite PageRank HITS Zusätzlich „Queryoptimierung“
  4. 4. PageRank „Google-Algorithmus“ Oft Verlinkt = Hoher PageRank PageRank der verlinkenden Seiten wichtig d = Damping factor (meist 0.85)
  5. 5. HITS Hub-Rank, Authority-Rank Rekursiv
  6. 6. Wie Spam? Häufig verlinkt Verlinkt durch hoch bewertete Seiten Spamseite selbst will nicht unbedingt hoch bewertet werden Automatisiert Selten manuelle Ansätze
  7. 7. Blogspam Trackbacks Kommentare Captchas/ Rechenaufgaben Auch Wikis, Gästebücher, Foren
  8. 8. Linkfarm Automatisch generiert Gegenseitig verlinkt Dynamische Inhalte
  9. 9. Erkennung Soziale Probleme, technische Lösung Neuer Algorithmus -> neuer Spam False Positives Definition?
  10. 10. Quantitative Eigenschaften Domain/URL Worthäufigkeiten Seiteneigenschaften Metatags Servereigenschaften „nearby duplicates“ Änderungsfrequenz
  11. 11. Sprachmodell Sprachliche Unterschiede Blogspam Blogbeitrag Kommentare Verlinkte Seiten Kullback Leibler Divergenz „Wahrscheinlichkeitsunterschiede“
  12. 12. SVM Support Vector Machine Trainierbarer Separationsalgorithmus Gruppiert in zwei Teile Nicht linear separierbar: „Möglichst“ gut
  13. 13. Graphen Links = Gerichteter Graph Verlinkungsanomalien Good Core Kombinierbar
  14. 14. Good Core Manuell erstellt Klein Unzuverlässig Subjektiv Teuer
  15. 15. TrustRank Good Core Enfernung = Score  1*β Dämpfungsfaktor (1/Linkzahl)*β Basiert auf „gewollten Links“?  Veraltete Links Spam!
  16. 16. BadRank „Umgedrehter Pagerank“ E(A) durch Spamfilter Nicht unbedingt nötig
  17. 17. ParentPenalty Schnittmenge eingehender und Ausgehender Links einer Domain Gross = Vermutlich Spam Matrix (A) = 1 wenn Anzahl > Treshold, sonst 0
  18. 18. ParentPenalty Iterieren durch A Anzahl eingehender Seiten mit An=1  > Treshold? -> An=1 Mehrfache Iteration Problem: Treshold-Wahl?
  19. 19. Ausblick Idee: Kein absoluter Pagerank? Unterschiedliche Benutzer wollen unterschiedliche Seiten Technischer Wettkampf Semantic Web?

×