Slides Link Spam-Erkennung und -Unterdrückung

Link- Spam
Erkennung und Unterdrückung
Florian Holzhauer
fh@fholzhauer.de

Spam?

 „Kommerziell motivierter Datenmüll“
 Mail, Telefon, Post, Web, ..
 Hier: Linkspam
Ziel: Suchmaschinenranking verbessern
Maschinenoptimiert

Warum Linkspam?

 Gutes Suchranking = $$$
Höhere Besucherzahlen
Populärer als die Konkurrenz
 Viele Links auf beworbene Seite
PageRank
HITS
 Zusätzlich „Queryoptimierung“

PageRank

 „Google-Algorithmus“
 Oft Verlinkt = Hoher PageRank
PageRank der verlinkenden Seiten wichtig
 d = Damping factor (meist 0.85)

HITS

 Hub-Rank, Authority-Rank
 Rekursiv

Wie Spam?

 Häufig verlinkt
 Verlinkt durch hoch bewertete Seiten
 Spamseite selbst will nicht unbedingt
hoch bewertet werden
 Automatisiert
Selten manuelle Ansätze

Blogspam

 Trackbacks
 Kommentare
 Captchas/ Rechenaufgaben
 Auch Wikis, Gästebücher, Foren

Linkfarm

 Automatisch generiert
 Gegenseitig verlinkt
 Dynamische Inhalte

Erkennung

 Soziale Probleme, technische Lösung
 Neuer Algorithmus -> neuer Spam
 False Positives
 Definition?

Quantitative Eigenschaften

 Domain/URL
 Worthäufigkeiten
 Seiteneigenschaften
Metatags
 Servereigenschaften
 „nearby duplicates“
 Änderungsfrequenz

Sprachmodell

 Sprachliche Unterschiede
Blogspam
Blogbeitrag
Kommentare
Verlinkte Seiten
 Kullback Leibler Divergenz
„Wahrscheinlichkeitsunterschiede“

SVM

 Support Vector Machine
 Trainierbarer Separationsalgorithmus
 Gruppiert in zwei Teile
Nicht linear separierbar: „Möglichst“ gut

Graphen

 Links = Gerichteter Graph
 Verlinkungsanomalien
 Good Core
 Kombinierbar

Good Core

 Manuell erstellt
 Klein
 Unzuverlässig
 Subjektiv
 Teuer

TrustRank

 Good Core Enfernung = Score
 1*β
 Dämpfungsfaktor
(1/Linkzahl)*β
 Basiert auf „gewollten Links“?
 Veraltete Links
Spam!

BadRank

 „Umgedrehter Pagerank“
 E(A) durch Spamfilter
Nicht unbedingt nötig

ParentPenalty

 Schnittmenge eingehender und
Ausgehender Links einer Domain
Gross = Vermutlich Spam
Matrix (A) = 1 wenn Anzahl > Treshold, sonst 0

ParentPenalty

 Iterieren durch A
 Anzahl eingehender Seiten mit An=1
 > Treshold? -> An=1
 Mehrfache Iteration
 Problem: Treshold-Wahl?

Ausblick

 Idee: Kein absoluter Pagerank?
 Unterschiedliche Benutzer wollen
unterschiedliche Seiten
 Technischer Wettkampf
 Semantic Web?

Slides Link Spam-Erkennung und -Unterdrückung

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Slides Link Spam-Erkennung und -Unterdrückung

Ähnlich wie Slides Link Spam-Erkennung und -Unterdrückung (8)

Mehr von Florian Holzhauer

Mehr von Florian Holzhauer (9)

Slides Link Spam-Erkennung und -Unterdrückung