Humboldt Universitat zu Berlin                                  ¨                       Seminar Network Mining            ...
1 EINLEITUNG                                                                                  11       EinleitungModerne S...
1 EINLEITUNG                                                                   2  Der D¨mpfungsfaktor simuliert hier die W...
2 LINK-SPAM-SYSTEME                                                            32     Link-Spam-SystemeUm einer Seite zu e...
3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE                                            4relevanten Stichworten gef¨llt sind (si...
3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE                                    5             Abbildung 1: Blogspam am Beispiel ...
3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE                                         6  Verschiedene Charakteristiken dieser Art...
3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE                                           7  Basierend auf einem manuell ausgew¨hlt...
4 FILTERUNG DURCH GRAPHANALYSE                                                   8Abweichung, destso h¨her die Spamwahrsch...
4 FILTERUNG DURCH GRAPHANALYSE                                                     9                    Abbildung 4: Trust...
4 FILTERUNG DURCH GRAPHANALYSE                                                   10multipliziert mit einem D¨mpfungswert (...
5 AUSBLICK                                                                      11  Die Autoren leiten anschliessend auf e...
LITERATUR                                                                       12L¨sung f¨r dieses soziale Problem ist ni...
LITERATUR                                                                      13  Proceedings of the 32nd international c...
Nächste SlideShare
Wird geladen in …5
×

Text Link Spam-Erkennung und -Unterdrückung

1.052 Aufrufe

Veröffentlicht am

2007

0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.052
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Text Link Spam-Erkennung und -Unterdrückung

  1. 1. Humboldt Universitat zu Berlin ¨ Seminar Network Mining Betreuer: Isabel Drost Link Spam-Erkennung und ¨ -Unterdruckung Zusammenfassung Aus meist kommerziellen Interessen wird durch sogenannten Linkspamversucht, den Pagerank [Brin and Page, 1998] bzw. HITS [Kleinberg, 1999]-Wert, der f¨r popul¨res Ranking innerhalb einer Suchmaschine verantwort- u a o ¨lich ist, zu erh¨hen. Dieses Paper soll einen Uberblick uber Probleme und ¨L¨sungsans¨tze geben, um Suchmaschinenergebnisse von derartigem un- o aerw¨nschtem Spam zu bereinigen. u Florian Holzhauer fh-hu@fholzhauer.de 5. Februar 2007
  2. 2. 1 EINLEITUNG 11 EinleitungModerne Suchmaschinen haben Milliarden Webseiten in ihren Datenbanken in-diziert, und stellen Suchwortabh¨ngig die wahrscheinlich zutreffendsten Links zur aVerf¨gung - die bekannteste Suchmaschine Google nutzt zur Bestimmung beispiels- uweise den sogenannten Pagerank-Algorithmus [Brin and Page, 1998]. F¨r einen ukommerziellen Webseitenbetreiber ist gute Auffindbarkeit bei relevanten Suchwor-ten, und damit ein hoher Pagerank, daher ausgesprochen wichtig - je popul¨rer die aPosition in den Suchmaschinenergebnissen, destso wahrscheinlicher ist es, dass derBenutzer die Website besucht. Aus dieser Erkenntnis heraus entwickelte sich der so-genannte SEO (Search Engine Optimizers)-Markt, dessen Dienste darin bestehen,den Pagerank einer Seite m¨glichst hoch zu optimieren. Da eines der wichtigsten oElemente des Pagerank-Algorithmus die Anzahl der Links ist, die auf die zu op-timierende Seite verweisen, werden h¨ufig Seiten oder Links erschaffen, die nicht aetwa sinnvollen Inhalt haben, sondern ausschliesslich dazu dienen, den Linkrankder beworbenen Seite1 zu erh¨hen. o1.1 Page-RankDer Pagerank-Algorithmus, in [Brin and Page, 1998] beschrieben, gilt als Grunddes Erfolges der Suchmaschine Google. Er spezifiziert die ”Wichtigkeit” einer Web-site, die mit der Formel 1−d PRj PRi = +d N ∀j∈{(j,i)} Cjberechnet wird. Hier ist PRi der zu berechnende Pagerank, N die Gesamtzahl derindizierten Websiten, und d ein D¨mpfungsfaktor. PRj ist die verlinkende Seite, aCj ist die Anzahl der Seiten, die PRj verlinkt. Hinter dem Page-Rank versteckt sich die Idee des Random Surfer Modells -der Page-Rank will also das Verhalten eines zuf¨lligen Websurfers modellieren, ader nicht auf die Seiteninhalte achtet. Er klickt also zuf¨llig auf einen Link aeiner Seite, und von dort aus wieder zu¨llig auf einen weiteren Link. Aus der aVerlinkungsh¨ufigkeit einer Seite ergibt sich so eine hohe Wahrscheinlichkeit, mit ader der Surfer auf die Seite gelangt, und damit ein hoher Page-Rank. 1 Wichtig ist auch der Linkrank der Seiten, die auf die zu optimierende Seite verweisen -da dieser Linkrank aber ebenfalls effektiv auf der Verlinkung dieser Quellseiten basiert, ist dasKernproblem das selbe. 1 of 13
  3. 3. 1 EINLEITUNG 2 Der D¨mpfungsfaktor simuliert hier die Wahrscheinlichkeit, mit der ein Surfer azuf¨llig eine Seite besucht, ohne einem Link zu folgen - etwa uber ein Browser- a ¨bookmark. So wird vermieden, dass nicht verlinkte Websiten vollst¨ndig durch aden Pagerank-Algorithmus vernachl¨ssigt werden. Der Wert von d bewegt sich ameist um etwa 0.85. Kurz gesagt entscheiden also drei Elemente einen guten Pagerank, und damiteine prominente Darstellung einer Website in einer Suchmaschine: Einerseits dieabsolute Zahl der eingehenden Links, andererseits der Pagerank der verlinkendenSeiten, da dieser Pagerank ja ”weitervererbt” wird. Der dritte Faktor, die Anzahlder Links, die eine verlinkende Seite besitzt, wird bei Spamming-Technikenublicherweise nicht ber¨cksichtigt.¨ u Ein Spammer will somit seine zu bewerbende Seite m¨glichst h¨ufig verlinken, o aund das durch Webseiten, die einen m¨glichst hohen Pagerank haben. o1.2 HITSEin ¨hnlicher Ansatz zur Bewertung der Relevanz von Webseiten findet sich in a[Kleinberg, 1999] - statt einem spezifischem Pagerank werden hier zwei unter-schiedliche Werte berechnet: W¨hrend der sogenannte Authority-Wert bzw. das aAuthority-Gewicht ai analog zum Pagerank angibt, wie h¨ufig eine Seite von aanderen verlinkt ist, wird mit dem Hub-Gewicht hi angegeben, wieviel Seiten vonder Seite verlinkt werden. Eine Bookmark-Sammlung etwa bekommt so ein hohesHub-Gewicht durch die vielen ausgehenden Links, aber nicht zwangsl¨ufig einen ahohen Authority-Wert, da sie ja nicht unbedingt von anderen Seiten verlinktwird. Hinzu kommt, dass HITS rekursiv definiert ist - eine Seite, die Links aufSeiten mit gutem Authority-Wert bietet, bekommt einen hohen Hub-Wert, undumgekehrt. Berechnet werden die beiden Werte wie folgt: n hi = δ Aij aj j=1 n ai = λ ATik hk k=1 Hier ist Aij eine Matrix, die angibt, ob es einen Link von i nach j gibt - indiesem Fall ist Aij = 1, sonst 0. AT ist die transponierte Matrix von A, die ij”Gegenrichtung”. 2 of 13
  4. 4. 2 LINK-SPAM-SYSTEME 32 Link-Spam-SystemeUm einer Seite zu einer guten Suchmaschinenposition zu verhelfen, ist somitauch die Linkdichte interessant, wie aus den beiden Bewertungsalgorithmen klarerkennbar ist. Ein Spammer, der eine bestimmte Seite propagieren will, ist alsovor allem an Links auf eine Seite interessiert. M¨glichkeiten, Links auf andere Webseiten zu erzeugen, gibt es ausgesprochen oviele - die im folgenden besprochenen Papers widmen sich vor allem den beidenmomentan am h¨ufigsten auftretenden Erscheinungen, ”Blogspam” und ”Linkfar- amen”.2.1 BlogspamEin sogenanntes Weblog zeichnet sich unter anderem dadurch aus, dass esverschiedene Mechanismen der Kommentierung zul¨sst, meist sogenannte Track- abacks und Kommentare. W¨hrend Kommentare Leser-Annotationen zu einem ain einem Weblog ver¨ffentlichtem Text sind, handelt es sich bei Trackbacks um oR¨ckverweise anderer Blogs auf einen Artikel, die darauf hinweisen wollen, dass uder Blogeintrag in dem r¨ckverweisendem Weblog behandelt wurde. u Beiden Kommentierungsm¨glichkeiten gemeinsam ist, dass sie auch We- oblinks zu anderen Seiten beinhalten d¨rfen. Blogspam (z.B. erl¨utert in u a[Mishne et al., 2005], siehe auch Abbildung 1) nutzt diese Eigenschaft aus, umso auf eine beworbene Seite zu verlinken, die inhaltlich meist nichts mit demeigentlichen Textinhalt zu tun hat. Erw¨nschter Nebeneffekt dieser Verlinkung uist hier, dass der Pagerank-Algorithmus auch den Rank der Quellseite mitber¨cksichtigt, der Spammer so also auch von der Popularit¨t des bespammten u aWeblogs profitieren. Diese Spamtechnik ist selbstverst¨ndlich nicht auf Weblogs beschr¨nkt, sondern a afindet sich in ahnlichen Variantionen in nahezu allen anderen Websystemen wieder, ¨die Benutzerinhalte in ihrer Seite zeigen - so seien hier noch Foren, G¨steb¨cher a uoder Wikis erw¨hnt. Die im Weiteren vorgestellten Spamerkennung-Techniken alassen sich meist analog auf derartige Systeme anwenden.2.2 LinkfarmenEine Linkfarm ist eine Ansammlung von automatisch generierten Webseiten, diesich gegenseitig sowie eine zu bewerbende Seite verlinken, und mit suchmaschinen- 3 of 13
  5. 5. 3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE 4relevanten Stichworten gef¨llt sind (siehe etwa [Fetterly et al., 2004]). Durch die ustarke gegenseitige Verlinkung wird der Pagerank sowohl der Linkfarm als auchder beworbenen Seite in die H¨he getrieben. Inhaltlich und technisch sind Linkfar- omen ublicherweise sehr stark darauf optimiert, f¨r bestimmte Stichworte m¨glichst ¨ u opopul¨r auf einer Suchmaschine gezeigt zu werden - so taucht das Stichwort an avielen Stellen der Seite auf, etwa im Domainnamen, dem Seitennamen oder auchin der Seite (siehe Abb. Abbildung 2) selbst. Auch verschiedene andere technische Charakteristika sind bei Linkfarmenauff¨llig. So werden die Suchanfragen, uber die ein Besucher auf eine Linkfarm a ¨gelangt, mitprotokolliert und entsprechend bei der n¨chsten Seitengenerierung mit aber¨cksichtigt. Der Inhalt der Seiten ist also oft nicht statisch, sondern dynamisch ugeneriert. Dies hat zwar den Vorteil f¨r einen Spammer, seine Seiten auf aktuell upopul¨re Suchbegriffe zu optimiert zu haben, ist aber gleichzeitig ein Indikator, ader zur Spamerkennung genutzt werden kann. Die meisten seri¨sen Seiten haben ozumindest gr¨ssere Anteile, die nach einer erstmaligen Ver¨ffentlichung statisch o obleiben.3 Filterung durch technische AttributeEin naheliegender Ansatz diesen Spam zu erkennen ist eine quantitative bzw.linguistische Methodik, da sich Spam oft durch bestimmte Charakteristiken undWortfolgen auszeichnet, die der Suchwort-Optimierung geschuldet sind. Viele die-ser Eigenschaften spiegeln sich in Eigenschaften des Servers bzw ¨hnlichen ”Meta- aAttributen” oder in der Wortwahl und -frequenz wieder.3.1 Erkennung durch ServereigenschaftenIn die Bewertung des Suchmaschinenposition einer Seite fliesst neben vielenanderen Attributen auch mit ein, ob das gesuchte Wort Bestandteil des Domain-bzw. Seitennamens ist - basierend auf dem PageRank einer Seite wird zum Zeit-punkt der Suche zus¨tzlich ein Inhalts-Scoring durch verschiedene Seitenattribute aim Hinblick auf die Suchanfrage erstellt. Linkfarmen erstrecken sich daher aufviele meist automatisch generierte Subdomains und Seiten, die dynamisch beijedem Besuch neu erzeugt werden. Die daraus resultierenden Besonderheiten, wieetwa eine sehr hohe Anzahl Subdomains, die alle einer IP-Adresse und damiteinem Webserver zugeordnet werden k¨nnen, oder auch die sehr hohe Linkdichte oinnerhalb einer solchen Seitenansammlung lassen sich als deutliche Abweichungenvom Durchschnitt erkennen. 4 of 13
  6. 6. 3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE 5 Abbildung 1: Blogspam am Beispiel lawblog.de Abbildung 2: Beispiel einer durch eine Linkfarm generierte Spamseite 5 of 13
  7. 7. 3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE 6 Verschiedene Charakteristiken dieser Art werden in [Fetterly et al., 2004] ¨beschrieben, auch weitere Eigenheiten wie eine sehr hohe Ahnlichkeit der Seitenselbst, sowie eine auff¨llig hohe Aktualisierungsquote die dem automatischen Ge- anerieren solcher Spamseiten bei jedem Besuch geschuldet sind, werden betrachtet.Hervorzuheben ist hier vor allem, dass die meisten erl¨uterten Erkennungsmecha- anismen keine weitergehenden Informationen uber die Linkstruktur zwischen den ¨Seiten ben¨tigen. o Hier wird ein grosses Set an Seiten-Daten (einmal 150 Millionen Urls, einmal429 Millionen) auf einige dieser Charakteristiken untersucht - so etwa, wievielverschiedene Hostnamen auf eine einzelne IP-Adresse zeigen, Anzahl von ausge-henden und eingehenden Links einer Seite, oder das h¨ufige Vorkommen einzelner aWorte bzw ¨hnlicher Seiten innerhalb einer Seite (siehe Abbildung 3). Auch die a¨Anderungsfrequenz des Website-Inhaltes wird betrachtet - ein bei jedem Besuchanderer Inhalt ist ein Indikator f¨r eine automatisch generierte Seite, die nicht ustatisch vorgehalten wird.3.2 Erkennung durch SeiteneigenschaftenMit ¨hnlichen technischen Attributen befasst sich auch [Drost and Scheffer, 2005] a- hier wird allerdings auf Eigenheiten der einzelnen Website sowie der verlinken-den und verlinkten Seiten der zu bewertenden Website eingegangen. Faktorenwie der L¨nge der Domain, Anzahl der Subdomains, die Topleveldomain und aEigenschaften verschiedener HTML-Elemente, die pro Website mit einem ”tfdif-Vektor”(term frequency, inverse document frequency) angebeben werden, ergebenzusammen einen Spamwahrscheinlichkeitswert. Abbildung 3: Stark ¨hnliche Seiten innerhalb einer Domain a 6 of 13
  8. 8. 3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE 7 Basierend auf einem manuell ausgew¨hltem Set von Spam- und Hamseiten wird aanschliessend untersucht, welche Eigenheiten momentan die geeignetsten sind,um Spam zu klassifizieren. Wie anschliessend auch ausgef¨hrt wird, ist dieses u ¨Ergebnis allerdings laufenden Anderungen unterzogen, da Spammer jedem neuenErkennungsmechanismus mit entsprechenden Gegenmassnahmen begegnen.3.3 Sprachliche EigenschaftenAuch sprachliche Eigenschaften sind denkbare Ansatzpunkte einer Spamerken-nung. [Kolari et al., 2006] untersucht die H¨ufung von Wortteilen innerhalb einer aSeite, wobei hier auch ber¨cksichtigt wird, wo genau die Wortteile erscheinen, etwa uinnerhalb eines Metatags. Diese Eigenschaften werden hier zur Unterscheidungzwischen echten Weblogs und Weblogs mit reinen Spaminhalten untersucht - alsoeine Kombination aus Linkfarm und Blogspam. Mittels einer ”Support Vector Machine” (SVM), eines Klassifikationsmecha-nismus der zun¨chst mit manuell ausgew¨hlten Seiten trainiert wurde, wird a auntersucht, welche Seitenelemente sich zur Unterscheidung eignen. Hier genutzteElemente sind sogenannte Meta-Elemente, worunter der Seitentitel, die Seiten-Urlund der ”Generator”-Metatag verstanden wird, Link-Elemente der Seite sowieder eigentliche Seiten-Text selbst. In der Ausf¨hrung wurden so Genauigkeiten von bis zu 88 Prozent erreicht, und uuntersucht, wo einige Probleme bei der fehlerhaften Klassifizierung liegen. Vor allem f¨r Blogspam geeignet scheint auch der Ansatz in [Mishne et al., 2005] u- hier werden Unterschiede der Sprachmodelle zwischen einzelnen Kommentarenin einem Blog mit dem Blogposting selbst sowie der verlinkten Seiten betrachtet.Die hier genutzte Methodik macht sich zunutze, dass der Blogeintrag selbst sowiedie verschiedenen Kommentare von unterschiedlichen Autoren mit entsprechendunterschiedlichem Stil geschrieben wurden. Als Entscheidungskriterium wird hier die sogenannte ”Kullback-Leibler-Divergenz” zwischen den einzelnen Elementen betrachtet, also die Sprachvariationzwischen den einzelnen Sprachmodellen der Kommentare und Blogeintr¨ge. Jedes aSprachmodell bildet eine Wahrscheinlichkeitsfunktion in Form einer Gausskurve.Anhand der unterschiedlichen Auspr¨gungen, der Modell¨hnlichkeit zum ur- a aspr¨nglichen Blogpostings also, kann nun bestimmt werden, welche Kommentare uwahrscheinlich zum Stil und Inhalt des Blogpostings passen. Je gr¨sser die o 7 of 13
  9. 9. 4 FILTERUNG DURCH GRAPHANALYSE 8Abweichung, destso h¨her die Spamwahrscheinlichkeit. o Es ist allerdings intuitiv klar, dass diese L¨sung nicht grunds¨tzlich sinnvoll o aist. So sind z.B. Weblogs denkbar, bei dem das Sprachmodell des urspr¨nglichen uEintrags bewusst anders als die Kommentare sind - ein Weblog mit Gedichten, diekommentiert werden, ist hier eine Idee. Auch ist naheliegend, dass ein Spammersich die Idee zu eigen machen kann, in dem er das Sprachmodell zun¨chst aanalyisiert und sein Kommentar automatisiert anpasst. Zu letzterem Angriffs-Szenario machen sich die Autoren auch einige weitergehen-de Gedanken - ein derartiger Angriff bringt es dann mit sich, dass in verschiedenenBlogs sehr unterschiedliche Sprachmodelle mit den selben Links zu finden sind, sodass hier durch eine blog¨bergreifende Analyse Spam wiederum sehr schnell er- ukennbar ist.4 Filterung durch GraphanalyseEin komplett anderer Ansatz findet sich in der Idee wieder, die zu bewertendeLinkstruktur als gerichteten Graphen zu betrachten, und auf Unterschiede zwi-schen Ham und Spam zu untersuchen. Neben vielen Hintergrundinformationen zur ¨Geschichte und Evolution von Linkspam finden sich grundlegende Uberlegungenzu dieser Idee in [Metaxas and Destefano, 2005]: Wir befinden uns heute in der dritten Suchmaschinengeneration. W¨hrend die aerste Generation sich ausschliesslich mit Schl¨sselw¨rtern auf der jeweiligen Seite u oim Text, in Meta-Tags oder ¨hnlichem besch¨ftigte, ging die zweite Generation a abereits auf die Linkstruktur der jeweiligen Seiten ein - je h¨ufiger eine Seite averlinkt wurde, destso besser die Suchmaschinenposition - eine Idee, die ausge-sprochen trivial durch Linkspam angegriffen werden konnte. Die dritte, heute aktuelle, Generation von Suchmaschinen hat diese Verlin-kungsidee zwar aufgegriffen, aber durch den Pagerank-Algorithmus verfeinert, wiebereits in der Einleitung ausgef¨hrt wurde. u Im Paper wird anschliessend ausgef¨hrt, dass es noch weiterf¨hrende Ideen zu u udieser Technik gibt - so ist etwa davon auszugehen, dass eine Seite, die Spambewusst verlinkt, wahrscheinlich ebenfalls Spam ist. Gerade im Bereich desBlogspam ist allerdings offensichtlich, dass dieser Ansatz durchaus nicht immerzutrifft - solche Verlinkungen m¨ssen nicht vom Seiten-Autor gewollt sein. u 8 of 13
  10. 10. 4 FILTERUNG DURCH GRAPHANALYSE 9 Abbildung 4: Trust-Neighborhood von ”1” ¨ Ausgehend von dieser Uberlegung wird nun untersucht, wie man solche Link-Typen unterschieden kann. Verlinkungen innerhalb einer Linkfarm haben h¨ufig aKreisstrukturen und Backlinks, also gegenseitige Verlinkungen (siehe beispielswei-se die Kreissstruktur in Abbildung 4). Da solche Strukturen bei Ph¨nomenen wie aBlogspam nicht auftreten, kann man uber die Graphenstruktur Aussagen zur In- ¨tention einer Verlinkung treffen - ein Spammer wird das Blog nicht verlinken, daer sonst Pagerank-bedingt seinen eigenen Pagerank automatisch verschlechtert.4.1 Graphanalyse mit Good CoreAusgehend von einem ”Good Core”, einem als Ham bekannten Set von Web-seiten, besch¨ftigen sich [Gyongyi et al., 2006] und [Gyongyi et al., 2004] mit aAns¨tzen, durch Graphanalyse Spam zu erkennen. Der Nachteil dieser Methode aist hier allerdings, dass es kein rein technischer Ansatz ist - ohne eine menschli-che Interaktion, die Kennzeichnung des Basissets als solches, ist der Ansatz nutzlos. Einen solchen Good Core vorausgesetzt wird in [Gyongyi et al., 2004] f¨r jede uWebsite im Linkverbund ein Page- bzw Trustrank erstellt. Diese Berechnungfindet mit zwei unterschiedlichen, kombinierbaren, Methoden statt: Seiten desGood Core haben einen Trustrank von 1, dem h¨chstm¨glichen Wert. Jede o overlinkte Website bekommt den Trustrank der sie verlinkenden Seite, allerdings 9 of 13
  11. 11. 4 FILTERUNG DURCH GRAPHANALYSE 10multipliziert mit einem D¨mpfungswert (”trust damping”) 0 < β < 1 - eine direkt avon einer ”guten” Seite verlinkte Website, bei der daher davon auszugehen ist,dass es sich hier ebenfalls nicht um Spam handelt, bekommt also den Trustrank1 ∗ β - eine Linkebene weiter entsprechend 1 ∗ β ∗ β. Je weiter eine Seite also vomGood Core entfernt ist, destso niedriger der Trustrank. Ein weiterer Mechanismusist der des ”trust splitting” - ausgehend von der Idee, dass eine Website mitwenigen Urls diese sorgf¨ltiger pr¨ft, wird der Trustrank der verlinkenden Seite a uentsprechend verteilt. Die verlinkte Seite erh¨lt also nicht, wie im vorherigen aBeispiel, einfach 1 ∗ β, sondern (1/Linkzahl) ∗ β. Eine Weiterentwicklung dieser Idee findet sich in [Gyongyi et al., 2006]: Wenn eine Seite Links besitzt, die auf eine Element des Bad Cores, also derGruppe als Spam bekannter Seiten, zeigt, ist sehr wahrscheinlich, dass diese Seiteebenfalls spammt. Ausgehend von dieser Idee werden zun¨chst zwei naive Ans¨tze a azur Erkennung solcher Verlinkungen skizziert, zusammen mit einigen Gr¨nden,uwarum ein naiver Ansatz nicht ausreichend ist. Ausserdem muss ein Link auf eine Seite des Bad Cores nicht zwangsl¨ufig be- awusst erfolgen. Wie im Paper ausgef¨hrt gibt es eine ganze Reihe von Gr¨nden, u uwarum eine solche automatisierte ”Abstrafung” nicht sinnvoll ist. So ist es g¨ngiges aVerhalten von Spammern, alte und aufgegebene Domains zu kaufen, und sie mitSpam zu f¨llen. Ein Link kann allerdings bereits zu einem Zeitpunkt gesetzt worden usein, zu dem die Domain noch mit sinnvollen Inhalten vor der L¨schung gef¨llt war o u ¨- also vor Ubernahme durch den Spammer. Auch Blog-Spam ist hier ein Beispiel,der Link auf die Spamseite ist so in keinem Fall vom Seitenbetreiber erw¨nscht. u4.2 Graphanalyse ohne Good CoreAuf ein Good Core, also ein vordefiniertes Set ”guter” Seiten, verzichtet hingegen[Wu and Davison, 2005]. Zun¨chst wird hier auf die Idee des sogenannten Bad aRanks eingegangen, der als BRj BRi = E(A)(1 − d) + d ∀j∈{(j,i)} Cj definiert ist - die meisten Werte sind hier analog zum Pagerank[Brin and Page, 1998] definiert, E(A) gibt hier einen origin¨ren Bad-Rank- aWert an, der beispielsweise mittels Spamfiltern berechnet werden kann. 10 of 13
  12. 12. 5 AUSBLICK 11 Die Autoren leiten anschliessend auf einen eigenen Ansatz, ParentPenalty ge-nannt, hin. Interessant ist hier vor allem der Ansatz, einen Bad Core automatischbestimmen zu k¨nnen, eine manuelle Auswahl vordefinierter Spam-Seiten bzw. ei- ones Good Cores wie in den vorherigen Arbeiten ist hier nicht zwingend erforderlich. Hierf¨r gehen die Autoren davon aus, dass viele Linkfarmen sich dadurch uauszeichnen, dass sie innerhalb der selben Domain viele Seiten gegenseitigverlinken - ein von Spammern gewollter Effekt, um so den PageRank zu erh¨hen.oF¨r jeden Seite wird zusammengefasst, welche Domains von ihr verlinkt werden, uund welche sie verlinken - es werden also zwei Domain-Mengen, INdomain(p)und OUTdomain(p), definiert. Anschliessend wird die Schnittmenge der beidenMengen gebildet - ist diese Menge h¨her als eine vorher definierte Schwelle, owird die Seite als Spam betrachtet, verlinkt sie doch auffallend oft andere Seiteninnerhalb der selben Domain. Ausgehend hiervon wird nun der Mechanismus der ParentPenalty definiert.Wenn eine Seite viele Spam-Seiten verlinkt, ist davon auszugehen, dass es sich beider verlinkenden Seite ebenfalls um Spam handelt - auch uber mehrere Linktiefen ¨hinweg. Hierf¨r wird mit dem eben definiertem Seed-Set, den potentiellen Spam- uSeiten, eine Matrix An gebildet - ist die Seite n Spam, ist der Wert An 1, sonst 0. Nun werden die einzelnen Seiten ein weiteres Mal betrachtet: Wenn die Anzahlder Links auf Spam-Seiten einer Seite h¨her als ein vorab definierter Treshold ist, owird die Seite ebenfalls als Spam betrachtet, An wird also zu 1. Diese Betrachtungwird so lange wiederholt, bis sich A nicht mehr ¨ndert. a Anschliessend wird auf mehreren Seiten evaluiert, wie Suchergebnisse basierendauf Pagerank im Vergleich zu bereinigten Ergebnissen mittels ParentPenalty ver-halten - der Umfang dieser Untersuchung ist deutlich zu ausf¨hrlich f¨r diese Zu- u usammenfassung. Insgesamt zeichnet sich jedoch ab, dass der Ansatz sehr vielver-sprechend ist, aber einige Probleme mit sich bringt. So ist etwa die Auswahl einesgeeigneten Tresholds nicht unbedingt trivial, ausserdem werden verschiedene Bei-spiele erw¨hnt, bei denen ParentPenalty zu Unrecht Spam vermutet. a5 AusblickSpam ist ein Wettkampf zwischen Suchmaschinenbetreibern und Spammern. Jederneue Ansatz, jeder neue Algorithmus zu Erkennung und Beseitigung von Spamist nur so lange effektiv, bis Spammer die Implementation verstanden haben, undihre Mechanismen entsprechend angepasst haben - eine endg¨ltige technische u 11 of 13
  13. 13. LITERATUR 12L¨sung f¨r dieses soziale Problem ist nicht absehbar. Die meisten der in dieser o uAusarbeitung beschriebenen Probleml¨sungen weisen auch deutlich darauf hin, odass ihr jeweiliger Ansatz nur vor¨bergehend hilfreich ist - sollte ein Mechanismus uzu erfolgreich sein, ist es simpel, den Ansatz zu verstehen und entsprechendzu bek¨mpfen - so w¨rden die meisten Ideen beispielsweise scheitern, sollte ein a uSpammer ”unschuldige” Seiten mitverlinken, und so bewusst Kollateralsch¨den aprovozieren. [Gori and Witten, 2005] gibt verschiedene Ideen, dieses Dilemma zumindest zuentsch¨rfen, unter anderem, in dem ein Weg weg von einer globalen Suchmaschine azu personalisierteren Diensten skizziert wird. So gibt es keinen spezifischen Page-rank mehr, auf den maximal m¨glich optimiert werden kann. Die Verfasser fordern oeinen Paradigmenwechsel, eine ”intellectually violent revolution”: Verschiedene Be-nutzer suchen unterschiedliche Antworten auf die selbe Suchanfrage, so dass hiereine absolute Pagerank-Funktion nicht sinnvoll ist - eher eine auf den jeweiligenBesucher optimierte Funktionen, die je nach Personalisierung unterschiedliche Er-gebnisse bieten. Gerade im Hinblick auf die Ans¨tze des Semantic Web gibt es asicher noch viele Ideen zu Suchalgorithmen, die weit uber das hinausgehen, was ¨heute als State of the Art gilt.Literatur[Brin and Page, 1998] Brin, S. and Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems, 30(1– 7):107–117.[Drost and Scheffer, 2005] Drost, I. and Scheffer, T. (2005). Thwarting the nigri- tude ultramarine: learning to identify link spam. In Proceedings of the 16th European Conference on Machine Learning (ECML), volume 3720 of Lecture Notes in Artificial Intelligence, pages 233–243, Porto, Portugal.[Fetterly et al., 2004] Fetterly, D., Manasse, M., and Najork, M. (2004). Spam, damn spam, and statistics: Using statistical analysis to locate spam web pages.[Gori and Witten, 2005] Gori, M. and Witten, I. (2005). The bubble of web visi- bility. Commun. ACM, 48(3):115–117.[Gyongyi et al., 2004] Gyongyi, Z., Berkhin, P., Garcia-Molina, H., and Pedersen, J. (2004). Combating web spam with trustrank. In VLDB, pages 576–587.[Gyongyi et al., 2006] Gyongyi, Z., Berkhin, P., Garcia-Molina, H., and Pedersen, J. (2006). Link spam detection based on mass estimation. In VLDB’2006: 12 of 13
  14. 14. LITERATUR 13 Proceedings of the 32nd international conference on Very large data bases, pages 439–450. VLDB Endowment.[Kleinberg, 1999] Kleinberg, J. M. (1999). Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604–632.[Kolari et al., 2006] Kolari, P., Finin, T., and Joshi, A. (2006). SVMs for the Blogosphere: Blog Identification and Splog Detection. In AAAI Spring Sym- posium on Computational Approaches to Analysing Weblogs. Computer Science and Electrical Engineering, University of Maryland, Baltimore County. Also available as technical report TR-CS-05-13.[Metaxas and Destefano, 2005] Metaxas, P. T. and Destefano, J. (2005). Web spam, propaganda and trust. In Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web.[Mishne et al., 2005] Mishne, G., Carmel, D., and Lempel, R. (2005). Blocking blog spam with language model disagreement.[Wu and Davison, 2005] Wu, B. and Davison, B. (2005). Identifying link farm spam pages. In Proceedings of the 14th International World Wide Web Confe- rence, Industrial Track. 13 of 13

×