Präsentation und vorallem Beispiele zu Social Media in Verbindung mit SEO - Focus Linkbaits. Es gibt eine kurze Übersicht zu Möglichkeiten und Ideen für Linkbaits. Ihr kennt noch mehr gute Linkbaits, dann gerne hier auch mal kommentieren
White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...JustRelate
Die Bedeutung der populären Suchmaschinen im Internet wächst ständig. Wer hier prominent gelistet wird, lenkt viele Besucher auf seine Webpräsenz. Im Gegensatz zu anderen Medien lässt sich diese attraktive Werbung sogar kostenfrei „schalten“. Es verwundert deshalb nicht, dass die oberen Plätze in den Ergebnislisten speziell beim Marktführer Google heiß umkämpft sind.
Shopleiter-Magazin Nr. 4 - Juli 2010:
- Wissensmanagement mit Mediawiki
- Schlüsselwörter für Websuche
- Hardware-Ausfall beim Hosting-Anbieter
- Universal Search als Traffic-Magnet (Textprovider)
- Käuferschutz als Conversion-Booster im eCommerce (sofortüberweisung)
- Buch-Rezension The Art of SEO (von E. Enge, S. Spencer, R. Fishkin und J. Stricchiola)
Este documento resume brevemente la historia de los dispositivos de cálculo y computación, desde el ábaco en la antigua Asia Menor, pasando por la máquina analítica de Charles Babbage y la máquina tabuladora de Herman Hollerith, hasta llegar a las computadoras personales basadas en microprocesadores y la familia MacBook de Apple.
Este documento presenta un protocolo de investigación sobre el impacto de la imagen del producto en el consumidor. El estudio se llevará a cabo en San Luis Potosí, México de enero a mayo de 2013. El objetivo general es evaluar cómo las necesidades del consumidor afectan la imagen del producto. Algunas preguntas de investigación incluyen los principales competidores de Gatorade, las ventajas y desventajas de Gatorade y cómo ha evolucionado la publicidad a través de los años. La hipótesis es que Gatorade ha sido recon
Este documento presenta un protocolo de investigación sobre el impacto de la imagen del producto en el consumidor. El objetivo general es evaluar cómo las necesidades del consumidor se aplican a la imagen del producto y si el resultado es positivo o negativo. Los objetivos específicos son distinguir diferentes tipos de imágenes y consumidores y mejorar la imagen positiva que recibe el consumidor. La hipótesis es que Gatorade ha sido reconocido mundialmente gracias a su excelente publicidad en medios televisivos usando deportistas reconocidos, lo que ha llevado a que
La energía eólica se obtiene del movimiento del viento y se utiliza principalmente para generar electricidad mediante aerogeneradores. En 2011, la energía eólica produjo alrededor del 3% del consumo mundial de electricidad y un 16% en España. Es una fuente de energía renovable, limpia y ayuda a reducir las emisiones de gases de efecto invernadero.
Präsentation und vorallem Beispiele zu Social Media in Verbindung mit SEO - Focus Linkbaits. Es gibt eine kurze Übersicht zu Möglichkeiten und Ideen für Linkbaits. Ihr kennt noch mehr gute Linkbaits, dann gerne hier auch mal kommentieren
White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...JustRelate
Die Bedeutung der populären Suchmaschinen im Internet wächst ständig. Wer hier prominent gelistet wird, lenkt viele Besucher auf seine Webpräsenz. Im Gegensatz zu anderen Medien lässt sich diese attraktive Werbung sogar kostenfrei „schalten“. Es verwundert deshalb nicht, dass die oberen Plätze in den Ergebnislisten speziell beim Marktführer Google heiß umkämpft sind.
Shopleiter-Magazin Nr. 4 - Juli 2010:
- Wissensmanagement mit Mediawiki
- Schlüsselwörter für Websuche
- Hardware-Ausfall beim Hosting-Anbieter
- Universal Search als Traffic-Magnet (Textprovider)
- Käuferschutz als Conversion-Booster im eCommerce (sofortüberweisung)
- Buch-Rezension The Art of SEO (von E. Enge, S. Spencer, R. Fishkin und J. Stricchiola)
Este documento resume brevemente la historia de los dispositivos de cálculo y computación, desde el ábaco en la antigua Asia Menor, pasando por la máquina analítica de Charles Babbage y la máquina tabuladora de Herman Hollerith, hasta llegar a las computadoras personales basadas en microprocesadores y la familia MacBook de Apple.
Este documento presenta un protocolo de investigación sobre el impacto de la imagen del producto en el consumidor. El estudio se llevará a cabo en San Luis Potosí, México de enero a mayo de 2013. El objetivo general es evaluar cómo las necesidades del consumidor afectan la imagen del producto. Algunas preguntas de investigación incluyen los principales competidores de Gatorade, las ventajas y desventajas de Gatorade y cómo ha evolucionado la publicidad a través de los años. La hipótesis es que Gatorade ha sido recon
Este documento presenta un protocolo de investigación sobre el impacto de la imagen del producto en el consumidor. El objetivo general es evaluar cómo las necesidades del consumidor se aplican a la imagen del producto y si el resultado es positivo o negativo. Los objetivos específicos son distinguir diferentes tipos de imágenes y consumidores y mejorar la imagen positiva que recibe el consumidor. La hipótesis es que Gatorade ha sido reconocido mundialmente gracias a su excelente publicidad en medios televisivos usando deportistas reconocidos, lo que ha llevado a que
La energía eólica se obtiene del movimiento del viento y se utiliza principalmente para generar electricidad mediante aerogeneradores. En 2011, la energía eólica produjo alrededor del 3% del consumo mundial de electricidad y un 16% en España. Es una fuente de energía renovable, limpia y ayuda a reducir las emisiones de gases de efecto invernadero.
Dokumen tersebut merupakan laporan hasil kerja kursus seorang pelajar bernama Wong Hwee Yann untuk mata pelajaran Menggenal Nombor (MTE 3101) yang diserahkan pada 24 September 2011 di bawah Program Pensijilan Guru Jarak Jauh untuk Ijazah Sarjana Muda Perguruan.
El documento describe los pasos para crear una cuenta en OK PAY, verificarla y activar una cuenta en Emgoldex. Estos pasos incluyen darse de alta en OK PAY, verificar la cuenta mediante la subida de documentos de identidad y comprobación de dirección, cargar fondos a la cuenta a través de una transferencia bancaria e indicando un número de referencia único, y utilizar la cuenta OK PAY para comprar cupones en Emgoldex.
Este documento presenta una unidad sobre una mente y cuerpo sanos. Explica que los seres humanos necesitan cuidados para mejorar su calidad de vida y asigna a los estudiantes la tarea de crear parte de un folleto sobre la prevención de enfermedades usando imágenes y textos en Kid Pix. El documento también incluye preguntas de evaluación y recursos para que los estudiantes aprendan sobre hábitos saludables.
El documento presenta 10 fichas que describen hábitos y tradiciones comunes entre personas de la tercera edad en la sociedad. Estas incluyen reunirse en tiendas para dialogar o jugar, leer el periódico acompañado de café y cigarrillo, desarrollar destrezas a través de actividades, celebrar eventos en compañía de seres queridos, y reflexionar sobre creencias espirituales.
Este documento presenta una colección de artículos sobre la sociedad de la información y su impacto en la educación. Los autores discuten cómo las nuevas tecnologías están transformando la sociedad y la educación, y exploran cómo los sistemas educativos y los docentes pueden integrar mejor las tecnologías para preparar a los estudiantes para el futuro. El documento también analiza cuestiones como la igualdad de acceso a la tecnología, el papel cambiante de los profesores y estudiantes, y las oportunidades que brindan las nuevas
El documento presenta los resultados de un análisis espectral de señales de voz y guitarra usando MATLAB. Los resultados muestran que la voz tiene un ancho de banda de 1450 Hz con mayor potencia a 450 Hz, mientras que la guitarra tiene un ancho de banda de 1220 Hz con mayor potencia a 1100 Hz. La conclusión es que cada señal sonora tiene características espectrales únicas que pueden ser analizadas.
El documento detalla las actividades planeadas para octubre de 2013 en la Normal "Sor Juana Inés de la Cruz" en Tehuacán, Puebla. Incluye una presentación sobre la historia de Tehuacán y su región por la arqueóloga Nohemí Castillo Tejero el 15 de octubre, ensayos de danza, actividades para fomentar la lectura, un examen intermedio en la Normal de Ixcaquixtla, una visita a Ixcaquixtla, un rosario misionero, proyectos de ciencias para el grupo 3° A, y
Este documento presenta las actividades realizadas por estudiantes de segundo grado sobre computadoras Mac. Las actividades incluyeron repasar las partes de la computadora y cómo encender y apagar una Mac. Los estudiantes también dibujaron en un programa las partes del escritorio de una Mac y sugirieron formas de cuidarla. Finalmente, los estudiantes realizaron una autoevaluación de su trabajo y progreso en la unidad sobre computadoras Mac.
Este documento trata sobre la definición y características de los documentos electrónicos. Explica que los documentos electrónicos son aquellos cuyo soporte es electrónico o magnético y cuyo contenido está codificado digitalmente. Describe las principales características funcionales de los documentos electrónicos como su carácter multimedia, hipertextual y omniaccessible. Además, clasifica los documentos electrónicos según su forma de creación, origen y formato, y ofrece recomendaciones para la conservación y preservación a largo plazo
Este documento presenta la hoja de vida de una persona, incluyendo sus datos personales, perfil profesional deseado, objetivos profesionales, estudios académicos realizados, actividades académicas, experiencia, distinciones y referencias personales.
El documento habla sobre los tornillos y tuercas y su importancia en la construcción. Afirma que son indispensables para unir las cosas metálicas y ayudan a los obreros y mecánicos. Expresa orgullo en su trabajo y desea que la gente juzgue su desempeño en lugar de sus palabras.
El documento resume la candidatura y planificación de Londres para albergar los Juegos Olímpicos de 2012. Londres ganó la sede en la cuarta votación sobre París. Los juegos se celebrarían del 27 de julio al 12 de agosto de 2012 en instalaciones nuevas y existentes divididas en tres zonas. Inicialmente se preveía que los juegos tendrían un superávit, aunque el presupuesto final superó las previsiones. Se mejoraron los transportes públicos de cara a los juegos.
Este documento resume y compara dos textos sobre cómo realizar presentaciones orales de manera efectiva. Ambos textos brindan consejos sobre puntos clave como la introducción, el análisis del lugar, y cómo mejorar las habilidades de presentación. Mientras que uno ofrece una guía de cuatro pasos, el otro proporciona más detalles sobre cada etapa y recursos adicionales. El autor concluye que aunque el primer enfoque es más conciso, el segundo texto reduce más las dudas al abordar el tema de manera más profunda.
El documento resume los orígenes y partes principales de varios dispositivos de entrada para computadores e incluye: el escáner inventado por Microtek en 1984, la cámara web patentada por Quentin Stafford-Fraser y Paul Jardetzky en 1991, y el joystick inventado en Alemania en 1944.
The document discusses the benefits of exercise for mental health. Regular physical activity can help reduce anxiety and depression and improve mood and cognitive function. Exercise stimulates the production of endorphins in the brain which elevate mood and reduce stress levels.
Hören Sie auch ständig von neuen Trends in der SEO, oder fragen Sie sich ebenfalls warum der Duden bei den ständig neuen BUzzwords nicht mehr nachkommt? Hier erfahren Sie, warum sich die grundliegenden Erfolgsfaktoren in der SEO nie verändert haben, und dass nachhaltig erfolgreiche SEO-Strategien nicht durch aktuelle Tricks, sondern durch professionelle Planung zustande kommen.
Dokumen tersebut merupakan laporan hasil kerja kursus seorang pelajar bernama Wong Hwee Yann untuk mata pelajaran Menggenal Nombor (MTE 3101) yang diserahkan pada 24 September 2011 di bawah Program Pensijilan Guru Jarak Jauh untuk Ijazah Sarjana Muda Perguruan.
El documento describe los pasos para crear una cuenta en OK PAY, verificarla y activar una cuenta en Emgoldex. Estos pasos incluyen darse de alta en OK PAY, verificar la cuenta mediante la subida de documentos de identidad y comprobación de dirección, cargar fondos a la cuenta a través de una transferencia bancaria e indicando un número de referencia único, y utilizar la cuenta OK PAY para comprar cupones en Emgoldex.
Este documento presenta una unidad sobre una mente y cuerpo sanos. Explica que los seres humanos necesitan cuidados para mejorar su calidad de vida y asigna a los estudiantes la tarea de crear parte de un folleto sobre la prevención de enfermedades usando imágenes y textos en Kid Pix. El documento también incluye preguntas de evaluación y recursos para que los estudiantes aprendan sobre hábitos saludables.
El documento presenta 10 fichas que describen hábitos y tradiciones comunes entre personas de la tercera edad en la sociedad. Estas incluyen reunirse en tiendas para dialogar o jugar, leer el periódico acompañado de café y cigarrillo, desarrollar destrezas a través de actividades, celebrar eventos en compañía de seres queridos, y reflexionar sobre creencias espirituales.
Este documento presenta una colección de artículos sobre la sociedad de la información y su impacto en la educación. Los autores discuten cómo las nuevas tecnologías están transformando la sociedad y la educación, y exploran cómo los sistemas educativos y los docentes pueden integrar mejor las tecnologías para preparar a los estudiantes para el futuro. El documento también analiza cuestiones como la igualdad de acceso a la tecnología, el papel cambiante de los profesores y estudiantes, y las oportunidades que brindan las nuevas
El documento presenta los resultados de un análisis espectral de señales de voz y guitarra usando MATLAB. Los resultados muestran que la voz tiene un ancho de banda de 1450 Hz con mayor potencia a 450 Hz, mientras que la guitarra tiene un ancho de banda de 1220 Hz con mayor potencia a 1100 Hz. La conclusión es que cada señal sonora tiene características espectrales únicas que pueden ser analizadas.
El documento detalla las actividades planeadas para octubre de 2013 en la Normal "Sor Juana Inés de la Cruz" en Tehuacán, Puebla. Incluye una presentación sobre la historia de Tehuacán y su región por la arqueóloga Nohemí Castillo Tejero el 15 de octubre, ensayos de danza, actividades para fomentar la lectura, un examen intermedio en la Normal de Ixcaquixtla, una visita a Ixcaquixtla, un rosario misionero, proyectos de ciencias para el grupo 3° A, y
Este documento presenta las actividades realizadas por estudiantes de segundo grado sobre computadoras Mac. Las actividades incluyeron repasar las partes de la computadora y cómo encender y apagar una Mac. Los estudiantes también dibujaron en un programa las partes del escritorio de una Mac y sugirieron formas de cuidarla. Finalmente, los estudiantes realizaron una autoevaluación de su trabajo y progreso en la unidad sobre computadoras Mac.
Este documento trata sobre la definición y características de los documentos electrónicos. Explica que los documentos electrónicos son aquellos cuyo soporte es electrónico o magnético y cuyo contenido está codificado digitalmente. Describe las principales características funcionales de los documentos electrónicos como su carácter multimedia, hipertextual y omniaccessible. Además, clasifica los documentos electrónicos según su forma de creación, origen y formato, y ofrece recomendaciones para la conservación y preservación a largo plazo
Este documento presenta la hoja de vida de una persona, incluyendo sus datos personales, perfil profesional deseado, objetivos profesionales, estudios académicos realizados, actividades académicas, experiencia, distinciones y referencias personales.
El documento habla sobre los tornillos y tuercas y su importancia en la construcción. Afirma que son indispensables para unir las cosas metálicas y ayudan a los obreros y mecánicos. Expresa orgullo en su trabajo y desea que la gente juzgue su desempeño en lugar de sus palabras.
El documento resume la candidatura y planificación de Londres para albergar los Juegos Olímpicos de 2012. Londres ganó la sede en la cuarta votación sobre París. Los juegos se celebrarían del 27 de julio al 12 de agosto de 2012 en instalaciones nuevas y existentes divididas en tres zonas. Inicialmente se preveía que los juegos tendrían un superávit, aunque el presupuesto final superó las previsiones. Se mejoraron los transportes públicos de cara a los juegos.
Este documento resume y compara dos textos sobre cómo realizar presentaciones orales de manera efectiva. Ambos textos brindan consejos sobre puntos clave como la introducción, el análisis del lugar, y cómo mejorar las habilidades de presentación. Mientras que uno ofrece una guía de cuatro pasos, el otro proporciona más detalles sobre cada etapa y recursos adicionales. El autor concluye que aunque el primer enfoque es más conciso, el segundo texto reduce más las dudas al abordar el tema de manera más profunda.
El documento resume los orígenes y partes principales de varios dispositivos de entrada para computadores e incluye: el escáner inventado por Microtek en 1984, la cámara web patentada por Quentin Stafford-Fraser y Paul Jardetzky en 1991, y el joystick inventado en Alemania en 1944.
The document discusses the benefits of exercise for mental health. Regular physical activity can help reduce anxiety and depression and improve mood and cognitive function. Exercise stimulates the production of endorphins in the brain which elevate mood and reduce stress levels.
Hören Sie auch ständig von neuen Trends in der SEO, oder fragen Sie sich ebenfalls warum der Duden bei den ständig neuen BUzzwords nicht mehr nachkommt? Hier erfahren Sie, warum sich die grundliegenden Erfolgsfaktoren in der SEO nie verändert haben, und dass nachhaltig erfolgreiche SEO-Strategien nicht durch aktuelle Tricks, sondern durch professionelle Planung zustande kommen.
Linkbuilding effiziente und nachhaltige linkaufbau strategienFind Konzept GmbH
Linkaufbau für ein besseres Ranking in Suchmaschinen (SEO) - Profitieren Sie von nachhaltigem Linkaufbau und lernen Sie, wie Sie Backlinks effizient nach User
Workshop zum Thema Linkqualität auf der SEO Campixx 2013, von Darius Erdt und Sergio M.Vela, SEO Spezialisten bei Barketing - C-Pop, Dom-Pop, PR, Sichtbarkeit - Lässt sich die Qualität einer linkgebenden Seite an diesen Metriken festnageln? Nach manuellen Penaltys und dem Pinguin Updates stellt sich immer mehr die Frage, welche Links denn nun noch sicher sind. Wir wollen einen Einblick geben, wie nachhaltiges Linkbuilding aus unserer Sicht im Jahr 2013 aussehen sollte und diskutieren mit euch Qualitätskriterien im Linkaufbau, die das Linkprofil nicht ruinieren. Dabei geht es mehr als nur um Anchortexte...
SEO Campixx 2013: Linkbuilding - Wie misst man eigentlich Qualität?Darius Erdt
Das Penguin Update und manuelle Maßnahmen durch Google aufgrund von unnatürlichen Links zwingen SEOs zum Umdenken. Es ist aber letztlich auch weiterhin klar: Gute Backlinks sind weiterhin ein wichtiger Rankingfaktor. Die Frage daher ist: Wie kann ich aber nachhaltiges Linkbuilding betreiben? Welche Links kann man nun noch aufbauen? Und welche Dinge sollten man beim Linkaufbau beachten? Darius Erdt und Sergio M. Vela schilderten auf der SEO Campixx 2013 dazu ihre Sicht der Dinge.
Linkmarketing - Backlinkaufbau 2016 inkl. live Linkauditsemrush_webinars
Google bestätigte 2016 das Backlinks auch weiterhin für Google eines der wichtigsten Rankingfaktoren darstellen. Doch was sind gute und nachhaltige Backlinks? Welche bringen eine Seite nach vorne und welche sind schädlich? In dieser Präsentation zeige ich Ihnen folgendes:
- Wie ein Linkprofil im Jahre 2016 aussehen sollte
- Wie Sie gute von schlechten Links selber unterscheiden können
- Wie Sie an hochwertige Backlinks von anderen Webseiten kommen und das Google konform
- Wie Linkabbau funktioniert
- Warum Content-marketing nicht mehr wegzudenken ist aus dem Linkmarketing
Ziel des Webinares ist es, dass Sie in der Lage sind selbstständig ein Linkprofil analysieren zu können und eine Vorstellung davon haben, was man machen muss, um ein gutes Linkprofil aufzubauen (Und wie Sie schlechte und gefährliche Links abbauen können).
Experte: Michael Schöttler, CEO der imwebsein GmbH
- Keywordpositionen ermitteln mit SEO Rank Monitor
- Ladezeit beeinflußt Google Ranking
- PageRank Verteilung von Backlinks
- Neues Widerrufsrecht und Rückgaberecht
- Hobby zum Beruf machen
- Buch-Rezension: Gewusst wie - Das 1x1 der Pressearbeit
Strategien für erfolgreiches LinkbuildingBjörn Tantau
Slides zur Session "Strategien für erfolgreiches Linkbuilding" anlässlich des ConventionCamp am 10.11.2010 in Hannover von Björn Tantau, Geschäftsführer der Agentur TAMECO Onlinemarketing.
Quellen und Methoden für gute Backlinks - seonative Internet World München 2013seonative
Wie unterscheide ich guten und schlechten Linkaufbau, welche Quellen und Methoden gibt es um an gute Backlinks zu gelangen?
Mit diesen Fragestellungen beschäftigte sich seonative Geschäftsführer Andreas Armbruster in seiner Präsentation auf der Internet World 2013 in München.
In dieser Präsentation lernen Sie von einem Spezialisten alle wichtigen Elemente für Ihren zukünftigen Suchmaschinen-Erfolg kennen.
Dieses Seminar, das aus der täglichen Agenturpraxis kommt, ermöglicht Ihnen, selbst Suchmaschinen Optimierung durchzuführen oder diese an Mitarbeiter weiter zu geben. Aufgrund Ihres Basiswissens haben Sie nun die Möglichkeit mit Ihrer Werbe- und Internet-Agentur auf Augenhöhe zu kommunizieren. Aus der Erfolgsmessung können Sie Ihre zukünftigen Aktivitäten und Investitionen ableiten.
Was zählt, wenn Links nichts mehr wert sind? Welche Faktoren sind wichtig und welche könnten noch wichtiger werden? In dem Vortrag von Nicole erfahren wir, wie das SEO der Zukunft aussehen könnte – und was Sie heute schon machen können, um sich vor Abstrafungen durch Google zu schützen. Praktische Tipps – nicht nur für SEOs und Techis geeignet!
Meine Präsentation vom SEOday 2015 in Köln zum Thema Crawl-Budget und Crawl-Rate-Optimierung mit vielen Tipps zur Verbesserung von Auffindbarkeit, Indexierung, Geschwindigkeit sowie den "häufigsten Stolpersteinen" bei der Optimierung.
Ähnlich wie Text Link Spam-Erkennung und -Unterdrückung (20)
This document discusses techniques for geolocating IP addresses. It begins with an introduction explaining that while not perfect, IP geolocation can locate most addresses to within several hundred kilometers, which is sufficient for many applications. It then outlines both non-automated and automated geolocation techniques. Non-automated techniques include manually maintained databases and heuristics, while automated techniques use delay measurements and topology hints to triangulate locations. The document focuses on delay-based measurement techniques like GeoPing, which assumes landmarks with similar delays to a target are nearby, and shortest ping, which assigns targets to the closest landmark.
The document discusses the extensible messaging and presence protocol (XMPP) and its open source instant messaging system called Jabber. It provides an overview of the decentralized infrastructure of Jabber and how it functions like email. It also describes several standards and implementations of Jabber including pubsub for push notifications, the common alerting protocol for emergency alerts, and its use by the US Army. The document encourages coding with Jabber due to its libraries for many languages and open documentation.
1. Humboldt Universitat zu Berlin
¨
Seminar Network Mining
Betreuer: Isabel Drost
Link Spam-Erkennung und
¨
-Unterdruckung
Zusammenfassung
Aus meist kommerziellen Interessen wird durch sogenannten Linkspam
versucht, den Pagerank [Brin and Page, 1998] bzw. HITS [Kleinberg, 1999]-
Wert, der f¨r popul¨res Ranking innerhalb einer Suchmaschine verantwort-
u a
o ¨
lich ist, zu erh¨hen. Dieses Paper soll einen Uberblick uber Probleme und
¨
L¨sungsans¨tze geben, um Suchmaschinenergebnisse von derartigem un-
o a
erw¨nschtem Spam zu bereinigen.
u
Florian Holzhauer
fh-hu@fholzhauer.de
5. Februar 2007
2. 1 EINLEITUNG 1
1 Einleitung
Moderne Suchmaschinen haben Milliarden Webseiten in ihren Datenbanken in-
diziert, und stellen Suchwortabh¨ngig die wahrscheinlich zutreffendsten Links zur
a
Verf¨gung - die bekannteste Suchmaschine Google nutzt zur Bestimmung beispiels-
u
weise den sogenannten Pagerank-Algorithmus [Brin and Page, 1998]. F¨r einen
u
kommerziellen Webseitenbetreiber ist gute Auffindbarkeit bei relevanten Suchwor-
ten, und damit ein hoher Pagerank, daher ausgesprochen wichtig - je popul¨rer die
a
Position in den Suchmaschinenergebnissen, destso wahrscheinlicher ist es, dass der
Benutzer die Website besucht. Aus dieser Erkenntnis heraus entwickelte sich der so-
genannte SEO (Search Engine Optimizers)-Markt, dessen Dienste darin bestehen,
den Pagerank einer Seite m¨glichst hoch zu optimieren. Da eines der wichtigsten
o
Elemente des Pagerank-Algorithmus die Anzahl der Links ist, die auf die zu op-
timierende Seite verweisen, werden h¨ufig Seiten oder Links erschaffen, die nicht
a
etwa sinnvollen Inhalt haben, sondern ausschliesslich dazu dienen, den Linkrank
der beworbenen Seite1 zu erh¨hen.
o
1.1 Page-Rank
Der Pagerank-Algorithmus, in [Brin and Page, 1998] beschrieben, gilt als Grund
des Erfolges der Suchmaschine Google. Er spezifiziert die ”Wichtigkeit” einer Web-
site, die mit der Formel
1−d PRj
PRi = +d
N ∀j∈{(j,i)}
Cj
berechnet wird. Hier ist PRi der zu berechnende Pagerank, N die Gesamtzahl der
indizierten Websiten, und d ein D¨mpfungsfaktor. PRj ist die verlinkende Seite,
a
Cj ist die Anzahl der Seiten, die PRj verlinkt.
Hinter dem Page-Rank versteckt sich die Idee des Random Surfer Modells -
der Page-Rank will also das Verhalten eines zuf¨lligen Websurfers modellieren,
a
der nicht auf die Seiteninhalte achtet. Er klickt also zuf¨llig auf einen Link
a
einer Seite, und von dort aus wieder zu¨llig auf einen weiteren Link. Aus der
a
Verlinkungsh¨ufigkeit einer Seite ergibt sich so eine hohe Wahrscheinlichkeit, mit
a
der der Surfer auf die Seite gelangt, und damit ein hoher Page-Rank.
1
Wichtig ist auch der Linkrank der Seiten, die auf die zu optimierende Seite verweisen -
da dieser Linkrank aber ebenfalls effektiv auf der Verlinkung dieser Quellseiten basiert, ist das
Kernproblem das selbe.
1 of 13
3. 1 EINLEITUNG 2
Der D¨mpfungsfaktor simuliert hier die Wahrscheinlichkeit, mit der ein Surfer
a
zuf¨llig eine Seite besucht, ohne einem Link zu folgen - etwa uber ein Browser-
a ¨
bookmark. So wird vermieden, dass nicht verlinkte Websiten vollst¨ndig durch
a
den Pagerank-Algorithmus vernachl¨ssigt werden. Der Wert von d bewegt sich
a
meist um etwa 0.85.
Kurz gesagt entscheiden also drei Elemente einen guten Pagerank, und damit
eine prominente Darstellung einer Website in einer Suchmaschine: Einerseits die
absolute Zahl der eingehenden Links, andererseits der Pagerank der verlinkenden
Seiten, da dieser Pagerank ja ”weitervererbt” wird. Der dritte Faktor, die Anzahl
der Links, die eine verlinkende Seite besitzt, wird bei Spamming-Techniken
ublicherweise nicht ber¨cksichtigt.
¨ u
Ein Spammer will somit seine zu bewerbende Seite m¨glichst h¨ufig verlinken,
o a
und das durch Webseiten, die einen m¨glichst hohen Pagerank haben.
o
1.2 HITS
Ein ¨hnlicher Ansatz zur Bewertung der Relevanz von Webseiten findet sich in
a
[Kleinberg, 1999] - statt einem spezifischem Pagerank werden hier zwei unter-
schiedliche Werte berechnet: W¨hrend der sogenannte Authority-Wert bzw. das
a
Authority-Gewicht ai analog zum Pagerank angibt, wie h¨ufig eine Seite von
a
anderen verlinkt ist, wird mit dem Hub-Gewicht hi angegeben, wieviel Seiten von
der Seite verlinkt werden. Eine Bookmark-Sammlung etwa bekommt so ein hohes
Hub-Gewicht durch die vielen ausgehenden Links, aber nicht zwangsl¨ufig einen
a
hohen Authority-Wert, da sie ja nicht unbedingt von anderen Seiten verlinkt
wird. Hinzu kommt, dass HITS rekursiv definiert ist - eine Seite, die Links auf
Seiten mit gutem Authority-Wert bietet, bekommt einen hohen Hub-Wert, und
umgekehrt.
Berechnet werden die beiden Werte wie folgt:
n
hi = δ Aij aj
j=1
n
ai = λ ATik hk
k=1
Hier ist Aij eine Matrix, die angibt, ob es einen Link von i nach j gibt - in
diesem Fall ist Aij = 1, sonst 0. AT ist die transponierte Matrix von A, die
ij
”Gegenrichtung”.
2 of 13
4. 2 LINK-SPAM-SYSTEME 3
2 Link-Spam-Systeme
Um einer Seite zu einer guten Suchmaschinenposition zu verhelfen, ist somit
auch die Linkdichte interessant, wie aus den beiden Bewertungsalgorithmen klar
erkennbar ist. Ein Spammer, der eine bestimmte Seite propagieren will, ist also
vor allem an Links auf eine Seite interessiert.
M¨glichkeiten, Links auf andere Webseiten zu erzeugen, gibt es ausgesprochen
o
viele - die im folgenden besprochenen Papers widmen sich vor allem den beiden
momentan am h¨ufigsten auftretenden Erscheinungen, ”Blogspam” und ”Linkfar-
a
men”.
2.1 Blogspam
Ein sogenanntes Weblog zeichnet sich unter anderem dadurch aus, dass es
verschiedene Mechanismen der Kommentierung zul¨sst, meist sogenannte Track-
a
backs und Kommentare. W¨hrend Kommentare Leser-Annotationen zu einem
a
in einem Weblog ver¨ffentlichtem Text sind, handelt es sich bei Trackbacks um
o
R¨ckverweise anderer Blogs auf einen Artikel, die darauf hinweisen wollen, dass
u
der Blogeintrag in dem r¨ckverweisendem Weblog behandelt wurde.
u
Beiden Kommentierungsm¨glichkeiten gemeinsam ist, dass sie auch We-
o
blinks zu anderen Seiten beinhalten d¨rfen. Blogspam (z.B. erl¨utert in
u a
[Mishne et al., 2005], siehe auch Abbildung 1) nutzt diese Eigenschaft aus, um
so auf eine beworbene Seite zu verlinken, die inhaltlich meist nichts mit dem
eigentlichen Textinhalt zu tun hat. Erw¨nschter Nebeneffekt dieser Verlinkung
u
ist hier, dass der Pagerank-Algorithmus auch den Rank der Quellseite mit
ber¨cksichtigt, der Spammer so also auch von der Popularit¨t des bespammten
u a
Weblogs profitieren.
Diese Spamtechnik ist selbstverst¨ndlich nicht auf Weblogs beschr¨nkt, sondern
a a
findet sich in ahnlichen Variantionen in nahezu allen anderen Websystemen wieder,
¨
die Benutzerinhalte in ihrer Seite zeigen - so seien hier noch Foren, G¨steb¨cher
a u
oder Wikis erw¨hnt. Die im Weiteren vorgestellten Spamerkennung-Techniken
a
lassen sich meist analog auf derartige Systeme anwenden.
2.2 Linkfarmen
Eine Linkfarm ist eine Ansammlung von automatisch generierten Webseiten, die
sich gegenseitig sowie eine zu bewerbende Seite verlinken, und mit suchmaschinen-
3 of 13
5. 3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE 4
relevanten Stichworten gef¨llt sind (siehe etwa [Fetterly et al., 2004]). Durch die
u
starke gegenseitige Verlinkung wird der Pagerank sowohl der Linkfarm als auch
der beworbenen Seite in die H¨he getrieben. Inhaltlich und technisch sind Linkfar-
o
men ublicherweise sehr stark darauf optimiert, f¨r bestimmte Stichworte m¨glichst
¨ u o
popul¨r auf einer Suchmaschine gezeigt zu werden - so taucht das Stichwort an
a
vielen Stellen der Seite auf, etwa im Domainnamen, dem Seitennamen oder auch
in der Seite (siehe Abb. Abbildung 2) selbst.
Auch verschiedene andere technische Charakteristika sind bei Linkfarmen
auff¨llig. So werden die Suchanfragen, uber die ein Besucher auf eine Linkfarm
a ¨
gelangt, mitprotokolliert und entsprechend bei der n¨chsten Seitengenerierung mit
a
ber¨cksichtigt. Der Inhalt der Seiten ist also oft nicht statisch, sondern dynamisch
u
generiert. Dies hat zwar den Vorteil f¨r einen Spammer, seine Seiten auf aktuell
u
popul¨re Suchbegriffe zu optimiert zu haben, ist aber gleichzeitig ein Indikator,
a
der zur Spamerkennung genutzt werden kann. Die meisten seri¨sen Seiten haben
o
zumindest gr¨ssere Anteile, die nach einer erstmaligen Ver¨ffentlichung statisch
o o
bleiben.
3 Filterung durch technische Attribute
Ein naheliegender Ansatz diesen Spam zu erkennen ist eine quantitative bzw.
linguistische Methodik, da sich Spam oft durch bestimmte Charakteristiken und
Wortfolgen auszeichnet, die der Suchwort-Optimierung geschuldet sind. Viele die-
ser Eigenschaften spiegeln sich in Eigenschaften des Servers bzw ¨hnlichen ”Meta-
a
Attributen” oder in der Wortwahl und -frequenz wieder.
3.1 Erkennung durch Servereigenschaften
In die Bewertung des Suchmaschinenposition einer Seite fliesst neben vielen
anderen Attributen auch mit ein, ob das gesuchte Wort Bestandteil des Domain-
bzw. Seitennamens ist - basierend auf dem PageRank einer Seite wird zum Zeit-
punkt der Suche zus¨tzlich ein Inhalts-Scoring durch verschiedene Seitenattribute
a
im Hinblick auf die Suchanfrage erstellt. Linkfarmen erstrecken sich daher auf
viele meist automatisch generierte Subdomains und Seiten, die dynamisch bei
jedem Besuch neu erzeugt werden. Die daraus resultierenden Besonderheiten, wie
etwa eine sehr hohe Anzahl Subdomains, die alle einer IP-Adresse und damit
einem Webserver zugeordnet werden k¨nnen, oder auch die sehr hohe Linkdichte
o
innerhalb einer solchen Seitenansammlung lassen sich als deutliche Abweichungen
vom Durchschnitt erkennen.
4 of 13
6. 3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE 5
Abbildung 1: Blogspam am Beispiel lawblog.de
Abbildung 2: Beispiel einer durch eine Linkfarm generierte Spamseite
5 of 13
7. 3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE 6
Verschiedene Charakteristiken dieser Art werden in [Fetterly et al., 2004]
¨
beschrieben, auch weitere Eigenheiten wie eine sehr hohe Ahnlichkeit der Seiten
selbst, sowie eine auff¨llig hohe Aktualisierungsquote die dem automatischen Ge-
a
nerieren solcher Spamseiten bei jedem Besuch geschuldet sind, werden betrachtet.
Hervorzuheben ist hier vor allem, dass die meisten erl¨uterten Erkennungsmecha-
a
nismen keine weitergehenden Informationen uber die Linkstruktur zwischen den
¨
Seiten ben¨tigen.
o
Hier wird ein grosses Set an Seiten-Daten (einmal 150 Millionen Urls, einmal
429 Millionen) auf einige dieser Charakteristiken untersucht - so etwa, wieviel
verschiedene Hostnamen auf eine einzelne IP-Adresse zeigen, Anzahl von ausge-
henden und eingehenden Links einer Seite, oder das h¨ufige Vorkommen einzelner
a
Worte bzw ¨hnlicher Seiten innerhalb einer Seite (siehe Abbildung 3). Auch die
a
¨
Anderungsfrequenz des Website-Inhaltes wird betrachtet - ein bei jedem Besuch
anderer Inhalt ist ein Indikator f¨r eine automatisch generierte Seite, die nicht
u
statisch vorgehalten wird.
3.2 Erkennung durch Seiteneigenschaften
Mit ¨hnlichen technischen Attributen befasst sich auch [Drost and Scheffer, 2005]
a
- hier wird allerdings auf Eigenheiten der einzelnen Website sowie der verlinken-
den und verlinkten Seiten der zu bewertenden Website eingegangen. Faktoren
wie der L¨nge der Domain, Anzahl der Subdomains, die Topleveldomain und
a
Eigenschaften verschiedener HTML-Elemente, die pro Website mit einem ”tfdif-
Vektor”(term frequency, inverse document frequency) angebeben werden, ergeben
zusammen einen Spamwahrscheinlichkeitswert.
Abbildung 3: Stark ¨hnliche Seiten innerhalb einer Domain
a
6 of 13
8. 3 FILTERUNG DURCH TECHNISCHE ATTRIBUTE 7
Basierend auf einem manuell ausgew¨hltem Set von Spam- und Hamseiten wird
a
anschliessend untersucht, welche Eigenheiten momentan die geeignetsten sind,
um Spam zu klassifizieren. Wie anschliessend auch ausgef¨hrt wird, ist dieses
u
¨
Ergebnis allerdings laufenden Anderungen unterzogen, da Spammer jedem neuen
Erkennungsmechanismus mit entsprechenden Gegenmassnahmen begegnen.
3.3 Sprachliche Eigenschaften
Auch sprachliche Eigenschaften sind denkbare Ansatzpunkte einer Spamerken-
nung. [Kolari et al., 2006] untersucht die H¨ufung von Wortteilen innerhalb einer
a
Seite, wobei hier auch ber¨cksichtigt wird, wo genau die Wortteile erscheinen, etwa
u
innerhalb eines Metatags. Diese Eigenschaften werden hier zur Unterscheidung
zwischen echten Weblogs und Weblogs mit reinen Spaminhalten untersucht - also
eine Kombination aus Linkfarm und Blogspam.
Mittels einer ”Support Vector Machine” (SVM), eines Klassifikationsmecha-
nismus der zun¨chst mit manuell ausgew¨hlten Seiten trainiert wurde, wird
a a
untersucht, welche Seitenelemente sich zur Unterscheidung eignen. Hier genutzte
Elemente sind sogenannte Meta-Elemente, worunter der Seitentitel, die Seiten-Url
und der ”Generator”-Metatag verstanden wird, Link-Elemente der Seite sowie
der eigentliche Seiten-Text selbst.
In der Ausf¨hrung wurden so Genauigkeiten von bis zu 88 Prozent erreicht, und
u
untersucht, wo einige Probleme bei der fehlerhaften Klassifizierung liegen.
Vor allem f¨r Blogspam geeignet scheint auch der Ansatz in [Mishne et al., 2005]
u
- hier werden Unterschiede der Sprachmodelle zwischen einzelnen Kommentaren
in einem Blog mit dem Blogposting selbst sowie der verlinkten Seiten betrachtet.
Die hier genutzte Methodik macht sich zunutze, dass der Blogeintrag selbst sowie
die verschiedenen Kommentare von unterschiedlichen Autoren mit entsprechend
unterschiedlichem Stil geschrieben wurden.
Als Entscheidungskriterium wird hier die sogenannte ”Kullback-Leibler-
Divergenz” zwischen den einzelnen Elementen betrachtet, also die Sprachvariation
zwischen den einzelnen Sprachmodellen der Kommentare und Blogeintr¨ge. Jedes
a
Sprachmodell bildet eine Wahrscheinlichkeitsfunktion in Form einer Gausskurve.
Anhand der unterschiedlichen Auspr¨gungen, der Modell¨hnlichkeit zum ur-
a a
spr¨nglichen Blogpostings also, kann nun bestimmt werden, welche Kommentare
u
wahrscheinlich zum Stil und Inhalt des Blogpostings passen. Je gr¨sser die
o
7 of 13
9. 4 FILTERUNG DURCH GRAPHANALYSE 8
Abweichung, destso h¨her die Spamwahrscheinlichkeit.
o
Es ist allerdings intuitiv klar, dass diese L¨sung nicht grunds¨tzlich sinnvoll
o a
ist. So sind z.B. Weblogs denkbar, bei dem das Sprachmodell des urspr¨nglichen
u
Eintrags bewusst anders als die Kommentare sind - ein Weblog mit Gedichten, die
kommentiert werden, ist hier eine Idee. Auch ist naheliegend, dass ein Spammer
sich die Idee zu eigen machen kann, in dem er das Sprachmodell zun¨chst a
analyisiert und sein Kommentar automatisiert anpasst.
Zu letzterem Angriffs-Szenario machen sich die Autoren auch einige weitergehen-
de Gedanken - ein derartiger Angriff bringt es dann mit sich, dass in verschiedenen
Blogs sehr unterschiedliche Sprachmodelle mit den selben Links zu finden sind, so
dass hier durch eine blog¨bergreifende Analyse Spam wiederum sehr schnell er-
u
kennbar ist.
4 Filterung durch Graphanalyse
Ein komplett anderer Ansatz findet sich in der Idee wieder, die zu bewertende
Linkstruktur als gerichteten Graphen zu betrachten, und auf Unterschiede zwi-
schen Ham und Spam zu untersuchen. Neben vielen Hintergrundinformationen zur
¨
Geschichte und Evolution von Linkspam finden sich grundlegende Uberlegungen
zu dieser Idee in [Metaxas and Destefano, 2005]:
Wir befinden uns heute in der dritten Suchmaschinengeneration. W¨hrend die
a
erste Generation sich ausschliesslich mit Schl¨sselw¨rtern auf der jeweiligen Seite
u o
im Text, in Meta-Tags oder ¨hnlichem besch¨ftigte, ging die zweite Generation
a a
bereits auf die Linkstruktur der jeweiligen Seiten ein - je h¨ufiger eine Seite
a
verlinkt wurde, destso besser die Suchmaschinenposition - eine Idee, die ausge-
sprochen trivial durch Linkspam angegriffen werden konnte.
Die dritte, heute aktuelle, Generation von Suchmaschinen hat diese Verlin-
kungsidee zwar aufgegriffen, aber durch den Pagerank-Algorithmus verfeinert, wie
bereits in der Einleitung ausgef¨hrt wurde.
u
Im Paper wird anschliessend ausgef¨hrt, dass es noch weiterf¨hrende Ideen zu
u u
dieser Technik gibt - so ist etwa davon auszugehen, dass eine Seite, die Spam
bewusst verlinkt, wahrscheinlich ebenfalls Spam ist. Gerade im Bereich des
Blogspam ist allerdings offensichtlich, dass dieser Ansatz durchaus nicht immer
zutrifft - solche Verlinkungen m¨ssen nicht vom Seiten-Autor gewollt sein.
u
8 of 13
10. 4 FILTERUNG DURCH GRAPHANALYSE 9
Abbildung 4: Trust-Neighborhood von ”1”
¨
Ausgehend von dieser Uberlegung wird nun untersucht, wie man solche Link-
Typen unterschieden kann. Verlinkungen innerhalb einer Linkfarm haben h¨ufig a
Kreisstrukturen und Backlinks, also gegenseitige Verlinkungen (siehe beispielswei-
se die Kreissstruktur in Abbildung 4). Da solche Strukturen bei Ph¨nomenen wie
a
Blogspam nicht auftreten, kann man uber die Graphenstruktur Aussagen zur In-
¨
tention einer Verlinkung treffen - ein Spammer wird das Blog nicht verlinken, da
er sonst Pagerank-bedingt seinen eigenen Pagerank automatisch verschlechtert.
4.1 Graphanalyse mit Good Core
Ausgehend von einem ”Good Core”, einem als Ham bekannten Set von Web-
seiten, besch¨ftigen sich [Gyongyi et al., 2006] und [Gyongyi et al., 2004] mit
a
Ans¨tzen, durch Graphanalyse Spam zu erkennen. Der Nachteil dieser Methode
a
ist hier allerdings, dass es kein rein technischer Ansatz ist - ohne eine menschli-
che Interaktion, die Kennzeichnung des Basissets als solches, ist der Ansatz nutzlos.
Einen solchen Good Core vorausgesetzt wird in [Gyongyi et al., 2004] f¨r jede
u
Website im Linkverbund ein Page- bzw Trustrank erstellt. Diese Berechnung
findet mit zwei unterschiedlichen, kombinierbaren, Methoden statt: Seiten des
Good Core haben einen Trustrank von 1, dem h¨chstm¨glichen Wert. Jede
o o
verlinkte Website bekommt den Trustrank der sie verlinkenden Seite, allerdings
9 of 13
11. 4 FILTERUNG DURCH GRAPHANALYSE 10
multipliziert mit einem D¨mpfungswert (”trust damping”) 0 < β < 1 - eine direkt
a
von einer ”guten” Seite verlinkte Website, bei der daher davon auszugehen ist,
dass es sich hier ebenfalls nicht um Spam handelt, bekommt also den Trustrank
1 ∗ β - eine Linkebene weiter entsprechend 1 ∗ β ∗ β. Je weiter eine Seite also vom
Good Core entfernt ist, destso niedriger der Trustrank. Ein weiterer Mechanismus
ist der des ”trust splitting” - ausgehend von der Idee, dass eine Website mit
wenigen Urls diese sorgf¨ltiger pr¨ft, wird der Trustrank der verlinkenden Seite
a u
entsprechend verteilt. Die verlinkte Seite erh¨lt also nicht, wie im vorherigen
a
Beispiel, einfach 1 ∗ β, sondern (1/Linkzahl) ∗ β.
Eine Weiterentwicklung dieser Idee findet sich in [Gyongyi et al., 2006]:
Wenn eine Seite Links besitzt, die auf eine Element des Bad Cores, also der
Gruppe als Spam bekannter Seiten, zeigt, ist sehr wahrscheinlich, dass diese Seite
ebenfalls spammt. Ausgehend von dieser Idee werden zun¨chst zwei naive Ans¨tze
a a
zur Erkennung solcher Verlinkungen skizziert, zusammen mit einigen Gr¨nden,u
warum ein naiver Ansatz nicht ausreichend ist.
Ausserdem muss ein Link auf eine Seite des Bad Cores nicht zwangsl¨ufig be-
a
wusst erfolgen. Wie im Paper ausgef¨hrt gibt es eine ganze Reihe von Gr¨nden,
u u
warum eine solche automatisierte ”Abstrafung” nicht sinnvoll ist. So ist es g¨ngiges
a
Verhalten von Spammern, alte und aufgegebene Domains zu kaufen, und sie mit
Spam zu f¨llen. Ein Link kann allerdings bereits zu einem Zeitpunkt gesetzt worden
u
sein, zu dem die Domain noch mit sinnvollen Inhalten vor der L¨schung gef¨llt war
o u
¨
- also vor Ubernahme durch den Spammer. Auch Blog-Spam ist hier ein Beispiel,
der Link auf die Spamseite ist so in keinem Fall vom Seitenbetreiber erw¨nscht.
u
4.2 Graphanalyse ohne Good Core
Auf ein Good Core, also ein vordefiniertes Set ”guter” Seiten, verzichtet hingegen
[Wu and Davison, 2005]. Zun¨chst wird hier auf die Idee des sogenannten Bad
a
Ranks eingegangen, der als
BRj
BRi = E(A)(1 − d) + d
∀j∈{(j,i)}
Cj
definiert ist - die meisten Werte sind hier analog zum Pagerank
[Brin and Page, 1998] definiert, E(A) gibt hier einen origin¨ren Bad-Rank-
a
Wert an, der beispielsweise mittels Spamfiltern berechnet werden kann.
10 of 13
12. 5 AUSBLICK 11
Die Autoren leiten anschliessend auf einen eigenen Ansatz, ParentPenalty ge-
nannt, hin. Interessant ist hier vor allem der Ansatz, einen Bad Core automatisch
bestimmen zu k¨nnen, eine manuelle Auswahl vordefinierter Spam-Seiten bzw. ei-
o
nes Good Cores wie in den vorherigen Arbeiten ist hier nicht zwingend erforderlich.
Hierf¨r gehen die Autoren davon aus, dass viele Linkfarmen sich dadurch
u
auszeichnen, dass sie innerhalb der selben Domain viele Seiten gegenseitig
verlinken - ein von Spammern gewollter Effekt, um so den PageRank zu erh¨hen.o
F¨r jeden Seite wird zusammengefasst, welche Domains von ihr verlinkt werden,
u
und welche sie verlinken - es werden also zwei Domain-Mengen, INdomain(p)
und OUTdomain(p), definiert. Anschliessend wird die Schnittmenge der beiden
Mengen gebildet - ist diese Menge h¨her als eine vorher definierte Schwelle,
o
wird die Seite als Spam betrachtet, verlinkt sie doch auffallend oft andere Seiten
innerhalb der selben Domain.
Ausgehend hiervon wird nun der Mechanismus der ParentPenalty definiert.
Wenn eine Seite viele Spam-Seiten verlinkt, ist davon auszugehen, dass es sich bei
der verlinkenden Seite ebenfalls um Spam handelt - auch uber mehrere Linktiefen
¨
hinweg. Hierf¨r wird mit dem eben definiertem Seed-Set, den potentiellen Spam-
u
Seiten, eine Matrix An gebildet - ist die Seite n Spam, ist der Wert An 1, sonst 0.
Nun werden die einzelnen Seiten ein weiteres Mal betrachtet: Wenn die Anzahl
der Links auf Spam-Seiten einer Seite h¨her als ein vorab definierter Treshold ist,
o
wird die Seite ebenfalls als Spam betrachtet, An wird also zu 1. Diese Betrachtung
wird so lange wiederholt, bis sich A nicht mehr ¨ndert.
a
Anschliessend wird auf mehreren Seiten evaluiert, wie Suchergebnisse basierend
auf Pagerank im Vergleich zu bereinigten Ergebnissen mittels ParentPenalty ver-
halten - der Umfang dieser Untersuchung ist deutlich zu ausf¨hrlich f¨r diese Zu-
u u
sammenfassung. Insgesamt zeichnet sich jedoch ab, dass der Ansatz sehr vielver-
sprechend ist, aber einige Probleme mit sich bringt. So ist etwa die Auswahl eines
geeigneten Tresholds nicht unbedingt trivial, ausserdem werden verschiedene Bei-
spiele erw¨hnt, bei denen ParentPenalty zu Unrecht Spam vermutet.
a
5 Ausblick
Spam ist ein Wettkampf zwischen Suchmaschinenbetreibern und Spammern. Jeder
neue Ansatz, jeder neue Algorithmus zu Erkennung und Beseitigung von Spam
ist nur so lange effektiv, bis Spammer die Implementation verstanden haben, und
ihre Mechanismen entsprechend angepasst haben - eine endg¨ltige technische
u
11 of 13
13. LITERATUR 12
L¨sung f¨r dieses soziale Problem ist nicht absehbar. Die meisten der in dieser
o u
Ausarbeitung beschriebenen Probleml¨sungen weisen auch deutlich darauf hin,
o
dass ihr jeweiliger Ansatz nur vor¨bergehend hilfreich ist - sollte ein Mechanismus
u
zu erfolgreich sein, ist es simpel, den Ansatz zu verstehen und entsprechend
zu bek¨mpfen - so w¨rden die meisten Ideen beispielsweise scheitern, sollte ein
a u
Spammer ”unschuldige” Seiten mitverlinken, und so bewusst Kollateralsch¨den a
provozieren.
[Gori and Witten, 2005] gibt verschiedene Ideen, dieses Dilemma zumindest zu
entsch¨rfen, unter anderem, in dem ein Weg weg von einer globalen Suchmaschine
a
zu personalisierteren Diensten skizziert wird. So gibt es keinen spezifischen Page-
rank mehr, auf den maximal m¨glich optimiert werden kann. Die Verfasser fordern
o
einen Paradigmenwechsel, eine ”intellectually violent revolution”: Verschiedene Be-
nutzer suchen unterschiedliche Antworten auf die selbe Suchanfrage, so dass hier
eine absolute Pagerank-Funktion nicht sinnvoll ist - eher eine auf den jeweiligen
Besucher optimierte Funktionen, die je nach Personalisierung unterschiedliche Er-
gebnisse bieten. Gerade im Hinblick auf die Ans¨tze des Semantic Web gibt es
a
sicher noch viele Ideen zu Suchalgorithmen, die weit uber das hinausgehen, was
¨
heute als State of the Art gilt.
Literatur
[Brin and Page, 1998] Brin, S. and Page, L. (1998). The anatomy of a large-scale
hypertextual web search engine. Computer Networks and ISDN Systems, 30(1–
7):107–117.
[Drost and Scheffer, 2005] Drost, I. and Scheffer, T. (2005). Thwarting the nigri-
tude ultramarine: learning to identify link spam. In Proceedings of the 16th
European Conference on Machine Learning (ECML), volume 3720 of Lecture
Notes in Artificial Intelligence, pages 233–243, Porto, Portugal.
[Fetterly et al., 2004] Fetterly, D., Manasse, M., and Najork, M. (2004). Spam,
damn spam, and statistics: Using statistical analysis to locate spam web pages.
[Gori and Witten, 2005] Gori, M. and Witten, I. (2005). The bubble of web visi-
bility. Commun. ACM, 48(3):115–117.
[Gyongyi et al., 2004] Gyongyi, Z., Berkhin, P., Garcia-Molina, H., and Pedersen,
J. (2004). Combating web spam with trustrank. In VLDB, pages 576–587.
[Gyongyi et al., 2006] Gyongyi, Z., Berkhin, P., Garcia-Molina, H., and Pedersen,
J. (2006). Link spam detection based on mass estimation. In VLDB’2006:
12 of 13
14. LITERATUR 13
Proceedings of the 32nd international conference on Very large data bases, pages
439–450. VLDB Endowment.
[Kleinberg, 1999] Kleinberg, J. M. (1999). Authoritative sources in a hyperlinked
environment. Journal of the ACM, 46(5):604–632.
[Kolari et al., 2006] Kolari, P., Finin, T., and Joshi, A. (2006). SVMs for the
Blogosphere: Blog Identification and Splog Detection. In AAAI Spring Sym-
posium on Computational Approaches to Analysing Weblogs. Computer Science
and Electrical Engineering, University of Maryland, Baltimore County. Also
available as technical report TR-CS-05-13.
[Metaxas and Destefano, 2005] Metaxas, P. T. and Destefano, J. (2005). Web
spam, propaganda and trust. In Proceedings of the First International Workshop
on Adversarial Information Retrieval on the Web.
[Mishne et al., 2005] Mishne, G., Carmel, D., and Lempel, R. (2005). Blocking
blog spam with language model disagreement.
[Wu and Davison, 2005] Wu, B. and Davison, B. (2005). Identifying link farm
spam pages. In Proceedings of the 14th International World Wide Web Confe-
rence, Industrial Track.
13 of 13