Spamdetectie bij Google

•Als PPTX, PDF herunterladen•

0 gefällt mir•699 views

Lezing door Peter van der Graaf (Booming.nl) 3 maart 2016, VOGIN-IP-lezing, Amsterdam Over de toepassing van machine learning bij spamdetectie

Internet

Google spamdetectie
Peter van der Graaf
Booming

Peter van der Graaf
• 18 jaar SEO expert
• Opvolgend actief in branches waar SEO nog
het verschil kon maken
• Platforminrichting en Linkbuilding
• Bureau Booming

Zoekmachines vs Spammers
• Altavista, Lycos, Hotbot en Yahoo
streden intensief tegen SEO spam:
Hoog scoren werd voornamelijk een kwestie van
het inzetten van steeds weer nieuwe trucs
• Google pakte dergelijke trucage het beste aan en
won daarmee het marktleiderschap
• Spammers worden steeds vernuftiger en een
statisch algoritme kan dit niet bijbenen
• Machine learning was nodig om onnatuurlijkheid
het hoofd te bieden

Google richtlijnen
• Het beste antwoord voor de zoeker zou het
beste moeten scoren
• Manipulatie moet bestraft worden en in ieder
geval niet beloond
– Panda: Content moet toegevoegde waarde
hebben en uniek geschreven zijn
– Penguin: Links moeten als stem van vertrouwen
verdiend zijn

Niet zo flexibel!
De uitdaging van Google

Hoe werkt Google?
1. Verzamelen van alle eigenschappen
2. Continu updaten externe eigenschappen
3. Versimpelen tot diverse eindcijfers
4. Verder versimpelen tot gecodeerde ranking factoren
5. Op volgorde zetten voor zoekopdracht (cache)
6. Filteren en herschikken op eigenschappen individu
7. Tonen resultaten
• Verversen kost rekenkracht
• Factoren toevoegen/vervangen erg moeilijk
• Waardering van factoren aanpassen is wel flexibel

Systeemaanpassingen?
• Hoe flexibel is Google?
• Ingewikkelde balans tussen
– Responstijden
– Accuraatheid
– Spambestrijding
– Benodigde rekenkracht
• Capaciteit index groei
– Flexibiliteit voor algoritmewijzigingen
• Machine learning algoritmen?
Gebruikerservaring

Machine learning bij Google
• Welk patroon legt manipulatie bloot?
• Naar welke factoren mag het systeem kijken?
• Welk controlemiddel scheidt goed van slecht?

Panda
Communicatie vanuit Google (2011):
“De Panda-update heeft als doel het belonen van
kwaliteitscontent en het devalueren van sites met
geringe meerwaarde voor bezoekers.”
Officiële eigenschappen:
Geen spamdetectie, maar herevalutatie
kwaliteitsindicatoren.
Vernoemd naar Google (distributed tree learning)
engineer Biswanath Panda

Panda: Patronen
• Classificatie en regressie
over grote datasets
– Systeem bepaalt
classificatie op basis van
overeenkomstige
attributen
– Blijft opsplitsen tot te grote
diversiteit optreedt
– Uitgangspunt:
Voorspelbaarheid nieuwe
datasets door controleren
van slechts enkele
variabelen

Initieel geen live algoritme
• Op de achtergrond in statische dataset patronen
ontdekken
• Mensen bepalen eerste controlemiddelen
(meestal tekenen van goede of slechte gebruikerservaring)
• Mensen controleren voor false positives en negatives
voor het resultaat (reeksen controlepunten) live gezet wordt
• Met elke iteratie wordt het resultaat stabieler
• Zo stabiel dat Panda een Live algoritme kon worden
• Zogenaamde Panda Updates alleen nog nodig als het
learning systeem zelf aangepast wordt

Heeft het effect?
Wat doen Panda en Penguin

Empfohlen

Is a mobile phone more dangerous than an AK47?voginip

De factcheckparadox voginip

Een beter internet voor kinderenvoginip

Use of Twitter and social mediavoginip

Social media toolsvoginip

Smartlogic, Semaphore and Semantically Enhanced Search – For “Discovery”voginip

Een nieuwe rol voor IP-ersvoginip

Iedereen factchecker; tools en techniekenvoginip

Empfohlen

Is a mobile phone more dangerous than an AK47?voginip

De factcheckparadox voginip

Een beter internet voor kinderenvoginip

Use of Twitter and social mediavoginip

Social media toolsvoginip

Smartlogic, Semaphore and Semantically Enhanced Search – For “Discovery”voginip

Een nieuwe rol voor IP-ersvoginip

Iedereen factchecker; tools en techniekenvoginip

Brave new search worldvoginip

Inzet van kennisportals tussen organisatie en klantvoginip

Van bibliometrics naar altmetricsWouter Gerritsma

Meten is weten vogin ip workshop 2016 joyce van aalten invenierJoyce van Aalten

Disinformation on the Web: impact, characteristics and detection of Wikipedia...voginip

Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Joyce van Aalten

Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?voginip

Impact - the gamevoginip

Informatie en politiek: informatie, data en macht in de 21ste eeuwvoginip

En toen was er niets meer ....voginip

Heliview 29sep2015 slideshareLonghow Lam

6 h blockeel - machine learning en geo-toepassingenresearch4geomatica

Predictive analyticsSURF Events

Hans f hans adviseertAPPSFORGHENT2015

Big Data Expo 2015 - Big 4 Data BonaparteBigDataExpo

Eerste Hulp Bij InformatievrijheidMarina Noordegraaf

Semantic mark-up with schema.org: helping search engines understand the WebPeter Mika

Onderzoeksdata in beeld / In Search 4 DataMarina Noordegraaf

101 innovaties in de wetenschappelijke communicatievoginip

Google analytics: Measuring what mattersDavy Tollenaere

HRO Schrijven voor zoekmachines + Google AnalyticsMathieu Burgerhout

Meer Marketingrendement met Attributie door Daniel Markus bij Google NederlandNetprofiler

Weitere ähnliche Inhalte

Andere mochten auch

Brave new search worldvoginip

Inzet van kennisportals tussen organisatie en klantvoginip

Van bibliometrics naar altmetricsWouter Gerritsma

Meten is weten vogin ip workshop 2016 joyce van aalten invenierJoyce van Aalten

Disinformation on the Web: impact, characteristics and detection of Wikipedia...voginip

Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Joyce van Aalten

Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?voginip

Impact - the gamevoginip

Informatie en politiek: informatie, data en macht in de 21ste eeuwvoginip

En toen was er niets meer ....voginip

Heliview 29sep2015 slideshareLonghow Lam

6 h blockeel - machine learning en geo-toepassingenresearch4geomatica

Predictive analyticsSURF Events

Hans f hans adviseertAPPSFORGHENT2015

Big Data Expo 2015 - Big 4 Data BonaparteBigDataExpo

Eerste Hulp Bij InformatievrijheidMarina Noordegraaf

Semantic mark-up with schema.org: helping search engines understand the WebPeter Mika

Onderzoeksdata in beeld / In Search 4 DataMarina Noordegraaf

101 innovaties in de wetenschappelijke communicatievoginip

Andere mochten auch (19)

Brave new search world

Inzet van kennisportals tussen organisatie en klant

Van bibliometrics naar altmetrics

Meten is weten vogin ip workshop 2016 joyce van aalten invenier

Disinformation on the Web: impact, characteristics and detection of Wikipedia...

Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...

Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?

Impact - the game

Informatie en politiek: informatie, data en macht in de 21ste eeuw

En toen was er niets meer ....

Heliview 29sep2015 slideshare

6 h blockeel - machine learning en geo-toepassingen

Predictive analytics

Hans f hans adviseert

Big Data Expo 2015 - Big 4 Data Bonaparte

Eerste Hulp Bij Informatievrijheid

Semantic mark-up with schema.org: helping search engines understand the Web

Onderzoeksdata in beeld / In Search 4 Data

101 innovaties in de wetenschappelijke communicatie

Ähnlich wie Spamdetectie bij Google

Google analytics: Measuring what mattersDavy Tollenaere

HRO Schrijven voor zoekmachines + Google AnalyticsMathieu Burgerhout

Meer Marketingrendement met Attributie door Daniel Markus bij Google NederlandNetprofiler

Hoe begin je met ad words automatisering?valantic NL

Website conversie optimalisatieGuido X Jansen

Linkbuilding anno 2013: de do’s and don’ts (Martin van Ammers & Paul de Graaf...Webanalisten .nl

Clinic web analytics dim1dayNetprofiler

Nummer in een Google, zeer uitgebreide Google trainingGezondheid Acties

Zó haal je meer resultaat uit je SEO in 2019webwinkelvakdag

Linkbuilding en SEO in Panda en Penguin wereldG. Bodenstaff

Panda Update @ TradeTrackerRuud Kok

Presentatie Plato - Voka: Waarde naar Emarketing (Dutch)Bart Wolfs

Presentation for Voka - Plato: Waarde naar emarketing (Dutch)Bart Wolfs

Big Data presentatie #dido12 - Arend ZwaneveldOnline Dialogue

Webinar bol.com conversie optimalisatie 13 nov. 2012Eduvision Opleidingen

Workshop Google Analytics (Basics, UTM-parameters and Goals)Tim Guily

Google MerkencaseBart Peleman

Conversie & usability event 9/05/2015AGConsult

Agx social mythbusters workshop 5 tracking lightAGX The Digital Agency

Google Analytics en Google Tag Manager Masterclass | (Mike van Hoenselaar)Online Boswachters

Ähnlich wie Spamdetectie bij Google (20)

Google analytics: Measuring what matters

HRO Schrijven voor zoekmachines + Google Analytics

Meer Marketingrendement met Attributie door Daniel Markus bij Google Nederland

Hoe begin je met ad words automatisering?

Website conversie optimalisatie

Linkbuilding anno 2013: de do’s and don’ts (Martin van Ammers & Paul de Graaf...

Clinic web analytics dim1day

Nummer in een Google, zeer uitgebreide Google training

Zó haal je meer resultaat uit je SEO in 2019

Linkbuilding en SEO in Panda en Penguin wereld

Panda Update @ TradeTracker

Presentatie Plato - Voka: Waarde naar Emarketing (Dutch)

Presentation for Voka - Plato: Waarde naar emarketing (Dutch)

Big Data presentatie #dido12 - Arend Zwaneveld

Webinar bol.com conversie optimalisatie 13 nov. 2012

Workshop Google Analytics (Basics, UTM-parameters and Goals)

Google Merkencase

Conversie & usability event 9/05/2015

Agx social mythbusters workshop 5 tracking light

Google Analytics en Google Tag Manager Masterclass | (Mike van Hoenselaar)

Mehr von voginip

Zo wordt je factchecker - Aafko Boonstravoginip

Automatisch metadateren - de kansen en de uitdagingenvoginip

Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingvoginip

Solving World War II Photo Mysteries with Open Source Techniquesvoginip

PiCo: Historische personen beter vindbaar makenvoginip

Red het internet! Op weg naar de online publieke ruimtevoginip

AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)voginip

ASML's Taxonomy Adventure by Daniel Cantervoginip

The Dark Side of Science: Misconduct in Biomedical Researchvoginip

Oude boeken, nieuwe vaardigheden en Wikipediavoginip

De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...voginip

Open yet everywhere in chains: Where next for open knowledge?voginip

The three layers of a knowledge graph and what it means for authoring, storag...voginip

Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...voginip

Why one-size-fits all does not work in Explainable Artificial Intelligence!voginip

Systematisch zoeken op het webvoginip

Grote hoeveelheden tekst analyseren als datavoginip

Werken met Wikidatavoginip

Een gereedschapskist voor digitale vaardighedenvoginip

Een startende éénpitter in informatieland: wat goed ging en wat nietvoginip

Mehr von voginip (20)

Zo wordt je factchecker - Aafko Boonstra

Automatisch metadateren - de kansen en de uitdagingen

Hybride Intelligentie: de rol van Large Language Models in informatieverwerking

Solving World War II Photo Mysteries with Open Source Techniques

PiCo: Historische personen beter vindbaar maken

Red het internet! Op weg naar de online publieke ruimte

AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)

ASML's Taxonomy Adventure by Daniel Canter

The Dark Side of Science: Misconduct in Biomedical Research

Oude boeken, nieuwe vaardigheden en Wikipedia

De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...

Open yet everywhere in chains: Where next for open knowledge?

The three layers of a knowledge graph and what it means for authoring, storag...

Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...

Why one-size-fits all does not work in Explainable Artificial Intelligence!

Systematisch zoeken op het web

Grote hoeveelheden tekst analyseren als data

Werken met Wikidata

Een gereedschapskist voor digitale vaardigheden

Een startende éénpitter in informatieland: wat goed ging en wat niet

Spamdetectie bij Google

1. Google spamdetectie Peter van der Graaf Booming

2. Peter van der Graaf • 18 jaar SEO expert • Opvolgend actief in branches waar SEO nog het verschil kon maken • Platforminrichting en Linkbuilding • Bureau Booming

3. Zoekmachines vs Spammers • Altavista, Lycos, Hotbot en Yahoo streden intensief tegen SEO spam: Hoog scoren werd voornamelijk een kwestie van het inzetten van steeds weer nieuwe trucs • Google pakte dergelijke trucage het beste aan en won daarmee het marktleiderschap • Spammers worden steeds vernuftiger en een statisch algoritme kan dit niet bijbenen • Machine learning was nodig om onnatuurlijkheid het hoofd te bieden

4. Google richtlijnen • Het beste antwoord voor de zoeker zou het beste moeten scoren • Manipulatie moet bestraft worden en in ieder geval niet beloond – Panda: Content moet toegevoegde waarde hebben en uniek geschreven zijn – Penguin: Links moeten als stem van vertrouwen verdiend zijn

5. Niet zo flexibel! De uitdaging van Google

6. Hoe werkt Google? 1. Verzamelen van alle eigenschappen 2. Continu updaten externe eigenschappen 3. Versimpelen tot diverse eindcijfers 4. Verder versimpelen tot gecodeerde ranking factoren 5. Op volgorde zetten voor zoekopdracht (cache) 6. Filteren en herschikken op eigenschappen individu 7. Tonen resultaten • Verversen kost rekenkracht • Factoren toevoegen/vervangen erg moeilijk • Waardering van factoren aanpassen is wel flexibel

8. Systeemaanpassingen? • Hoe flexibel is Google? • Ingewikkelde balans tussen – Responstijden – Accuraatheid – Spambestrijding – Benodigde rekenkracht • Capaciteit index groei – Flexibiliteit voor algoritmewijzigingen • Machine learning algoritmen? Gebruikerservaring

9. Machine learning bij Google • Welk patroon legt manipulatie bloot? • Naar welke factoren mag het systeem kijken? • Welk controlemiddel scheidt goed van slecht?

10. Panda Communicatie vanuit Google (2011): “De Panda-update heeft als doel het belonen van kwaliteitscontent en het devalueren van sites met geringe meerwaarde voor bezoekers.” Officiële eigenschappen: Geen spamdetectie, maar herevalutatie kwaliteitsindicatoren. Vernoemd naar Google (distributed tree learning) engineer Biswanath Panda

11. Panda Machine Learning

12. Panda: Patronen • Classificatie en regressie over grote datasets – Systeem bepaalt classificatie op basis van overeenkomstige attributen – Blijft opsplitsen tot te grote diversiteit optreedt – Uitgangspunt: Voorspelbaarheid nieuwe datasets door controleren van slechts enkele variabelen

13. Initieel geen live algoritme • Op de achtergrond in statische dataset patronen ontdekken • Mensen bepalen eerste controlemiddelen (meestal tekenen van goede of slechte gebruikerservaring) • Mensen controleren voor false positives en negatives voor het resultaat (reeksen controlepunten) live gezet wordt • Met elke iteratie wordt het resultaat stabieler • Zo stabiel dat Panda een Live algoritme kon worden • Zogenaamde Panda Updates alleen nog nodig als het learning systeem zelf aangepast wordt

14.

15. Heeft het effect? Wat doen Panda en Penguin