SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Google spamdetectie
Peter van der Graaf
Booming
Peter van der Graaf
• 18 jaar SEO expert
• Opvolgend actief in branches waar SEO nog
het verschil kon maken
• Platforminrichting en Linkbuilding
• Bureau Booming
Zoekmachines vs Spammers
• Altavista, Lycos, Hotbot en Yahoo
streden intensief tegen SEO spam:
Hoog scoren werd voornamelijk een kwestie van
het inzetten van steeds weer nieuwe trucs
• Google pakte dergelijke trucage het beste aan en
won daarmee het marktleiderschap
• Spammers worden steeds vernuftiger en een
statisch algoritme kan dit niet bijbenen
• Machine learning was nodig om onnatuurlijkheid
het hoofd te bieden
Google richtlijnen
• Het beste antwoord voor de zoeker zou het
beste moeten scoren
• Manipulatie moet bestraft worden en in ieder
geval niet beloond
– Panda: Content moet toegevoegde waarde
hebben en uniek geschreven zijn
– Penguin: Links moeten als stem van vertrouwen
verdiend zijn
Niet zo flexibel!
De uitdaging van Google
Hoe werkt Google?
1. Verzamelen van alle eigenschappen
2. Continu updaten externe eigenschappen
3. Versimpelen tot diverse eindcijfers
4. Verder versimpelen tot gecodeerde ranking factoren
5. Op volgorde zetten voor zoekopdracht (cache)
6. Filteren en herschikken op eigenschappen individu
7. Tonen resultaten
• Verversen kost rekenkracht
• Factoren toevoegen/vervangen erg moeilijk
• Waardering van factoren aanpassen is wel flexibel
Systeemaanpassingen?
• Hoe flexibel is Google?
• Ingewikkelde balans tussen
– Responstijden
– Accuraatheid
– Spambestrijding
– Benodigde rekenkracht
• Capaciteit index groei
– Flexibiliteit voor algoritmewijzigingen
• Machine learning algoritmen?
Gebruikerservaring
Machine learning bij Google
• Welk patroon legt manipulatie bloot?
• Naar welke factoren mag het systeem kijken?
• Welk controlemiddel scheidt goed van slecht?
Panda
Communicatie vanuit Google (2011):
“De Panda-update heeft als doel het belonen van
kwaliteitscontent en het devalueren van sites met
geringe meerwaarde voor bezoekers.”
Officiële eigenschappen:
Geen spamdetectie, maar herevalutatie
kwaliteitsindicatoren.
Vernoemd naar Google (distributed tree learning)
engineer Biswanath Panda
Panda Machine Learning
Panda: Patronen
• Classificatie en regressie
over grote datasets
– Systeem bepaalt
classificatie op basis van
overeenkomstige
attributen
– Blijft opsplitsen tot te grote
diversiteit optreedt
– Uitgangspunt:
Voorspelbaarheid nieuwe
datasets door controleren
van slechts enkele
variabelen
Initieel geen live algoritme
• Op de achtergrond in statische dataset patronen
ontdekken
• Mensen bepalen eerste controlemiddelen
(meestal tekenen van goede of slechte gebruikerservaring)
• Mensen controleren voor false positives en negatives
voor het resultaat (reeksen controlepunten) live gezet wordt
• Met elke iteratie wordt het resultaat stabieler
• Zo stabiel dat Panda een Live algoritme kon worden
• Zogenaamde Panda Updates alleen nog nodig als het
learning systeem zelf aangepast wordt
Heeft het effect?
Wat doen Panda en Penguin
Spamdetectie bij Google

Weitere ähnliche Inhalte

Andere mochten auch

Brave new search world
Brave new search worldBrave new search world
Brave new search worldvoginip
 
Inzet van kennisportals tussen organisatie en klant
Inzet van kennisportals tussen organisatie en klantInzet van kennisportals tussen organisatie en klant
Inzet van kennisportals tussen organisatie en klantvoginip
 
Van bibliometrics naar altmetrics
Van bibliometrics naar altmetricsVan bibliometrics naar altmetrics
Van bibliometrics naar altmetricsWouter Gerritsma
 
Meten is weten vogin ip workshop 2016 joyce van aalten invenier
Meten is weten vogin ip workshop 2016 joyce van aalten invenierMeten is weten vogin ip workshop 2016 joyce van aalten invenier
Meten is weten vogin ip workshop 2016 joyce van aalten invenierJoyce van Aalten
 
Disinformation on the Web: impact, characteristics and detection of Wikipedia...
Disinformation on the Web: impact, characteristics and detection of Wikipedia...Disinformation on the Web: impact, characteristics and detection of Wikipedia...
Disinformation on the Web: impact, characteristics and detection of Wikipedia...voginip
 
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Joyce van Aalten
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?voginip
 
Impact - the game
Impact - the gameImpact - the game
Impact - the gamevoginip
 
Informatie en politiek: informatie, data en macht in de 21ste eeuw
Informatie en politiek: informatie, data en macht in de 21ste eeuwInformatie en politiek: informatie, data en macht in de 21ste eeuw
Informatie en politiek: informatie, data en macht in de 21ste eeuwvoginip
 
En toen was er niets meer ....
En toen was er niets meer ....En toen was er niets meer ....
En toen was er niets meer ....voginip
 
Heliview 29sep2015 slideshare
Heliview 29sep2015 slideshareHeliview 29sep2015 slideshare
Heliview 29sep2015 slideshareLonghow Lam
 
6 h blockeel - machine learning en geo-toepassingen
6   h blockeel - machine learning en geo-toepassingen6   h blockeel - machine learning en geo-toepassingen
6 h blockeel - machine learning en geo-toepassingenresearch4geomatica
 
Predictive analytics
Predictive analyticsPredictive analytics
Predictive analyticsSURF Events
 
Big Data Expo 2015 - Big 4 Data Bonaparte
Big Data Expo 2015 - Big 4 Data BonaparteBig Data Expo 2015 - Big 4 Data Bonaparte
Big Data Expo 2015 - Big 4 Data BonaparteBigDataExpo
 
Eerste Hulp Bij Informatievrijheid
Eerste Hulp Bij InformatievrijheidEerste Hulp Bij Informatievrijheid
Eerste Hulp Bij InformatievrijheidMarina Noordegraaf
 
Semantic mark-up with schema.org: helping search engines understand the Web
Semantic mark-up with schema.org: helping search engines understand the WebSemantic mark-up with schema.org: helping search engines understand the Web
Semantic mark-up with schema.org: helping search engines understand the WebPeter Mika
 
Onderzoeksdata in beeld / In Search 4 Data
Onderzoeksdata in beeld / In Search 4 DataOnderzoeksdata in beeld / In Search 4 Data
Onderzoeksdata in beeld / In Search 4 DataMarina Noordegraaf
 
101 innovaties in de wetenschappelijke communicatie
101 innovaties in de wetenschappelijke communicatie101 innovaties in de wetenschappelijke communicatie
101 innovaties in de wetenschappelijke communicatievoginip
 

Andere mochten auch (19)

Brave new search world
Brave new search worldBrave new search world
Brave new search world
 
Inzet van kennisportals tussen organisatie en klant
Inzet van kennisportals tussen organisatie en klantInzet van kennisportals tussen organisatie en klant
Inzet van kennisportals tussen organisatie en klant
 
Van bibliometrics naar altmetrics
Van bibliometrics naar altmetricsVan bibliometrics naar altmetrics
Van bibliometrics naar altmetrics
 
Meten is weten vogin ip workshop 2016 joyce van aalten invenier
Meten is weten vogin ip workshop 2016 joyce van aalten invenierMeten is weten vogin ip workshop 2016 joyce van aalten invenier
Meten is weten vogin ip workshop 2016 joyce van aalten invenier
 
Disinformation on the Web: impact, characteristics and detection of Wikipedia...
Disinformation on the Web: impact, characteristics and detection of Wikipedia...Disinformation on the Web: impact, characteristics and detection of Wikipedia...
Disinformation on the Web: impact, characteristics and detection of Wikipedia...
 
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
 
Impact - the game
Impact - the gameImpact - the game
Impact - the game
 
Informatie en politiek: informatie, data en macht in de 21ste eeuw
Informatie en politiek: informatie, data en macht in de 21ste eeuwInformatie en politiek: informatie, data en macht in de 21ste eeuw
Informatie en politiek: informatie, data en macht in de 21ste eeuw
 
En toen was er niets meer ....
En toen was er niets meer ....En toen was er niets meer ....
En toen was er niets meer ....
 
Heliview 29sep2015 slideshare
Heliview 29sep2015 slideshareHeliview 29sep2015 slideshare
Heliview 29sep2015 slideshare
 
6 h blockeel - machine learning en geo-toepassingen
6   h blockeel - machine learning en geo-toepassingen6   h blockeel - machine learning en geo-toepassingen
6 h blockeel - machine learning en geo-toepassingen
 
Predictive analytics
Predictive analyticsPredictive analytics
Predictive analytics
 
Hans f hans adviseert
Hans f   hans adviseertHans f   hans adviseert
Hans f hans adviseert
 
Big Data Expo 2015 - Big 4 Data Bonaparte
Big Data Expo 2015 - Big 4 Data BonaparteBig Data Expo 2015 - Big 4 Data Bonaparte
Big Data Expo 2015 - Big 4 Data Bonaparte
 
Eerste Hulp Bij Informatievrijheid
Eerste Hulp Bij InformatievrijheidEerste Hulp Bij Informatievrijheid
Eerste Hulp Bij Informatievrijheid
 
Semantic mark-up with schema.org: helping search engines understand the Web
Semantic mark-up with schema.org: helping search engines understand the WebSemantic mark-up with schema.org: helping search engines understand the Web
Semantic mark-up with schema.org: helping search engines understand the Web
 
Onderzoeksdata in beeld / In Search 4 Data
Onderzoeksdata in beeld / In Search 4 DataOnderzoeksdata in beeld / In Search 4 Data
Onderzoeksdata in beeld / In Search 4 Data
 
101 innovaties in de wetenschappelijke communicatie
101 innovaties in de wetenschappelijke communicatie101 innovaties in de wetenschappelijke communicatie
101 innovaties in de wetenschappelijke communicatie
 

Ähnlich wie Spamdetectie bij Google

Google analytics: Measuring what matters
Google analytics: Measuring what mattersGoogle analytics: Measuring what matters
Google analytics: Measuring what mattersDavy Tollenaere
 
HRO Schrijven voor zoekmachines + Google Analytics
HRO Schrijven voor zoekmachines + Google AnalyticsHRO Schrijven voor zoekmachines + Google Analytics
HRO Schrijven voor zoekmachines + Google AnalyticsMathieu Burgerhout
 
Meer Marketingrendement met Attributie door Daniel Markus bij Google Nederland
Meer Marketingrendement met Attributie door Daniel Markus bij Google NederlandMeer Marketingrendement met Attributie door Daniel Markus bij Google Nederland
Meer Marketingrendement met Attributie door Daniel Markus bij Google NederlandNetprofiler
 
Hoe begin je met ad words automatisering?
Hoe begin je met ad words automatisering?Hoe begin je met ad words automatisering?
Hoe begin je met ad words automatisering?valantic NL
 
Website conversie optimalisatie
Website conversie optimalisatieWebsite conversie optimalisatie
Website conversie optimalisatieGuido X Jansen
 
Linkbuilding anno 2013: de do’s and don’ts (Martin van Ammers & Paul de Graaf...
Linkbuilding anno 2013: de do’s and don’ts (Martin van Ammers & Paul de Graaf...Linkbuilding anno 2013: de do’s and don’ts (Martin van Ammers & Paul de Graaf...
Linkbuilding anno 2013: de do’s and don’ts (Martin van Ammers & Paul de Graaf...Webanalisten .nl
 
Clinic web analytics dim1day
Clinic web analytics dim1dayClinic web analytics dim1day
Clinic web analytics dim1dayNetprofiler
 
Nummer in een Google, zeer uitgebreide Google training
Nummer in een Google, zeer uitgebreide Google trainingNummer in een Google, zeer uitgebreide Google training
Nummer in een Google, zeer uitgebreide Google trainingGezondheid Acties
 
Zó haal je meer resultaat uit je SEO in 2019
Zó haal je meer resultaat uit je SEO in 2019Zó haal je meer resultaat uit je SEO in 2019
Zó haal je meer resultaat uit je SEO in 2019webwinkelvakdag
 
Linkbuilding en SEO in Panda en Penguin wereld
Linkbuilding en SEO in Panda en Penguin wereldLinkbuilding en SEO in Panda en Penguin wereld
Linkbuilding en SEO in Panda en Penguin wereldG. Bodenstaff
 
Panda Update @ TradeTracker
Panda Update @ TradeTrackerPanda Update @ TradeTracker
Panda Update @ TradeTrackerRuud Kok
 
Presentatie Plato - Voka: Waarde naar Emarketing (Dutch)
Presentatie Plato - Voka: Waarde naar Emarketing (Dutch)Presentatie Plato - Voka: Waarde naar Emarketing (Dutch)
Presentatie Plato - Voka: Waarde naar Emarketing (Dutch)Bart Wolfs
 
Presentation for Voka - Plato: Waarde naar emarketing (Dutch)
Presentation for Voka - Plato: Waarde naar emarketing (Dutch)Presentation for Voka - Plato: Waarde naar emarketing (Dutch)
Presentation for Voka - Plato: Waarde naar emarketing (Dutch)Bart Wolfs
 
Big Data presentatie #dido12 - Arend Zwaneveld
Big Data presentatie #dido12 - Arend ZwaneveldBig Data presentatie #dido12 - Arend Zwaneveld
Big Data presentatie #dido12 - Arend ZwaneveldOnline Dialogue
 
Webinar bol.com conversie optimalisatie 13 nov. 2012
Webinar bol.com conversie optimalisatie 13 nov. 2012Webinar bol.com conversie optimalisatie 13 nov. 2012
Webinar bol.com conversie optimalisatie 13 nov. 2012Eduvision Opleidingen
 
Workshop Google Analytics (Basics, UTM-parameters and Goals)
Workshop Google Analytics (Basics, UTM-parameters and Goals)Workshop Google Analytics (Basics, UTM-parameters and Goals)
Workshop Google Analytics (Basics, UTM-parameters and Goals)Tim Guily
 
Conversie & usability event 9/05/2015
Conversie & usability event 9/05/2015Conversie & usability event 9/05/2015
Conversie & usability event 9/05/2015AGConsult
 
Agx social mythbusters workshop 5 tracking light
Agx social mythbusters workshop 5 tracking lightAgx social mythbusters workshop 5 tracking light
Agx social mythbusters workshop 5 tracking lightAGX The Digital Agency
 
Google Analytics en Google Tag Manager Masterclass | (Mike van Hoenselaar)
Google Analytics en Google Tag Manager Masterclass | (Mike van Hoenselaar)Google Analytics en Google Tag Manager Masterclass | (Mike van Hoenselaar)
Google Analytics en Google Tag Manager Masterclass | (Mike van Hoenselaar)Online Boswachters
 

Ähnlich wie Spamdetectie bij Google (20)

Google analytics: Measuring what matters
Google analytics: Measuring what mattersGoogle analytics: Measuring what matters
Google analytics: Measuring what matters
 
HRO Schrijven voor zoekmachines + Google Analytics
HRO Schrijven voor zoekmachines + Google AnalyticsHRO Schrijven voor zoekmachines + Google Analytics
HRO Schrijven voor zoekmachines + Google Analytics
 
Meer Marketingrendement met Attributie door Daniel Markus bij Google Nederland
Meer Marketingrendement met Attributie door Daniel Markus bij Google NederlandMeer Marketingrendement met Attributie door Daniel Markus bij Google Nederland
Meer Marketingrendement met Attributie door Daniel Markus bij Google Nederland
 
Hoe begin je met ad words automatisering?
Hoe begin je met ad words automatisering?Hoe begin je met ad words automatisering?
Hoe begin je met ad words automatisering?
 
Website conversie optimalisatie
Website conversie optimalisatieWebsite conversie optimalisatie
Website conversie optimalisatie
 
Linkbuilding anno 2013: de do’s and don’ts (Martin van Ammers & Paul de Graaf...
Linkbuilding anno 2013: de do’s and don’ts (Martin van Ammers & Paul de Graaf...Linkbuilding anno 2013: de do’s and don’ts (Martin van Ammers & Paul de Graaf...
Linkbuilding anno 2013: de do’s and don’ts (Martin van Ammers & Paul de Graaf...
 
Clinic web analytics dim1day
Clinic web analytics dim1dayClinic web analytics dim1day
Clinic web analytics dim1day
 
Nummer in een Google, zeer uitgebreide Google training
Nummer in een Google, zeer uitgebreide Google trainingNummer in een Google, zeer uitgebreide Google training
Nummer in een Google, zeer uitgebreide Google training
 
Zó haal je meer resultaat uit je SEO in 2019
Zó haal je meer resultaat uit je SEO in 2019Zó haal je meer resultaat uit je SEO in 2019
Zó haal je meer resultaat uit je SEO in 2019
 
Linkbuilding en SEO in Panda en Penguin wereld
Linkbuilding en SEO in Panda en Penguin wereldLinkbuilding en SEO in Panda en Penguin wereld
Linkbuilding en SEO in Panda en Penguin wereld
 
Panda Update @ TradeTracker
Panda Update @ TradeTrackerPanda Update @ TradeTracker
Panda Update @ TradeTracker
 
Presentatie Plato - Voka: Waarde naar Emarketing (Dutch)
Presentatie Plato - Voka: Waarde naar Emarketing (Dutch)Presentatie Plato - Voka: Waarde naar Emarketing (Dutch)
Presentatie Plato - Voka: Waarde naar Emarketing (Dutch)
 
Presentation for Voka - Plato: Waarde naar emarketing (Dutch)
Presentation for Voka - Plato: Waarde naar emarketing (Dutch)Presentation for Voka - Plato: Waarde naar emarketing (Dutch)
Presentation for Voka - Plato: Waarde naar emarketing (Dutch)
 
Big Data presentatie #dido12 - Arend Zwaneveld
Big Data presentatie #dido12 - Arend ZwaneveldBig Data presentatie #dido12 - Arend Zwaneveld
Big Data presentatie #dido12 - Arend Zwaneveld
 
Webinar bol.com conversie optimalisatie 13 nov. 2012
Webinar bol.com conversie optimalisatie 13 nov. 2012Webinar bol.com conversie optimalisatie 13 nov. 2012
Webinar bol.com conversie optimalisatie 13 nov. 2012
 
Workshop Google Analytics (Basics, UTM-parameters and Goals)
Workshop Google Analytics (Basics, UTM-parameters and Goals)Workshop Google Analytics (Basics, UTM-parameters and Goals)
Workshop Google Analytics (Basics, UTM-parameters and Goals)
 
Google Merkencase
Google MerkencaseGoogle Merkencase
Google Merkencase
 
Conversie & usability event 9/05/2015
Conversie & usability event 9/05/2015Conversie & usability event 9/05/2015
Conversie & usability event 9/05/2015
 
Agx social mythbusters workshop 5 tracking light
Agx social mythbusters workshop 5 tracking lightAgx social mythbusters workshop 5 tracking light
Agx social mythbusters workshop 5 tracking light
 
Google Analytics en Google Tag Manager Masterclass | (Mike van Hoenselaar)
Google Analytics en Google Tag Manager Masterclass | (Mike van Hoenselaar)Google Analytics en Google Tag Manager Masterclass | (Mike van Hoenselaar)
Google Analytics en Google Tag Manager Masterclass | (Mike van Hoenselaar)
 

Mehr von voginip

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstravoginip
 
Automatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenAutomatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenvoginip
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingvoginip
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniquesvoginip
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenvoginip
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimtevoginip
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)voginip
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Cantervoginip
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Researchvoginip
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipediavoginip
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...voginip
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?voginip
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...voginip
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...voginip
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!voginip
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het webvoginip
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als datavoginip
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidatavoginip
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenvoginip
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietvoginip
 

Mehr von voginip (20)

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstra
 
Automatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenAutomatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingen
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniques
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar maken
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimte
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Canter
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Research
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipedia
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het web
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als data
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidata
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardigheden
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat niet
 

Spamdetectie bij Google

  • 1. Google spamdetectie Peter van der Graaf Booming
  • 2. Peter van der Graaf • 18 jaar SEO expert • Opvolgend actief in branches waar SEO nog het verschil kon maken • Platforminrichting en Linkbuilding • Bureau Booming
  • 3. Zoekmachines vs Spammers • Altavista, Lycos, Hotbot en Yahoo streden intensief tegen SEO spam: Hoog scoren werd voornamelijk een kwestie van het inzetten van steeds weer nieuwe trucs • Google pakte dergelijke trucage het beste aan en won daarmee het marktleiderschap • Spammers worden steeds vernuftiger en een statisch algoritme kan dit niet bijbenen • Machine learning was nodig om onnatuurlijkheid het hoofd te bieden
  • 4. Google richtlijnen • Het beste antwoord voor de zoeker zou het beste moeten scoren • Manipulatie moet bestraft worden en in ieder geval niet beloond – Panda: Content moet toegevoegde waarde hebben en uniek geschreven zijn – Penguin: Links moeten als stem van vertrouwen verdiend zijn
  • 5. Niet zo flexibel! De uitdaging van Google
  • 6. Hoe werkt Google? 1. Verzamelen van alle eigenschappen 2. Continu updaten externe eigenschappen 3. Versimpelen tot diverse eindcijfers 4. Verder versimpelen tot gecodeerde ranking factoren 5. Op volgorde zetten voor zoekopdracht (cache) 6. Filteren en herschikken op eigenschappen individu 7. Tonen resultaten • Verversen kost rekenkracht • Factoren toevoegen/vervangen erg moeilijk • Waardering van factoren aanpassen is wel flexibel
  • 7.
  • 8. Systeemaanpassingen? • Hoe flexibel is Google? • Ingewikkelde balans tussen – Responstijden – Accuraatheid – Spambestrijding – Benodigde rekenkracht • Capaciteit index groei – Flexibiliteit voor algoritmewijzigingen • Machine learning algoritmen? Gebruikerservaring
  • 9. Machine learning bij Google • Welk patroon legt manipulatie bloot? • Naar welke factoren mag het systeem kijken? • Welk controlemiddel scheidt goed van slecht?
  • 10. Panda Communicatie vanuit Google (2011): “De Panda-update heeft als doel het belonen van kwaliteitscontent en het devalueren van sites met geringe meerwaarde voor bezoekers.” Officiële eigenschappen: Geen spamdetectie, maar herevalutatie kwaliteitsindicatoren. Vernoemd naar Google (distributed tree learning) engineer Biswanath Panda
  • 12. Panda: Patronen • Classificatie en regressie over grote datasets – Systeem bepaalt classificatie op basis van overeenkomstige attributen – Blijft opsplitsen tot te grote diversiteit optreedt – Uitgangspunt: Voorspelbaarheid nieuwe datasets door controleren van slechts enkele variabelen
  • 13. Initieel geen live algoritme • Op de achtergrond in statische dataset patronen ontdekken • Mensen bepalen eerste controlemiddelen (meestal tekenen van goede of slechte gebruikerservaring) • Mensen controleren voor false positives en negatives voor het resultaat (reeksen controlepunten) live gezet wordt • Met elke iteratie wordt het resultaat stabieler • Zo stabiel dat Panda een Live algoritme kon worden • Zogenaamde Panda Updates alleen nog nodig als het learning systeem zelf aangepast wordt
  • 14.
  • 15. Heeft het effect? Wat doen Panda en Penguin