Big Data et SEO, par Vincent Heuschling

•

2 gefällt mir•3,722 views

Modern Data Stack France

BIGDATA
ET DONNÉES SEO

Vincent Heuschling
@vhe74
mercredi 5 décembre 12

AGENDA
AFFINI-TECH
SEO ?
TRAITER et ANALYSER
MESURER
OUTILS
EVOLUTION DES MOYENS

mercredi 5 décembre 12

3 PILIERS
Méthodes projets
Business
Outils de reporting
&
& Data-visualisation
Analyses

BigData Modélisation
Hadoop Technos Sciences Statistiques (R)
NoSQL Machine Learning
Cloud

Intégration, Mise en Oeuvre, Conseil et Formation
Une démarche intégrée de bout en bout

© 2012 Afﬁni-Tech - Diffusion restreinte 3

mercredi 5 décembre 12

Collecter Analyser Présenter
Stocker Valoriser Organiser
Traiter

Data-
BigData Décisionnel
Science

Votre infrastructure Notre Cloud

© 2012 Afﬁni-Tech - Diffusion restreinte 4

mercredi 5 décembre 12

SEO ?
Optimiser le traﬁc d'un site web issu
des moteurs de recherche.
Déﬁnir quels éléments du site sont à forte
valeur et les promouvoir vers les moteurs de
recherches
Mesurer et étudier le positionnement du site
sur des recherches vis à vis de sa concurrence

mercredi 5 décembre 12

CONTEXTE
100 millions de visites par mois
Patrimoine informationnel très riche
Business model basé sur la pub
Marché ultra concurrentiel
Plus de 15 Go de log par jour (sous-traités)
Appliance Teradata de 12 To compressés + SAS

mercredi 5 décembre 12

COMBIEN ?
10 visites SEO (hors marque)
30 visites SEO (marque)
90 visites non SEO
20 crawl
x7 à x10 au total (pages + ressources)
Nécessité de ﬁltrer à la source

mercredi 5 décembre 12

DÉMARCHE SEO

Mesurer Collecter

Produire Analyser

mercredi 5 décembre 12

TROUVER 400K NOUVELLES URLS
À PROMOUVOIR PARMI 84M ?

Similarités et Classiﬁcations
Recommandation &
intelligence collective
OpenData

mercredi 5 décembre 12

OUTILS
Collecter Traiter Analyser

Pig

mercredi 5 décembre 12

TYPES DE REQUETES
Analyse par zones de géographique
Données socio-économiques
Recherches de similarités
Analyse au niveau Url (granularité ﬁne)
Impact du Crawl sur les visites

mercredi 5 décembre 12

PIPELINE
Data
Insee
géo-éco

Visites
Logs Similarit. Urls.
seo

Crawl
seo

mercredi 5 décembre 12

IMPACT DU CRAWL

Projection et croisement de 2 sources
Visites
Crawl
Pig COGROUP
Patterns sur TS

mercredi 5 décembre 12

LONG TAIL
Très grosses concentrations d’activités sur
certaines localités.
Map/Reduce !! 1: 3003
2: 399
10: 243
PIG Skewed joins 50: 100
100: 54
500: 4

mercredi 5 décembre 12

HEATMAPS
Départements
(96)

Volume de
visites
Activités (10500)

mercredi 5 décembre 12

MESURER : RANKINGS

Collecte des réponses Google (30x par
recherche = dizaines de millions par mois)
Forte croissance de la volumétrie
Classiﬁer et Segmenter par produit, par
thématiques.

mercredi 5 décembre 12

OUTILS
Collecter Traiter Stocker Visualiser

D3.js
Pig

Analyser

mercredi 5 décembre 12

MONGODB
Base document
Stocker l’information avec son contexte
Données agrégées et leurs détails
Univers Catégories { univers : ‘‘restaurants’’,
n métrique : 250,
n n regions : [‘‘idf ’’, ‘‘paca’’],
Métriques sousMétriques : [
n {petitesVilles : 80},
{moyennesVilles : 70},
Localités
{grandesVilles : 100},]
}
mercredi 5 décembre 12

EVOLUTIONS ?

Plus de temps réel : Impala, Spark/Shark ?
Bases de données colonnes pour les données
pure SQL ?
Utilisation d’Elasticsearch pour indexer les
données rafﬁnées ?

mercredi 5 décembre 12

GENERALISATION
Scalabilité des outils de traitement de logs
Variation des besoins
Migration mySQL vers Hadoop/Hive : SQL
Plateforme managée : "Simple as a Query"
Avoir une boite à outils de Data-Analyse
Dans un cloud mais local (FR)

mercredi 5 décembre 12

MERCI !

Vincent Heuschling
Gsm : 06 61 88 76 71
Email : vhe@afﬁni-tech.com
Web : http://www.afﬁni-tech.com
Twitter : @afﬁnitech & @vhe74

© 2012 Afﬁni-Tech - Diffusion restreinte 24

mercredi 5 décembre 12

Weitere ähnliche Inhalte

Andere mochten auch

Retour Hadoop Summit 2012Modern Data Stack France

June Spark meetup : search as recommandationModern Data Stack France

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielModern Data Stack France

Spark ML par Xebia (Spark Meetup du 11/06/2015)Modern Data Stack France

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France

Spark dataframeModern Data Stack France

Intro à la librairie R GGPLOT2Vincent Heuschling

Feedback du EMEA Hadoop Summit 2013Vincent Heuschling

Analyse prédictive en assurance santé par Julien CabotModern Data Stack France

M7 and Apache Drill, Micheal HausenblasModern Data Stack France

Cascalog présenté par Bertrand DechouxModern Data Stack France

Syncsort et le retour d'expérience ComScoreModern Data Stack France

Marcel Kornacker: Impala tech talk Tue Feb 26th 2013Modern Data Stack France

IBM Stream au Hadoop User GroupModern Data Stack France

Hug france-2012-12-04Ted Dunning

Hadoop on AzureModern Data Stack France

Talend Open Studio for Big Data (powered by Apache Hadoop)Modern Data Stack France

Cassandra Hadoop Best Practices by Jeremy HannaModern Data Stack France

Cassandra Hadoop Integration at HUG France by Piotr KołaczkowskiModern Data Stack France

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Modern Data Stack France

Andere mochten auch (20)

Retour Hadoop Summit 2012

June Spark meetup : search as recommandation

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

Spark ML par Xebia (Spark Meetup du 11/06/2015)

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Spark dataframe

Intro à la librairie R GGPLOT2

Feedback du EMEA Hadoop Summit 2013

Analyse prédictive en assurance santé par Julien Cabot

M7 and Apache Drill, Micheal Hausenblas

Cascalog présenté par Bertrand Dechoux

Syncsort et le retour d'expérience ComScore

Marcel Kornacker: Impala tech talk Tue Feb 26th 2013

IBM Stream au Hadoop User Group

Hug france-2012-12-04

Hadoop on Azure

Talend Open Studio for Big Data (powered by Apache Hadoop)

Cassandra Hadoop Best Practices by Jeremy Hanna

Cassandra Hadoop Integration at HUG France by Piotr Kołaczkowski

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...

Ähnlich wie Big Data et SEO, par Vincent Heuschling

Linked In 3eme Table Ronde 20111209Dario Mangano

Estimation de projets DrupalAdyax

Valtech - Big Data : Détails d’une mise en œuvreValtech

Comment devenir Data Scientist ?Jedha Bootcamp

Ritme data solutions : Plateforme Data Science COsMOAurélien Adamo

Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo

Escen221019Alexandre Cazaurang

Acquérir, développer et fidéliser votre TribuTRIBELEADR

Ähnlich wie Big Data et SEO, par Vincent Heuschling (8)

Linked In 3eme Table Ronde 20111209

Estimation de projets Drupal

Valtech - Big Data : Détails d’une mise en œuvre

Comment devenir Data Scientist ?

Ritme data solutions : Plateforme Data Science COsMO

Session découverte de la Logical Data Fabric soutenue par la Data Virtualization

Escen221019

Acquérir, développer et fidéliser votre Tribu

Mehr von Modern Data Stack France

Stash - Data FinOPSModern Data Stack France

Vue d'ensemble DremioModern Data Stack France

From Data Warehouse to LakehouseModern Data Stack France

Talend spark meetup 03042017 - Paris Spark MeetupModern Data Stack France

Paris Spark Meetup - Trifacta - 03_04_2017Modern Data Stack France

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...Modern Data Stack France

Hadoop France meetup Feb2016 : recommendations with sparkModern Data Stack France

Hug janvier 2016 -EDFModern Data Stack France

HUG France - 20160114 industrialisation_process_big_data CanalPlusModern Data Stack France

Hugfr SPARK & RIAK -20160114_hug_franceModern Data Stack France

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)Modern Data Stack France

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Modern Data Stack France

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Modern Data Stack France

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015Modern Data Stack France

Spark meetup at viadeoModern Data Stack France

Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REXModern Data Stack France

The Cascading (big) data application frameworkModern Data Stack France

Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014Modern Data Stack France

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France

HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...Modern Data Stack France

Mehr von Modern Data Stack France (20)

Stash - Data FinOPS

Vue d'ensemble Dremio

From Data Warehouse to Lakehouse

Talend spark meetup 03042017 - Paris Spark Meetup

Paris Spark Meetup - Trifacta - 03_04_2017

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...

Hadoop France meetup Feb2016 : recommendations with spark

Hug janvier 2016 -EDF

HUG France - 20160114 industrialisation_process_big_data CanalPlus

Hugfr SPARK & RIAK -20160114_hug_france

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015

Spark meetup at viadeo

Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX

The Cascading (big) data application framework

Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...

HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...

Big Data et SEO, par Vincent Heuschling

1. BIGDATA ET DONNÉES SEO Vincent Heuschling @vhe74 mercredi 5 décembre 12

2. AGENDA AFFINI-TECH SEO ? TRAITER et ANALYSER MESURER OUTILS EVOLUTION DES MOYENS mercredi 5 décembre 12

3. 3 PILIERS Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2012 Afﬁni-Tech - Diffusion restreinte 3 mercredi 5 décembre 12

5. SEO ? Optimiser le traﬁc d'un site web issu des moteurs de recherche. Déﬁnir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrence mercredi 5 décembre 12

6. CONTEXTE 100 millions de visites par mois Patrimoine informationnel très riche Business model basé sur la pub Marché ultra concurrentiel Plus de 15 Go de log par jour (sous-traités) Appliance Teradata de 12 To compressés + SAS mercredi 5 décembre 12

7. COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de ﬁltrer à la source mercredi 5 décembre 12

8. DÉMARCHE SEO Mesurer Collecter Produire Analyser mercredi 5 décembre 12

9. TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ? Similarités et Classiﬁcations Recommandation & intelligence collective OpenData mercredi 5 décembre 12

10. OUTILS Collecter Traiter Analyser Pig mercredi 5 décembre 12

11. TYPES DE REQUETES Analyse par zones de géographique Données socio-économiques Recherches de similarités Analyse au niveau Url (granularité ﬁne) Impact du Crawl sur les visites mercredi 5 décembre 12

12. PIPELINE Data Insee géo-éco Visites Logs Similarit. Urls. seo Crawl seo mercredi 5 décembre 12

13. IMPACT DU CRAWL Projection et croisement de 2 sources Visites Crawl Pig COGROUP Patterns sur TS mercredi 5 décembre 12

14. LONG TAIL Très grosses concentrations d’activités sur certaines localités. Map/Reduce !! 1: 3003 2: 399 10: 243 PIG Skewed joins 50: 100 100: 54 500: 4 mercredi 5 décembre 12

15. HEATMAPS Départements (96) Volume de visites Activités (10500) mercredi 5 décembre 12

16. MESURER : RANKINGS Collecte des réponses Google (30x par recherche = dizaines de millions par mois) Forte croissance de la volumétrie Classiﬁer et Segmenter par produit, par thématiques. mercredi 5 décembre 12

17. mercredi 5 décembre 12

18. OUTILS Collecter Traiter Stocker Visualiser D3.js Pig Analyser mercredi 5 décembre 12

19. MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails Univers Catégories { univers : ‘‘restaurants’’, n métrique : 250, n n regions : [‘‘idf ’’, ‘‘paca’’], Métriques sousMétriques : [ n {petitesVilles : 80}, {moyennesVilles : 70}, Localités {grandesVilles : 100},] } mercredi 5 décembre 12

20. RÉSULTATS mercredi 5 décembre 12

21. EVOLUTIONS ? Plus de temps réel : Impala, Spark/Shark ? Bases de données colonnes pour les données pure SQL ? Utilisation d’Elasticsearch pour indexer les données rafﬁnées ? mercredi 5 décembre 12

22. GENERALISATION Scalabilité des outils de traitement de logs Variation des besoins Migration mySQL vers Hadoop/Hive : SQL Plateforme managée : "Simple as a Query" Avoir une boite à outils de Data-Analyse Dans un cloud mais local (FR) mercredi 5 décembre 12

23. MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2012 Affini-Tech - Diffusion restreinte 24 mercredi 5 décembre 12

Big Data et SEO, par Vincent Heuschling

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Big Data et SEO, par Vincent Heuschling

Ähnlich wie Big Data et SEO, par Vincent Heuschling (8)

Mehr von Modern Data Stack France

Mehr von Modern Data Stack France (20)

Big Data et SEO, par Vincent Heuschling