4. #seocamp 4
STRATEGIE PILOTAGE
Fixer les objectifs, le
périmètre, les moyens
• Veille
• Modélisation de la
recherche
Mesurer,
automatiser,
améliorer
• Data SEO
• Data IT
Put product
image here
5. #seocamp 5
Récupération Consolidation
Nettoyer et manipuler
Exploration
Visualisation et reporting
Crawl + logs
Mots clé /
Positions
Données API
Base de
données
Flow Data
Comment cela fonctionne ?
7. #seocamp 7
Limitation “The Search API is not complete index of all Tweets, but instead an index of recent Tweets.
At the moment that index includes between 6-9 days of Tweets.” TAGS
Search API
Accéder à la documentation
Twitter & TAGS
Créer un dataset Twitter : un index entre 6 et 9 jours de tweets
8. #seocamp 8
TAGS
Installer sur Sheets
App
Créer sur Twitter
Twitter
Se connecter à un compte
Google
Se connecter à un compte
Accéder à Google
Sheets
Accéder à l’API
Développeur
Récupérer les
données Twitter
Configurer le
module
complémentaire :
https://tags.hawksey.info/
*Jeu de données
Twitter & TAGS
Créer un dataset Twitter avec TAGS étape par étape
9. #seocamp 9
Terme à rechercher sur
Twitter :
« prev next »
Twitter & TAGS
Récupérer le dataset Twitter « prev next » avec TAGS
10. #seocamp 10
Dataset de 508 tweets datés à propos de « prev next »
Twitter & TAGS
Exemple de dataset Twitter « prev next » avec TAGS
11. #seocamp 11
Limitation “The Search API is not complete index of all Tweets, but instead an index of recent Tweets.
At the moment that index includes between 6-9 days of Tweets.” TAGS
twitterMining.R
Accéder au tutoriel sur YouTube
Analyse de Sentiment
Accéder à Twitter Sentiment Analysis
Twitter & R
Extraction de tweets par randerson112358
12. #seocamp 12
Tweets
Extraire
Auth
Configurer
Packages R
Installer
Twitter
Se connecter à un compte
Accéder à Google
Sheets
Accéder à l’API
Développeur
Récupérer les
données Twitter
twitterMining.R
(GitHub)
Tutoriel
(Medium)
Dataset de xxx tweets datés sur un terme donné
Twitter & R
Créer un dataset Twitter avec twitterMining.R étape par étape
13. #seocamp 13
Objectif Automatisation via Zapier
Identifier les champs
Accéder à Email Parser
Zapier & Sheets
Extraction de mails avec une recette
14. #seocamp 14
Sheets
Créer une ligne par e-mail
Zapier
Identifier les éléments
Zapier
Envoyer un modèle
d’email
Zapier
Créer un email robot
example@robot.zapier.com
et nommer les
champs à
extraire
Nommer les
champs à
extraire
Un email de
Google Alertes
Récupérer
automatiquemen
t les Google
Alertes
Zapier & Sheets
Créer un Dataset Google Alertes via Google Sheets
15. #seocamp 15
Objectif Convertir des mails reçus sur Gmail en PDF, scraper les PDF puis rechercher et isoler
les infos dans un CSV.
Sheets & Python
Convertir vos mails en CSV
Emails en PDF (Drive)
Accéder à l’extension Sheets
PDF en CSV (Python)
Accéder au toturiel sur Medium
16. #seocamp 16
Python
Convertir en CSV
Sheets
Fusionner les PDF
Sheets
Sauver les emails en PDF
Sheets
Installer Save Email
Configurer
l’extension
Sheets Save
Email &
Attachments
avec les e-mails
Gmail à
récupérer
Installer et lancer
l’extension
Sheets
PDF Mergy
Rassembler les e-
mails PDF dans
un répertoire
Google Drive
dédié
Récupérer
automatiquemen
t les Google
Alertes
Sheets & Python
Convertir vos mails en CSV
17. #seocamp 17
Twitter &
TAGS
Création du dataset sur le terme de votre choix
Exemple : prev next
Résumé
Twitter & R Création du dataset sur le terme de votre choix
Zapier &
Sheets
Création du dataset à partir des emails d’alertes
Exemple : Google Alertes (à tester avec les emails d’alertes netlinking)
Veille
Sheets &
Python
Création du dataset à partir des emails de votre choix
Exemple : Données tabulaires (rapports)
19. #seocamp 19
Élargir le périmètre de mots clés
Objectif : trouver les mots clés où mes concurrents sont positionnés et où je suis absent
Finaliser
Récupérer les données
finales
Manipuler
Enrichir les données
Nettoyer
les données
Récupérer
les données
Ubersuggest
SEMRush
Yooda Insight
…
Excel
Google Sheet
Dataiku
Big Query
Excel
Google Sheet
Dataiku
Big Query
Excel
Google Sheet
20. #seocamp 20
Copier-coller les fichiers
téléchargés à la suite.
La recette Stack permet la fusion de
plusieurs Datasets provenant de sources
différentes
Récupération
Récupérer & préparer les données
21. #seocamp 21
Consolidation
Nettoyer les données
Suppression des colonnes
à la main
Ajout des données à la
main ou via un plugin
(exemple: SEO Tools)
La recette Prepare permet de travailler
les données en utilisant un échantillons
Tips :
• Split URL pour avoir NDD, protocol,
…
• Filter row/cell pour ne garder que les
ligne utile
La recette Distinct permet de supprimer
les doublons
22. #seocamp 22
Consolidation
Manipuler les données
Fonction Nbsi déterminer
le nombre de fois qu’un
élément est répéter dans
une colonne.
La recette Group permet de grouper les
éléments selon un élément / plusieurs
éléments communs
La recette Join with… permet de faire une
jointure sur une ou plusieurs clés
communes
28. #seocamp 28
Exemple de Flow Dataiku
L’analyse de logs
Utiliser le tutoriel de Rémi Bacha pour récupérer les logs d’OVH en automatique : https://remibacha.com/analyse-logs-ovh-dataiku/
29. #seocamp 29
Consolidation pages actives
L’analyse de logs
Suppression des colonnes inutiles à la main
Nettoyage des
données en utilisant le
step « Remove row »
30. #seocamp 30
Consolidation du crawl
L’analyse de logs
Tips : Pour les problèmes
d’encodage d’URL, Utiliser
le step « Replace ».
Tips : Plutôt que de supprimer toutes les colonnes
comme montré dans la slide précédente. Utiliser le step
« Keep only » pour ne garder que les colonnes utiles
32. #seocamp 32
Jointure des datasets
L’analyse de logs
# -*- coding: utf-8 -*-
import dataiku
import pandas as pd, numpy as np
from dataiku import pandasutils as pdu
# Read recipe inputs
crawl_google_cleaned_grouped = dataiku.Dataset("crawl_google_cleaned_grouped")
crawl_google_cleaned_grouped_df = crawl_google_cleaned_grouped.get_dataframe()
crawl_SF_cleaned = dataiku.Dataset("crawl_SF_cleaned")
crawl_SF_cleaned_df = crawl_SF_cleaned.get_dataframe()
# Compute recipe outputs
# TODO: Write here your actual code that computes the outputs
# NB: DSS supports several kinds of APIs for reading and writing data. Please see
doc.
merged_outer_df = crawl_google_cleaned_grouped_df.merge(crawl_SF_cleaned_df,
how="outer", left_on="URL1", right_on="Address")
# Write recipe outputs
merged_outer = dataiku.Dataset("merged_outer")
merged_outer.write_with_schema(merged_outer_df)
La recette « Join with… » permet d’effectuer
une jointure sur deux Datasets ou plusieurs
Dataset
36. #seocamp 36
Speed Demon
v1.3
Source: https://medium.com/dev-channel/introducing-speed-demon-a36d95dd0174
Flow d’automatisation
Analyse webperf
Etape
1. Faire une copie du Google Sheet
2. Récupérer une clé API WebPageTest
3. Remplir le fichier Google Sheet
4. Mise en place de l’automatisation via
script editor
5. Préparation dans Google Sheet
6. Visualisation dans Data Studio
38. #seocamp 38
Visualisation sous Data Studio
Analyse webperf
Vision client
Vision concurrents
Possibilité de faire un dashboard automatisé de suivi en moins de 30 minutes
39. #seocamp 39
Combiner les sources sous Data Studio
Analyse webperf
Combiner les données fonctionne de la
même manière qu’une jointure.
40. #seocamp 40
WebPageTest
+ Google
Automatisation des runs WebPageTest et visualisation dans Data Studio
Résumé
Data IT
Pour les plus motivés : http://www.canyouseome.com/surveiller-levolution-de-la-vitesse-dun-site-et-de-concurrents-avec-bigquery/
41. #seocamp 41
Créer des
datasets
TAGS, R, Zapier, Sheets
A retenir
Stratégie + Pilotage SEO
Analyser
un dataset
Dataiku
Visualiser Data Studio
Formater,
trier
Python
42. #seocamp 42
Question Mug
● Élargir le périmètre de mots clés :
Combien d’étapes dans la recette
Dataiku ?