Absorber les web pour constituer un corpus internet : My Web intelligence.
1. +
Absorber les webs pour constituer un corpus internet : My
Web intelligence
20 novembre 2019 – Séminaire 2 :
IUT Bordeaux Montaigne, place Renaudel. Amphi 2
Amar LAKEL – Equipe E3D-MICA
3. + Liste urls de départs
Oracle :
Moteurs de recherche généraux : Google(simpleresults)
Moteurs de recherche specialisés : Isidor (API)
4. + Installer les Prérequis
Pour assurer l’installation, votre ordinateur à besoin
Installer python 3.74
(Win https://www.python.org/downloads/release/python-374/)
et pip (windows https://pip.pypa.io/en/stable/installing/)
Installer virtualenv (https://virtualenv.pypa.io/en/stable/userguide/)
Installer le git My Web intelligence (windows https://git-
scm.com/ AND https://www.atlassian.com/git/tutorials/install-
git#windows)
Installer DB Browser for SQLite
5. + Installer de My Web Intelligence
Installer par GIT : git clone
https://github.com/MyWebIntelligence/MyWebIntelligencePython.git
ALLER dans le répertoire MyWebIntelligencePython qui vient d’etre créer
Installer un venv [MAC} virtualenv venv [WIN] python -m venv
C:Userssome_userproject_foldervenv
Activer son (venv) : source venv/bin/activate OU venvScriptsactivate
Installer les dépendances : pip install -r requirements.txt
Installer la base de données : python mywi.py db setup
6. + Créer un land
si nécessaire , retourner dans son répertoire MyWebIntelligencePython
et activer son (venv) : source venv/bin/activate OU venvScriptsactivate
Créer un land : python mywi.py land create --name=« lenomdemonland » --desc=« une longue
description »
Ajouter des mots au dictionnaire : python mywi.py land addterm --land=LAND_NAME --
terms=« mot, mot2, mot composé »
Ajouter des URLs : python mywi.py land addurl --land=LAND_NAME --urls=
"https://domain1.com/page1.html, https://domain2.com/page2.html"
OU --path= data/url_list.txt
Lister ou supprimer des Lands
python mywi.py land list
python mywi.py land delete --name=LAND_NAME
7. + Lancer les crawls
Pour les URLS :
python mywi.py land crawl --name=LAND_NAME
--limit=n # n est le nombre d'urls à crawler
--http=HTTP_STATUS #relancer les http échoué 000|404|403
Pour crawler les DOMAINS :
python mywi.py domain crawl [--limit=LIMIT, --http=HTTP_STATUS]
SI les heuristics change ?
python mywi.py heuristic update
Propriétés du land
python mywi.py land properties --name=LAND_NAME
8. + Exporter fichiers My Web Intelligence
Pages Domaines Media
pagescsv pagesgexf fullpage domaincsv domaingexf mediacsv
id
url
title
description
keywords
relevance
depth
domain_id
domain_name
domain_descriptiondomain
_keywords
Idem pagecsv +
Source
Destination
Type
Id
idem pagecsv +
readable
id
name
title
description
keywords
expressions
average_relevance
idem nodecsv +
Source
Destination
Type
Id
Weight
id
expression_id
url
type
10. + Autorité et Audience: enrichissement externe
Intégration dans un système de données central (ex: google spreadsheet)
Au-delà du descriptif quel potentiel global
Alexa Rank
Moz Rank
DA (Domain Authority)
les seo moz alexa bulk cheker (http://bulkmozchecker.com/)
Les social count
fbshares
fbcomment
fbreaction
les social count (https://www.sharedcount.com/)
11. + Autorité et Hub : Recodage interne et SNA
[degree] Eccentricity ou HarmonicCloseness : l’isolement ou la centralité d’un noeud
dans le réseau (basé sur la somme des distance à tous les nœuds)
[clustering] : degré d’intégration dans une communauté dense du style « small world ».
Effet membre d’une secte.
[indegree] Eigencentrality or Page Rank Or Authority : l‘autorité base sur le calcul des
liens entrants
[outdegree] Hub = La qualité de vigie d’un noeud
(Strong)Component Number OR Modularity Class : groupe de nœud autonome et
Groupe de nœud par clustérisation de proximité
Composante connexe/Coefficient de clustering
12. + Autorité et Hub : Recodage interne et SNA
Deux tables : Des nœuds et des
relations
Des qualifications du réseau et de
ses sous réseau
Des qualifications structurales des
nœuds
Analyse du comportement relationnel
comme facteurs expliquant ou
expliquer
Des visualisations de réseaux
heuristiques
Analyser les réseaux
(comparaison ou longitudinal)
Sum Nœud, Sum Degré,
Statistiques des degrés
(Moyenne, Quartiles, Déciles,
etc.), Statistiques des propriétés
qualité et qu’anti
Plus court Chemin, Diamètre,
Chemin Moyen, Coefficient de
clustering, Densité
Composante connexe;
Modularity (w Resolution), NB
Communautés
13. + Autorité et Hub : Recodage interne et SNA
Rôles : Similarités des comportements envers les autres
[équivalence structurale]
Effet Saint Mathieu: ce qui attirent beaucoup attirent encore plus
6 degrés de connexions
La limite des 148 contacts actifs (690 max)
La taille compte (pour l’accès aux ressources)
Relation influence / sélection dans la Network théorie
14. + Recoder un corpus de texte
Formatage d'un corpus (meta et contenus)
Simplification lexicale de contenus (tolower, stopwords, remove,
lemmatisation)
Simplification externe de contenus (GAIA) par API (SentimentAnalysis,
AnalyseSynthaxique, AnalyseEntities, ClassificationThematique)
Décomposition matricielle d'un texte et analyse multidimensionnelle