SlideShare ist ein Scribd-Unternehmen logo
1 von 17
IC 05 / semestre printemps 2008 IC 05 / semestre printemps 2008 Franck.ghitalla Département TSH Président de WebAtlas [email_address]
IC 05 / semestre printemps 2008 Agrégats  et loi de puissance ( information geography ) 1) Principes théoriques 2) La « physis » des  objets  web 3) Expérimentations ( Web Information Systems , S.I.W.)
IC 05 / semestre printemps 2008 1) Principes théoriques
IC 05 / semestre printemps 2008 Clustering Degree =  High Distance Degree =  Low Principe de clustering + distribution des  Weak Ties  (bridging, shortcuts) issue de la tradition des Random Graphs 1) Principes théoriques ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
IC 05 / semestre printemps 2008 Loi de puissance ( power-law ) 20% des nœuds (sites/pages) reçoivent ou attirent 80% des liens (connectivité hypertextuelle) (et inversement) Structure hiérarchique forte des nœuds dominants qui assurent au web son unité et garantissent la circulation entre nœuds secondaires En haut – distribution de la connectivité a) en random graph b) en  power-law  (Barabasi). A droite – distribution de la connectivité « entrante » sur les principaux sites francophones consacrés à la CSTI – Mathieu Jacomy, 2005. 1) Principes théoriques
IC 05 / semestre printemps 2008 1) Principes théoriques Modèle d’évolution temporel – modèle prédictif («  the rich get richer  ») / network dynamics over time Preferential attachment / « links between nodes don’t come into existence entirely independently of one another » (D.Watts, Six Degrees, p.108) Clearly, the standard model of random graphs proposed by Erdos and Rényi has some serious problems, not just because it fails to predict the clustering that we discussed earlier, but also just because it cannot explain why barabasi and Albert found the degree distribution they did (i.e.scale free networks) » (D.Watts, Six Degrees, p.109).
IC 05 / semestre printemps 2008 1) Principes théoriques Distribution de la connectivité hypertexte entre sites « pour le non » au référendum sur la Constitution Européenne en 2005. Exploration dynamique du corpus via une application  Flash  – Antonin Rhomer, RTGI.
IC 05 / semestre printemps 2008 2) La « physis » des objets-web
IC 05 / semestre printemps 2008 ,[object Object],[object Object],[object Object],[object Object],2) La « physis » des objets relationnels Extraire et analyser des données Produire et comprendre des formes (patterns)
IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels Diamètre invariance d’échelle ( scale-free network ) Chemin moyen entre chaque paire de nœuds Graphe orienté ou non-orienté (prise en compte du sens des liens) Expérience de  Barabasi et al.  en 1998 Un premier graphe comprenant 1000 sites web avait un diamètre voisin de 8.  Quel diamètre pour 10.000 et 100.000 nœuds? 80 ou 800? 11 seulement. Densité  : nob liens réels / nb liens possibles
IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels Hubs   et  Authorities  ( les  cœurs) Tous les nœuds d’un graphe peuvent se décrire en fonction de leurs scores de  HUB  (nombre de liens sortants) et  d’AUTHORITY  (nombre de liens entrants). HUBS  (nœuds qui diffusent beaucoup de liens) AUTHORITIES  (nœuds qui reçoivent beaucoup de liens) Hubs et Authorities ont tendance à se  renforcer  mutuellement Ils forment le « cœur » des agrégats de documents web
IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels Clusters  et composition interne Analyse en  clusters  à partir de la distribution des  liens  dans le corpus, des similarités de  contenus  (mots-clef) et/ou de la concentration de certains  acteurs  identifiés
IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels The Achilles’heel of the Internet Attachement préférentiel Chaque nouveau entrant de le système aura tendance à se relier directement aux  Hubs  et aux  Authorités Temporellement,  Hubs  et  authorities  renforcent leur pouvoir Le « talon d’Achille » du web
IC 05 / semestre printemps 2008 3) Expérimentations et Systèmes d’Information Web
IC 05 / semestre printemps 2008 Extraction des données ( crawling system ) Bases et process de traitement Indexation Calculs Structure de graphe … Agora , un crawler de forum
IC 05 / semestre printemps 2008 3) Expérimentations (S.I.W.)
IC 05 / semestre printemps 2008 IC 05 / semestre printemps 2008 Franck.ghitalla Département TSH Président de WebAtlas [email_address]

Weitere ähnliche Inhalte

Ähnlich wie IC05 cours 2

Des traces d'usages aux patterns relationnels : la construction technologique...
Des traces d'usages aux patterns relationnels : la construction technologique...Des traces d'usages aux patterns relationnels : la construction technologique...
Des traces d'usages aux patterns relationnels : la construction technologique...Sébastien
 
A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)Abdelkader OUARED
 
le numérique alpha ou oméga du devenir des bibliothèques
le numérique alpha ou oméga du devenir des bibliothèquesle numérique alpha ou oméga du devenir des bibliothèques
le numérique alpha ou oméga du devenir des bibliothèquesGrégory Miura
 
Internet et le Web : de nouveaux espaces à cartographier ?
Internet et le Web : de nouveaux espaces à cartographier ? Internet et le Web : de nouveaux espaces à cartographier ?
Internet et le Web : de nouveaux espaces à cartographier ? Alexandre Monnin
 
Des réseaux sociaux aux réseaux historiques
Des réseaux sociaux aux réseaux historiquesDes réseaux sociaux aux réseaux historiques
Des réseaux sociaux aux réseaux historiquestuxette
 
Conception et modèles de blockchain - Bitcoin
Conception et modèles de blockchain - BitcoinConception et modèles de blockchain - Bitcoin
Conception et modèles de blockchain - BitcoinNicolae Sfetcu
 
Verrouillage éditorial dans les revues cœur en systèmes d'information
Verrouillage éditorial dans les revues cœur en systèmes d'informationVerrouillage éditorial dans les revues cœur en systèmes d'information
Verrouillage éditorial dans les revues cœur en systèmes d'informationGuillaume Cabanac
 
Presentation Enjeux Perspective
Presentation Enjeux PerspectivePresentation Enjeux Perspective
Presentation Enjeux PerspectiveFabien Pfaender
 
Quel avenir pour le Web et le numérique à l’heure de l’Anthropocène ?
Quel avenir pour le Web et le numérique à  l’heure de l’Anthropocène ? Quel avenir pour le Web et le numérique à  l’heure de l’Anthropocène ?
Quel avenir pour le Web et le numérique à l’heure de l’Anthropocène ? Alexandre Monnin
 
Web 3_0 - l'évolution vers le web sémantique: l'internet intelligent
Web 3_0 - l'évolution vers le web sémantique: l'internet intelligentWeb 3_0 - l'évolution vers le web sémantique: l'internet intelligent
Web 3_0 - l'évolution vers le web sémantique: l'internet intelligentJohann Lovato
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)BorderCloud
 
Exposé RéSeau Sociaux Entreprise Mars2011
Exposé RéSeau Sociaux Entreprise Mars2011Exposé RéSeau Sociaux Entreprise Mars2011
Exposé RéSeau Sociaux Entreprise Mars2011Yves Caseau
 
Architecture du web et ontologie d opérations
Architecture du web et ontologie d opérationsArchitecture du web et ontologie d opérations
Architecture du web et ontologie d opérationsAlexandre Monnin
 
Web intelligent
Web intelligentWeb intelligent
Web intelligentmetallys
 

Ähnlich wie IC05 cours 2 (20)

Des traces d'usages aux patterns relationnels : la construction technologique...
Des traces d'usages aux patterns relationnels : la construction technologique...Des traces d'usages aux patterns relationnels : la construction technologique...
Des traces d'usages aux patterns relationnels : la construction technologique...
 
Visual Network Analysis
Visual Network AnalysisVisual Network Analysis
Visual Network Analysis
 
Boussole Nanotec Hv2
Boussole Nanotec Hv2Boussole Nanotec Hv2
Boussole Nanotec Hv2
 
20170320logiciels
20170320logiciels20170320logiciels
20170320logiciels
 
A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)
 
le numérique alpha ou oméga du devenir des bibliothèques
le numérique alpha ou oméga du devenir des bibliothèquesle numérique alpha ou oméga du devenir des bibliothèques
le numérique alpha ou oméga du devenir des bibliothèques
 
IC05 cours 3
IC05 cours 3IC05 cours 3
IC05 cours 3
 
Internet et le Web : de nouveaux espaces à cartographier ?
Internet et le Web : de nouveaux espaces à cartographier ? Internet et le Web : de nouveaux espaces à cartographier ?
Internet et le Web : de nouveaux espaces à cartographier ?
 
Des réseaux sociaux aux réseaux historiques
Des réseaux sociaux aux réseaux historiquesDes réseaux sociaux aux réseaux historiques
Des réseaux sociaux aux réseaux historiques
 
Conception et modèles de blockchain - Bitcoin
Conception et modèles de blockchain - BitcoinConception et modèles de blockchain - Bitcoin
Conception et modèles de blockchain - Bitcoin
 
Verrouillage éditorial dans les revues cœur en systèmes d'information
Verrouillage éditorial dans les revues cœur en systèmes d'informationVerrouillage éditorial dans les revues cœur en systèmes d'information
Verrouillage éditorial dans les revues cœur en systèmes d'information
 
Presentation Enjeux Perspective
Presentation Enjeux PerspectivePresentation Enjeux Perspective
Presentation Enjeux Perspective
 
Quel avenir pour le Web et le numérique à l’heure de l’Anthropocène ?
Quel avenir pour le Web et le numérique à  l’heure de l’Anthropocène ? Quel avenir pour le Web et le numérique à  l’heure de l’Anthropocène ?
Quel avenir pour le Web et le numérique à l’heure de l’Anthropocène ?
 
Web 3_0 - l'évolution vers le web sémantique: l'internet intelligent
Web 3_0 - l'évolution vers le web sémantique: l'internet intelligentWeb 3_0 - l'évolution vers le web sémantique: l'internet intelligent
Web 3_0 - l'évolution vers le web sémantique: l'internet intelligent
 
formation URFIST Rennes 2009
formation URFIST Rennes 2009formation URFIST Rennes 2009
formation URFIST Rennes 2009
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
 
Exposé RéSeau Sociaux Entreprise Mars2011
Exposé RéSeau Sociaux Entreprise Mars2011Exposé RéSeau Sociaux Entreprise Mars2011
Exposé RéSeau Sociaux Entreprise Mars2011
 
Architecture du web et ontologie d opérations
Architecture du web et ontologie d opérationsArchitecture du web et ontologie d opérations
Architecture du web et ontologie d opérations
 
Le Web aujourd'hui
Le Web aujourd'huiLe Web aujourd'hui
Le Web aujourd'hui
 
Web intelligent
Web intelligentWeb intelligent
Web intelligent
 

Mehr von Sébastien

PhD Defense: Analyse exploratoire de flots de liens pour la détection d'événe...
PhD Defense: Analyse exploratoire de flots de liens pour la détection d'événe...PhD Defense: Analyse exploratoire de flots de liens pour la détection d'événe...
PhD Defense: Analyse exploratoire de flots de liens pour la détection d'événe...Sébastien
 
Monitoring User-System Interactions through Graph-Based Intrinsic Dynamics An...
Monitoring User-System Interactions through Graph-Based Intrinsic Dynamics An...Monitoring User-System Interactions through Graph-Based Intrinsic Dynamics An...
Monitoring User-System Interactions through Graph-Based Intrinsic Dynamics An...Sébastien
 
Gephi short introduction
Gephi short introductionGephi short introduction
Gephi short introductionSébastien
 
Gephi : dynamic features
Gephi : dynamic featuresGephi : dynamic features
Gephi : dynamic featuresSébastien
 
Motivation in FLOSS communities
Motivation in FLOSS communitiesMotivation in FLOSS communities
Motivation in FLOSS communitiesSébastien
 
Outskewer: Using Skewness to Spot Outliers in Samples and Time Series
Outskewer: Using Skewness to Spot Outliers in Samples and Time SeriesOutskewer: Using Skewness to Spot Outliers in Samples and Time Series
Outskewer: Using Skewness to Spot Outliers in Samples and Time SeriesSébastien
 
Réseau thématique Analyse Exploratoire de Données pour les Réseaux Dynamiques
Réseau thématique Analyse Exploratoire de Données pour les Réseaux DynamiquesRéseau thématique Analyse Exploratoire de Données pour les Réseaux Dynamiques
Réseau thématique Analyse Exploratoire de Données pour les Réseaux DynamiquesSébastien
 
Conclusion du cours Exploration du Web
Conclusion du cours Exploration du WebConclusion du cours Exploration du Web
Conclusion du cours Exploration du WebSébastien
 
Introduction à l'exploration du Web
Introduction à l'exploration du WebIntroduction à l'exploration du Web
Introduction à l'exploration du WebSébastien
 
WebCSTI Rencontres OCIM 2009
WebCSTI Rencontres OCIM 2009WebCSTI Rencontres OCIM 2009
WebCSTI Rencontres OCIM 2009Sébastien
 
Tour d'horizon des personnes morales adhérentes à l'APRIL
Tour d'horizon des personnes morales adhérentes à l'APRILTour d'horizon des personnes morales adhérentes à l'APRIL
Tour d'horizon des personnes morales adhérentes à l'APRILSébastien
 

Mehr von Sébastien (13)

PhD Defense: Analyse exploratoire de flots de liens pour la détection d'événe...
PhD Defense: Analyse exploratoire de flots de liens pour la détection d'événe...PhD Defense: Analyse exploratoire de flots de liens pour la détection d'événe...
PhD Defense: Analyse exploratoire de flots de liens pour la détection d'événe...
 
Monitoring User-System Interactions through Graph-Based Intrinsic Dynamics An...
Monitoring User-System Interactions through Graph-Based Intrinsic Dynamics An...Monitoring User-System Interactions through Graph-Based Intrinsic Dynamics An...
Monitoring User-System Interactions through Graph-Based Intrinsic Dynamics An...
 
Gephi short introduction
Gephi short introductionGephi short introduction
Gephi short introduction
 
Gephi : dynamic features
Gephi : dynamic featuresGephi : dynamic features
Gephi : dynamic features
 
Motivation in FLOSS communities
Motivation in FLOSS communitiesMotivation in FLOSS communities
Motivation in FLOSS communities
 
Outskewer: Using Skewness to Spot Outliers in Samples and Time Series
Outskewer: Using Skewness to Spot Outliers in Samples and Time SeriesOutskewer: Using Skewness to Spot Outliers in Samples and Time Series
Outskewer: Using Skewness to Spot Outliers in Samples and Time Series
 
Réseau thématique Analyse Exploratoire de Données pour les Réseaux Dynamiques
Réseau thématique Analyse Exploratoire de Données pour les Réseaux DynamiquesRéseau thématique Analyse Exploratoire de Données pour les Réseaux Dynamiques
Réseau thématique Analyse Exploratoire de Données pour les Réseaux Dynamiques
 
Conclusion du cours Exploration du Web
Conclusion du cours Exploration du WebConclusion du cours Exploration du Web
Conclusion du cours Exploration du Web
 
Introduction à l'exploration du Web
Introduction à l'exploration du WebIntroduction à l'exploration du Web
Introduction à l'exploration du Web
 
Diseasome
DiseasomeDiseasome
Diseasome
 
WebCSTI Rencontres OCIM 2009
WebCSTI Rencontres OCIM 2009WebCSTI Rencontres OCIM 2009
WebCSTI Rencontres OCIM 2009
 
IC05 cours 4
IC05 cours 4IC05 cours 4
IC05 cours 4
 
Tour d'horizon des personnes morales adhérentes à l'APRIL
Tour d'horizon des personnes morales adhérentes à l'APRILTour d'horizon des personnes morales adhérentes à l'APRIL
Tour d'horizon des personnes morales adhérentes à l'APRIL
 

IC05 cours 2

  • 1. IC 05 / semestre printemps 2008 IC 05 / semestre printemps 2008 Franck.ghitalla Département TSH Président de WebAtlas [email_address]
  • 2. IC 05 / semestre printemps 2008 Agrégats et loi de puissance ( information geography ) 1) Principes théoriques 2) La « physis » des objets web 3) Expérimentations ( Web Information Systems , S.I.W.)
  • 3. IC 05 / semestre printemps 2008 1) Principes théoriques
  • 4.
  • 5. IC 05 / semestre printemps 2008 Loi de puissance ( power-law ) 20% des nœuds (sites/pages) reçoivent ou attirent 80% des liens (connectivité hypertextuelle) (et inversement) Structure hiérarchique forte des nœuds dominants qui assurent au web son unité et garantissent la circulation entre nœuds secondaires En haut – distribution de la connectivité a) en random graph b) en power-law (Barabasi). A droite – distribution de la connectivité « entrante » sur les principaux sites francophones consacrés à la CSTI – Mathieu Jacomy, 2005. 1) Principes théoriques
  • 6. IC 05 / semestre printemps 2008 1) Principes théoriques Modèle d’évolution temporel – modèle prédictif («  the rich get richer  ») / network dynamics over time Preferential attachment / « links between nodes don’t come into existence entirely independently of one another » (D.Watts, Six Degrees, p.108) Clearly, the standard model of random graphs proposed by Erdos and Rényi has some serious problems, not just because it fails to predict the clustering that we discussed earlier, but also just because it cannot explain why barabasi and Albert found the degree distribution they did (i.e.scale free networks) » (D.Watts, Six Degrees, p.109).
  • 7. IC 05 / semestre printemps 2008 1) Principes théoriques Distribution de la connectivité hypertexte entre sites « pour le non » au référendum sur la Constitution Européenne en 2005. Exploration dynamique du corpus via une application Flash – Antonin Rhomer, RTGI.
  • 8. IC 05 / semestre printemps 2008 2) La « physis » des objets-web
  • 9.
  • 10. IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels Diamètre invariance d’échelle ( scale-free network ) Chemin moyen entre chaque paire de nœuds Graphe orienté ou non-orienté (prise en compte du sens des liens) Expérience de Barabasi et al. en 1998 Un premier graphe comprenant 1000 sites web avait un diamètre voisin de 8. Quel diamètre pour 10.000 et 100.000 nœuds? 80 ou 800? 11 seulement. Densité : nob liens réels / nb liens possibles
  • 11. IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels Hubs et Authorities ( les cœurs) Tous les nœuds d’un graphe peuvent se décrire en fonction de leurs scores de HUB (nombre de liens sortants) et d’AUTHORITY (nombre de liens entrants). HUBS (nœuds qui diffusent beaucoup de liens) AUTHORITIES (nœuds qui reçoivent beaucoup de liens) Hubs et Authorities ont tendance à se renforcer mutuellement Ils forment le « cœur » des agrégats de documents web
  • 12. IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels Clusters et composition interne Analyse en clusters à partir de la distribution des liens dans le corpus, des similarités de contenus (mots-clef) et/ou de la concentration de certains acteurs identifiés
  • 13. IC 05 / semestre printemps 2008 2) La « physis » des objets relationnels The Achilles’heel of the Internet Attachement préférentiel Chaque nouveau entrant de le système aura tendance à se relier directement aux Hubs et aux Authorités Temporellement, Hubs et authorities renforcent leur pouvoir Le « talon d’Achille » du web
  • 14. IC 05 / semestre printemps 2008 3) Expérimentations et Systèmes d’Information Web
  • 15. IC 05 / semestre printemps 2008 Extraction des données ( crawling system ) Bases et process de traitement Indexation Calculs Structure de graphe … Agora , un crawler de forum
  • 16. IC 05 / semestre printemps 2008 3) Expérimentations (S.I.W.)
  • 17. IC 05 / semestre printemps 2008 IC 05 / semestre printemps 2008 Franck.ghitalla Département TSH Président de WebAtlas [email_address]