SlideShare ist ein Scribd-Unternehmen logo
1 von 14
Downloaden Sie, um offline zu lesen
w   h   i   t   e     p a    p       e   r




                  Découvrir et exploiter
                  le web invisible pour la
                  veille stratégique
                  Accédez à des milliers de ressources
                  cachées de haute qualité




www.digimind.fr                       boston       -       london   -   pa r i s   -   grenoble   -   r a b at
Avertissement
Ce document a été réalisé par la société Digimind.


Le contenu de ce document est protégé par le droit d’auteur. Son contenu est la propriété de Digimind et de ses auteurs respectifs. Il peut être reproduit en partie
sous forme d’extraits à la condition expresse de citer Digimind comme auteur et d’indiquer l’adresse http://www.digimind.com. Pour toute information complé-
mentaire, vous pouvez contacter Digimind par mail à l’adresse contact@digimind.com ou par téléphone au 01 53 34 08 08.


Digimind, mai 2008.




      www.digimind.fr                                                                 boston       -   london        -   pa r i s   -   grenoble        -   r a b at
Sommaire
Le weB iNViSiBLe : CONCeptS et DeFiNitiON .......................................................05
L’internet n’est pas le web .......................................................................................................................05
Le Web Visible ...................................................................................................................................................05
Le Web Invisible : Définition et structure....................................................................................05
Un Web Invisible, Caché ou Profond ?..........................................................................................09


CaraCteriStiQUeS DU weB iNViSiBLe : taiLLe et QUaLite ...............10
La taille du web visible et invisible : estimations..................................................................10
Contenu et qualité du web invisible ............................................................................................12


COMMeNt iDeNtiFier DeS SiteS DU weB iNViSiBLe.....................................15
Identifier des sources via les répertoires et annuaires spécialisés .........................15
Rechercher des ressources spécialisées via votre requête ..........................................23
Exemple de ressources du Web Invisible...................................................................................24


DiGiMiND et La VeiLLe SUr Le weB iNViSiBLe .....................................................26
Les spécificités d’une veille automatisée sur le Web Invisible ..................................26
Comparatif des principaux outils de recherche / surveillance du web
invisible ..................................................................................................................................................................30
Les avantages de l’approche de Digimind pour la surveillance du Web
Invisible ..................................................................................................................................................................30


a prOpOS DeS aUteUrS ................................................................................................................32
Digimind Consulting ..................................................................................................................................32
Christophe ASSELIN.....................................................................................................................................32


NOteS….............................................................................................................................................................33




© digimind - tous droits réservés                                                                                                                                  digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
[extraits]
Téléchargez l’intégralité de ce document et
 l’ensemble des publications de Digimind :
          http://www.digimind.fr/actus/actu/publications




 www.digimind.fr                  boston   -   london   -   pa r i s   -   grenoble   -   r a b at
Pour rechercher des informations et effectuer votre veille sur le web, l’utilisation des seuls moteurs et annuaires généralistes vous privera de l’identifica-
tion de centaines de milliers de sources…. Pourquoi ?
Parce que des moteurs comme Google, MSN ou Yahoo! Search1 ou des répertoires tels que Yahoo! Directory2 ne vous donnent accès qu’à une petite
partie (inférieure à 10%) du web, le Web Visible. La technologie de ces moteurs conventionnels ne permet pas d’accéder à une zone immense du web,
le Web Invisible, espace beaucoup plus important que le web visible.


Lors d’une navigation en Antarctique pour prélever des échantillons de glace sur des icebergs, si vous vous limitez à leur partie émergée, vous vous
privez de la surface immergée, en moyenne 50 fois plus importante.


Sur le web, c’est la même chose ! Se contenter du web visible pour votre veille revient à ne pas explorer une zone invisible environ 500 fois plus
volumineuse, comportant des centaines de milliers de ressources de grande valeur.


Les ressources du Web Invisible sont en effet en moyenne de plus grande qualité, plus pertinentes que celles du web de surface. Pourquoi ? Parce qu’elles
sont élaborées ou validées par des experts, faisant autorité dans leurs domaines.


Ce document vous présente le concept de Web Invisible ainsi que ses caractéristiques. Par ailleurs, il vous explique comment trouver des sites apparte-
nant à ce web “profond”.
Enfin, il vous montre pourquoi l’approche choisie par Digimind, à travers ses nouvelles technologies et son service conseil, vous permet de mettre en
œuvre un véritable processus de veille industrielle sur les ressources du Web Invisible.




      www.digimind.fr                                                              boston       -   london       -   pa r i s   -   grenoble      -   r a b at
Le Web Invisible : concepts
et définition
Pourquoi un web invisible ?                                                        le Web Visible
Pour comprendre le web invisible, Il convient d’abord de rappeler ce
que sont le web et sa zone visible.                                                Pour appréhender la notion de Web Visible, il est nécessaire de com-
                                                                                   prendre le fonctionnement d’un moteur de recherche.
l’internet n’est pas le Web                                                        Un moteur de recherche “aspire” puis indexe des pages web. Pour ce
                                                                                   faire, ses robots (ou spider) vont parcourir les pages web en naviguant
Il existe souvent une confusion et un amalgame sémantique entre le                 de liens en liens, et passer ainsi d’une page à une autre. Ce robot va
web et l’internet. Ce sont pourtant 2 concepts différents. L’internet, ou          archiver sur les serveurs du moteur une version de chaque page web
Net, est un réseau informatique mondial constitué d’un ensemble de                 rencontrée.
réseaux nationaux, régionaux et privés, interconnectés entre eux (INTER-           Ainsi, Google dispose de plus de 10 000 serveurs répartis sur plusieurs
connected NETworks). Il relie des ressources de télécommunication et               états (Californie, Irlande, Suisse…) et installés dans des salles dédiées.
des ordinateurs serveurs et clients.                                               Ces serveurs connectés entre eux hébergent notamment les milliards
Sur ce réseau, vous pouvez accéder à un certain nombre de services via             de pages web aspirées.
des protocoles de communication spécifiques :                                      Cette version archivée des pages au moment du passage du robot est
- le World Wide Web (protocole http://www)                                         d’ailleurs disponible via la fonction “Cache” disponible sur certains mo-
- le Mail (smtp)                                                                   teurs comme Google, Yahoo!, Clusty ou Gigablast (copies d’écran ci-des-
- Usenet (Newsgroups ou groupes de discussion). Exemple : sci.med.                 sous).
oncology                                                                           Lors d’une recherche sur un moteur, l’internaute lance une requête sur
- le P2P (via des logiciels clients).                                              les bases de données de ces serveurs.
et également le FTP, Gopher, …




                                                                                                                                    les fonctions “Cache” du moteur Yahoo!




                                                                                   le Web inVisible :
                                                                                   deFinition et strUCtUre

                                                                                   Le Web Invisible est constitué des documents web mal ou non indexés
                                                                                   par les moteurs de recherche généralistes conventionnels.




© digimind - tous droits réservés                                   digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
En effet, le fonctionnement des moteurs pour “aspirer” le web implique                         pas la totalité de ce contenu (son indexation varie entre 5 et 60 % selon
que, d’une part, les pages soient bien liées entre elles via les liens                         les moteurs). C’est aussi le cas de plusieurs milliers de bases de données
hypertexte (http://) qu’elles contiennent et que, d’autre part, elles                          professionnelles en ligne comme PubMed, certaines n’étant pas
soient identifiables par les robots du moteur. Or dans                                                           indexées du tout. D’autre part, les moteurs n’indexent
certains cas, ce parcours de liens en liens et cette
identification de pages est difficile, voire impossible.
                                                                         “le Web inVisible                       pas la totalité du contenu d’une page lorsque celle-ci
                                                                                                                 est très volumineuse : Google et Yahoo! archivent les
Une partie du web est en effet peu ou non accessible
                                                                         est ConstitUé des                       pages dans une limite de 500k et 505k.
aux moteurs de recherche pour plusieurs raisons :                        doCUments Web
                                                                         mal oU non indexés                      2- les pages sont protégées par l’auteur (balise
1- Les documents ou bases de données sont trop                           par les moteUrs                         meta qui stoppe le robot des moteurs)
volumineux pour être entièrement indexés.                                de reCherChe                            Certains sites sont protégés par leur créateur ou
Prenons l’exemple de l’IMDB . L’Internet Movie
                                        3
                                                                         ConVentionnels”                         gestionnaire (webmaster), qui, grâce à un fichier
Database, une base de donnée                   en libre accès                                                    robot.txt inséré dans le code des pages, interdit leur
consacrée au cinéma répertorie plus de 7 millions de pages descriptives                        accès aux robots des moteurs. L’utilisation de ce fichier robot.txt est
consacrées aux films et acteurs, représentant chacune une page web.                            effectuée pour protéger le copyright des pages, limiter leur visite à un
Soit plus de 7 millions de pages. Les moteurs conventionnels n’indexent                        groupe restreint d’internautes (auquel on fournira l’adresse, inconnue
                                                                                               des moteurs) ou préserver certains sites d’un accès trop fréquent
                                                                                               ralentissant les serveurs. Ainsi, le site du journal Le Monde interdit aux
                                                                                               robots des moteurs de recherche l’accès à ses pages payantes. De cette
                                                                                               manière, il évite que les moteurs archivent des pages payantes et les
                                                                                               mettent à disposition gratuitement via leur fonction “Cache”.


                                                                                               3- les pages sont générées seulement dynamiquement, lors d’une
                                                                                               requête par exemple
                                                                                               De nombreux sites web génèrent des pages dynamiquement, c’est-à-
                                                                                               dire uniquement en réponse à une requête sur leur moteur interne. Il
                                                                                               n’existe pas alors d’URL4 (adresse) statique des pages que les moteurs
                                                                                               pourraient parcourir puisque les robots des moteurs n’ont pas la faculté
                                                                                               de taper des requêtes. Ainsi, lorsque vous faites une recherche sur des
                                                                                               bases de données ou moteurs, certaines pages générées en réponse à
                                                                                               votre question sont structurées avec des ? et , de cette manière par
                                                                                               exemple : query.fcgi?CMD=search. Ce type de page n’est généralement
                                                                                               pas ou mal indexée par les moteurs. Exemple :
   la célèbre base pubmed de la national library of medecine donnant notamment accès à
                                                             plus de 1 millions d’articles.   http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=searchDB=Genome




      www.digimind.fr                                                                          boston      -   london       -   pa r i s   -   grenoble      -   r a b at
4- les pages sont protégées avec une authentification par identifiant                                 être indexé en 2002 par le moteur AlltheWeb5
(login) et mot de passe.                                                                              Aujourd’hui, la plupart des grands moteurs à large index (Google,
De nombreux sites, qu’ils soient payants ou gratuits, protègent tout ou                               Yahoo!, MSN, Exalead, Gigablast6) mémorisent et indexent ces formats
partie de leur contenu par mot de passe. Les robots de moteurs n’ayant                                de documents. Toutefois, comme nous l’avons vu, l’archivage d’une
pas la faculté de taper des mots dans des formulaires complexes, ces                                  page web est limité à 500 ou 505 k sur Google et Yahoo! Search. Les
pages ne leur sont pas accessibles.                                                                   documents dépassant ce seuil seront donc partiellement indexés.
                                                                                                      On le voit, la structure du web dit “invisible” peut donc évoluer dans
                                                                                                      le temps en fonction des avancées technologiques des moteurs de
                                                                                                      recherche. D’”invisibles” avant 2001, certains formats sont devenus
                                                                                                      “visibles” ensuite.




                                                                                                        les pages web peu accessibles ou inaccessibles aux moteurs de recherche conventionnels


                                                                                                      6- Les pages sont mal liées entre elles ou sont orphelines (aucun lien
                                                                                                      présent sur d’autres pages ne pointent vers elles).
                     l’authentification pour l’accès au site d’une fédération professionnelle.
                                                                                                      Plutôt qu’une toile, le web est en fait un immense papillon.
5 - Les formats des documents                                                                         Pourquoi ?
Il y a encore quelques années, on incluait dans le Web Invisible toutes                               Nous avons vu que le fonctionnement des robots des moteurs de
les pages aux formats autres que le html, seul format reconnu et indexé                               recherche impliquait que toutes les pages soient liées entre elles pour
par les moteurs.                                                                                      qu’elles soient visibles. Or, ce n’est pas le cas.
En effet, jusqu’en 2001, les moteurs n’indexaient pas les formats PDF                                 Jusqu’en 2000, on avait coutume de représenter le web à la manière
(Adobe) et Microsoft Office (Excel, Word, Power Point…). Depuis l’été                                 d’une toile d’araignée, supposant ainsi que les pages web sont toutes
2001, Google indexe le PDF et, depuis octobre 2001, il indexe les fichiers                            bien liées entre elles, selon la même densité de liens entrant et sortant,
Word (.doc), Excel (.xls), Powerpoint (.ppt), Rich Text Format (.RTF),                                constituant ainsi un ensemble homogène de ramifications. Ainsi, en
PostScript (.ps) et d’autres encore. Le format Flash, lui, a commencé à                               partant de certaines URLs bien définies, les robots devaient forcément




© digimind - tous droits réservés                                                      digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
parvenir à parcourir le web en quasi-totalité.                                           ces pages sont accessibles et liées à partir du noyau mais en retour, elles
Or, en juin 2000, des chercheurs de IBM (Almaden Research Center,                        n’ont pas de liens qui pointent vers le cœur. C’est le cas, par exemple, de
Californie), Compaq et Altavista ont proposé une toute autre                             sites “Corporate” de sociétés qui ne comportent que des liens internes et
représentation du web, plus proche de la réalité…                                        ne proposent pas de liens sortant vers d’autres sites.
Dans leur étude “Graph structure in the web” , les 8 chercheurs analysent
                                                 7


200 millions de pages et 1,5 millions de liens collectés par le robot
d’Altavista en 3 étapes, de mai à octobre 1999.
                                                                                         4. Les “Tendrils” : (21,4%) :
                                                                                         Ce   terme        métaphorique,
                                                                                                                                “le Web, plUtôt
L’analyse de ces pages révèle que le web se structurerait en 4 parties :                 emprunté à la botanique,               qU’Une toile
                                                                                         désigne des filaments. Ceux-           d’araignée, est
                                                                                         ci représentent des pages              strUCtUrée Comme
                                                                                         qui ne sont pas liées au               Un immense
                                                                                         cœur SCC, et sans liens qui
                                                                                                                                papillon”
                                                                                         pointent vers elles à partir
                                                                                         du cœur. Ces filaments ne sont connectés qu’aux zones IN et OUT via
                                                                                         des liens sortants de la zone IN et des liens entrants dans la zone OUT.
                                                                                         L’étude révèle par ailleurs que si l’on choisit une page au hasard au sein
                                                                                         des zones IN et OUT, la probabilité qu’un chemin direct existe de la
                                                                                         source (IN) à la destination (OUT) est de seulement 24% (représenté ici
                                                                                         par le “tube”).


                                                                                         - Enfin, 8,3% des pages constituent des îlots, totalement déconnectés
                                                                                         du reste du web. Ces pages sont donc orphelines, sans liens pointant
                         Connectivity of the web. © etude “graph structure in the web”   vers elles et sans liens sortant, qui auraient permis aux sites destinataires
                                                                                         de les trouver. Pour identifier ces pages, il n’existe donc pas d’autres
1. La partie centrale, le Cœur : SCC (Giant Strongly Connected Component),               solutions que de connaître leurs adresses fournies par leurs créateurs.
soit 27,5 % des pages web analysées. Toutes les pages web sont bien
connectées entre elles via des liens directs.                                            Comment est-il possible que des pages soient mal liées ou non liées ?
                                                                                         Ces pages de sites web peuvent être mal référencées ou non référencées
2 et 3. Les zones IN et OUT : La partie IN (21,4%) comprend les pages                    involontairement dans les index de moteurs :
“source” : ces pages comportent des liens qui pointent vers le cœur                      - Par exemple si ses auteurs ne se sont pas préoccupés d’optimiser ces
(SCC) mais l’inverse n’est pas vrai : aucun lien présent dans le cœur ne                 pages (choix adéquat des mots clés, des titres) afin qu’elles soient visibles
pointent sur ces pages. Cela peut concerner de nouvelles pages pas                       parmi les premiers résultats des moteurs. C’est ensuite un cercle vicieux
encore découvertes et donc non “liées” par des liens pointant vers elles.                : les algorithmes de moteurs comme Google privilégient la popularité
La partie OUT (21,4%) comprend au contraire des pages de “destination” :                 des sites pour un bon classement dans les pages de résultats (plus le




      www.digimind.fr                                                                    boston        -    london         -   pa r i s   -   grenoble    -   r a b at
nombre de liens pointant vers une page est important, plus cette page                nes qui s’identifient. Le robot ne peut donc pas y accéder.
aura une chance d’être bien classée au sein des résultats). Une page web             - The Truly Invisible Web : contenu qui ne peut être indexé pour des rai-
mal classée dès le départ sera moins visible, donc moins découverte par              sons techniques. Ex: format inconnu par le moteur, pages générées dy-
les internautes et bénéficiera de moins de liens. Ces pages, au mieux,               namiquement.
stagneront ou descendront dans les profondeurs des pages de résultats
des moteurs.                                                                         Le terme de Web Invisible a été employé pour la première fois en
- Une page placée sur le web sans liens pointant vers elle demeurera                 1994 par le DR Jill Ellsworth pour évoquer une information dont le
invisible des moteurs de recherche. Cela est le cas pour des milliers de             contenu était invisible des moteurs de recherche conventionnels.
documents dont les auteurs ne connaissent pas
ou se soucient peu des principes de visibilité de                                                       Mais dans son étude “The Deep Web: Surfacing Hidden
leurs pages (documents de recherche, documents            “le Web n’est pas                             Value “ , Michael K. Bergman estime, avec raison, que le
techniques..).                                            réellement inVisible                          terme de Web Invisible est inapproprié. En effet, la seule
Par ailleurs, on voit sur cette représentation du web     mais diFFiCilement                            chose d’invisible l’est aux “yeux” des robots des moteurs.
en papillon que certaines pages demeurent tout à                                                        Des technologies comme Digimind Evolution permet-
                                                          aCCessible. il FaUt
fait invisibles et d’autres seulement moins visibles                                                    tent d’accéder et de surveiller ce web invisible.
                                                          plUtôt parler de
…Il existe donc des niveaux de visibilité. Aussi le                                                     Aussi, plutôt que le web visible et invisible, l’étude de
terme “invisible” au sens strict n’est pas forcément le
                                                          Web proFond ”                                 BrightPlanet préfère évoquer un “Surface Web” et un
plus approprié…                                                                                         “Deep web” (web profond). En effet, le problème n’est
                                                                                     pas tant la visibilité que l’accessibilité par les moteurs. Il existe donc un
Un Web inVisible, CaChe oU proFond ?                                                 web de surface que les moteurs parviennent à indexer et un web pro-
                                                                                     fond, que leurs technologies ne parviennent pas encore à explorer, mais
Plutôt que de parler d’un Web Invisible, certains spécialistes ont tenté de          qui est visible à partir d’autres technologies perfectionnées.
préciser le concept et de l’illustrer différemment.                                  On pourrait donc comparer le web à un gigantesque iceberg (en per-
Ainsi, Chris Sherman et Gary Price proposent dans leur ouvrage “The                  pétuelle expansion) présentant un volume de ressources immergées
Invisible Web” de distinguer 4 types de web invisible :
                  8
                                                                                     beaucoup plus important que les ressources de surface. Comme le
- The Opaque Web : les pages qui pourraient être indexées par les mo-                web, cet iceberg verrait son volume total augmenter constamment, et
teurs mais qui ne le sont pas (à cause de la limitation d’indexation du              la structure de ses parties immergées et émergées se modifier avec le
nombre de pages d’un site, de leur fréquence d’indexation trop rare, de              temps (en fonction de l’évolution des technologies des moteurs).
liens absents vers des pages ne permettant donc pas un crawling de                   Mais quelle peut être la taille et la composition de ces 2 parties de l’ice-
liens en liens)                                                                      berg ?
- The Private Web : concerne les pages web disponibles mais volontaire-
ment exclues par les webmasters (mot de passe, metatags ou fichiers                  Si en moyenne, le volume de la partie immergée d’un iceberg est 50 fois
dans la page pour que le robot du moteur ne l’indexe pas).                           plus important que celui de sa partie émergée, les proportions du web
- The Proprietary web : les pages seulement accessibles pour les person-             visible et invisible sont très différentes…




© digimind - tous droits réservés                                     digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
© digimind - tous droits réservés   digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page 2
Dans la même collection
White papers
• «Le Web 2.0 pour la veille et la recherche d’information : Exploitez les ressources du Web Social»
Christophe Asselin, Expert Veille Internet, Digimind

• «Blogs et RSS, des outils pour la veille stratégique»
Christophe Asselin, Expert Veille Internet, Digimind

• «Réputation Internet : Ecoutez at analysez le buzz digital»
Christophe Asselin, Expert Veille Internet, Digimind

• «Evaluer le Retour sur Investissement d’un logiciel de veille»
Edouard Fillias, Consultant Veille Stratégique, Digimind

• «Catégorisation automatique de textes»

• «Benchmark des solutions de veille stratégique»


red books
• Biotechnologie

• Nanotechnologie

• Nutrition

• RFID

• Risk management

• Contrefaçon

• Moyens de paiement

a télécharger sur http://www.digimind.fr/actus/publications




© digimind - tous droits réservés                                  digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
www.digimind.com
Téléchargez l’intégralité de ce document et
 l’ensemble des publications de Digimind :
          http://www.digimind.fr/actus/actu/publications




 www.digimind.fr                  boston   -   london   -   pa r i s   -   grenoble   -   r a b at

Weitere ähnliche Inhalte

Empfohlen

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Empfohlen (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

Digimind WhitePaper Web Invisible Pour La Veille 2008

  • 1. w h i t e p a p e r Découvrir et exploiter le web invisible pour la veille stratégique Accédez à des milliers de ressources cachées de haute qualité www.digimind.fr boston - london - pa r i s - grenoble - r a b at
  • 2. Avertissement Ce document a été réalisé par la société Digimind. Le contenu de ce document est protégé par le droit d’auteur. Son contenu est la propriété de Digimind et de ses auteurs respectifs. Il peut être reproduit en partie sous forme d’extraits à la condition expresse de citer Digimind comme auteur et d’indiquer l’adresse http://www.digimind.com. Pour toute information complé- mentaire, vous pouvez contacter Digimind par mail à l’adresse contact@digimind.com ou par téléphone au 01 53 34 08 08. Digimind, mai 2008. www.digimind.fr boston - london - pa r i s - grenoble - r a b at
  • 3. Sommaire Le weB iNViSiBLe : CONCeptS et DeFiNitiON .......................................................05 L’internet n’est pas le web .......................................................................................................................05 Le Web Visible ...................................................................................................................................................05 Le Web Invisible : Définition et structure....................................................................................05 Un Web Invisible, Caché ou Profond ?..........................................................................................09 CaraCteriStiQUeS DU weB iNViSiBLe : taiLLe et QUaLite ...............10 La taille du web visible et invisible : estimations..................................................................10 Contenu et qualité du web invisible ............................................................................................12 COMMeNt iDeNtiFier DeS SiteS DU weB iNViSiBLe.....................................15 Identifier des sources via les répertoires et annuaires spécialisés .........................15 Rechercher des ressources spécialisées via votre requête ..........................................23 Exemple de ressources du Web Invisible...................................................................................24 DiGiMiND et La VeiLLe SUr Le weB iNViSiBLe .....................................................26 Les spécificités d’une veille automatisée sur le Web Invisible ..................................26 Comparatif des principaux outils de recherche / surveillance du web invisible ..................................................................................................................................................................30 Les avantages de l’approche de Digimind pour la surveillance du Web Invisible ..................................................................................................................................................................30 a prOpOS DeS aUteUrS ................................................................................................................32 Digimind Consulting ..................................................................................................................................32 Christophe ASSELIN.....................................................................................................................................32 NOteS….............................................................................................................................................................33 © digimind - tous droits réservés digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
  • 4. [extraits] Téléchargez l’intégralité de ce document et l’ensemble des publications de Digimind : http://www.digimind.fr/actus/actu/publications www.digimind.fr boston - london - pa r i s - grenoble - r a b at
  • 5. Pour rechercher des informations et effectuer votre veille sur le web, l’utilisation des seuls moteurs et annuaires généralistes vous privera de l’identifica- tion de centaines de milliers de sources…. Pourquoi ? Parce que des moteurs comme Google, MSN ou Yahoo! Search1 ou des répertoires tels que Yahoo! Directory2 ne vous donnent accès qu’à une petite partie (inférieure à 10%) du web, le Web Visible. La technologie de ces moteurs conventionnels ne permet pas d’accéder à une zone immense du web, le Web Invisible, espace beaucoup plus important que le web visible. Lors d’une navigation en Antarctique pour prélever des échantillons de glace sur des icebergs, si vous vous limitez à leur partie émergée, vous vous privez de la surface immergée, en moyenne 50 fois plus importante. Sur le web, c’est la même chose ! Se contenter du web visible pour votre veille revient à ne pas explorer une zone invisible environ 500 fois plus volumineuse, comportant des centaines de milliers de ressources de grande valeur. Les ressources du Web Invisible sont en effet en moyenne de plus grande qualité, plus pertinentes que celles du web de surface. Pourquoi ? Parce qu’elles sont élaborées ou validées par des experts, faisant autorité dans leurs domaines. Ce document vous présente le concept de Web Invisible ainsi que ses caractéristiques. Par ailleurs, il vous explique comment trouver des sites apparte- nant à ce web “profond”. Enfin, il vous montre pourquoi l’approche choisie par Digimind, à travers ses nouvelles technologies et son service conseil, vous permet de mettre en œuvre un véritable processus de veille industrielle sur les ressources du Web Invisible. www.digimind.fr boston - london - pa r i s - grenoble - r a b at
  • 6. Le Web Invisible : concepts et définition Pourquoi un web invisible ? le Web Visible Pour comprendre le web invisible, Il convient d’abord de rappeler ce que sont le web et sa zone visible. Pour appréhender la notion de Web Visible, il est nécessaire de com- prendre le fonctionnement d’un moteur de recherche. l’internet n’est pas le Web Un moteur de recherche “aspire” puis indexe des pages web. Pour ce faire, ses robots (ou spider) vont parcourir les pages web en naviguant Il existe souvent une confusion et un amalgame sémantique entre le de liens en liens, et passer ainsi d’une page à une autre. Ce robot va web et l’internet. Ce sont pourtant 2 concepts différents. L’internet, ou archiver sur les serveurs du moteur une version de chaque page web Net, est un réseau informatique mondial constitué d’un ensemble de rencontrée. réseaux nationaux, régionaux et privés, interconnectés entre eux (INTER- Ainsi, Google dispose de plus de 10 000 serveurs répartis sur plusieurs connected NETworks). Il relie des ressources de télécommunication et états (Californie, Irlande, Suisse…) et installés dans des salles dédiées. des ordinateurs serveurs et clients. Ces serveurs connectés entre eux hébergent notamment les milliards Sur ce réseau, vous pouvez accéder à un certain nombre de services via de pages web aspirées. des protocoles de communication spécifiques : Cette version archivée des pages au moment du passage du robot est - le World Wide Web (protocole http://www) d’ailleurs disponible via la fonction “Cache” disponible sur certains mo- - le Mail (smtp) teurs comme Google, Yahoo!, Clusty ou Gigablast (copies d’écran ci-des- - Usenet (Newsgroups ou groupes de discussion). Exemple : sci.med. sous). oncology Lors d’une recherche sur un moteur, l’internaute lance une requête sur - le P2P (via des logiciels clients). les bases de données de ces serveurs. et également le FTP, Gopher, … les fonctions “Cache” du moteur Yahoo! le Web inVisible : deFinition et strUCtUre Le Web Invisible est constitué des documents web mal ou non indexés par les moteurs de recherche généralistes conventionnels. © digimind - tous droits réservés digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
  • 7. En effet, le fonctionnement des moteurs pour “aspirer” le web implique pas la totalité de ce contenu (son indexation varie entre 5 et 60 % selon que, d’une part, les pages soient bien liées entre elles via les liens les moteurs). C’est aussi le cas de plusieurs milliers de bases de données hypertexte (http://) qu’elles contiennent et que, d’autre part, elles professionnelles en ligne comme PubMed, certaines n’étant pas soient identifiables par les robots du moteur. Or dans indexées du tout. D’autre part, les moteurs n’indexent certains cas, ce parcours de liens en liens et cette identification de pages est difficile, voire impossible. “le Web inVisible pas la totalité du contenu d’une page lorsque celle-ci est très volumineuse : Google et Yahoo! archivent les Une partie du web est en effet peu ou non accessible est ConstitUé des pages dans une limite de 500k et 505k. aux moteurs de recherche pour plusieurs raisons : doCUments Web mal oU non indexés 2- les pages sont protégées par l’auteur (balise 1- Les documents ou bases de données sont trop par les moteUrs meta qui stoppe le robot des moteurs) volumineux pour être entièrement indexés. de reCherChe Certains sites sont protégés par leur créateur ou Prenons l’exemple de l’IMDB . L’Internet Movie 3 ConVentionnels” gestionnaire (webmaster), qui, grâce à un fichier Database, une base de donnée en libre accès robot.txt inséré dans le code des pages, interdit leur consacrée au cinéma répertorie plus de 7 millions de pages descriptives accès aux robots des moteurs. L’utilisation de ce fichier robot.txt est consacrées aux films et acteurs, représentant chacune une page web. effectuée pour protéger le copyright des pages, limiter leur visite à un Soit plus de 7 millions de pages. Les moteurs conventionnels n’indexent groupe restreint d’internautes (auquel on fournira l’adresse, inconnue des moteurs) ou préserver certains sites d’un accès trop fréquent ralentissant les serveurs. Ainsi, le site du journal Le Monde interdit aux robots des moteurs de recherche l’accès à ses pages payantes. De cette manière, il évite que les moteurs archivent des pages payantes et les mettent à disposition gratuitement via leur fonction “Cache”. 3- les pages sont générées seulement dynamiquement, lors d’une requête par exemple De nombreux sites web génèrent des pages dynamiquement, c’est-à- dire uniquement en réponse à une requête sur leur moteur interne. Il n’existe pas alors d’URL4 (adresse) statique des pages que les moteurs pourraient parcourir puisque les robots des moteurs n’ont pas la faculté de taper des requêtes. Ainsi, lorsque vous faites une recherche sur des bases de données ou moteurs, certaines pages générées en réponse à votre question sont structurées avec des ? et , de cette manière par exemple : query.fcgi?CMD=search. Ce type de page n’est généralement pas ou mal indexée par les moteurs. Exemple : la célèbre base pubmed de la national library of medecine donnant notamment accès à plus de 1 millions d’articles. http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=searchDB=Genome www.digimind.fr boston - london - pa r i s - grenoble - r a b at
  • 8. 4- les pages sont protégées avec une authentification par identifiant être indexé en 2002 par le moteur AlltheWeb5 (login) et mot de passe. Aujourd’hui, la plupart des grands moteurs à large index (Google, De nombreux sites, qu’ils soient payants ou gratuits, protègent tout ou Yahoo!, MSN, Exalead, Gigablast6) mémorisent et indexent ces formats partie de leur contenu par mot de passe. Les robots de moteurs n’ayant de documents. Toutefois, comme nous l’avons vu, l’archivage d’une pas la faculté de taper des mots dans des formulaires complexes, ces page web est limité à 500 ou 505 k sur Google et Yahoo! Search. Les pages ne leur sont pas accessibles. documents dépassant ce seuil seront donc partiellement indexés. On le voit, la structure du web dit “invisible” peut donc évoluer dans le temps en fonction des avancées technologiques des moteurs de recherche. D’”invisibles” avant 2001, certains formats sont devenus “visibles” ensuite. les pages web peu accessibles ou inaccessibles aux moteurs de recherche conventionnels 6- Les pages sont mal liées entre elles ou sont orphelines (aucun lien présent sur d’autres pages ne pointent vers elles). l’authentification pour l’accès au site d’une fédération professionnelle. Plutôt qu’une toile, le web est en fait un immense papillon. 5 - Les formats des documents Pourquoi ? Il y a encore quelques années, on incluait dans le Web Invisible toutes Nous avons vu que le fonctionnement des robots des moteurs de les pages aux formats autres que le html, seul format reconnu et indexé recherche impliquait que toutes les pages soient liées entre elles pour par les moteurs. qu’elles soient visibles. Or, ce n’est pas le cas. En effet, jusqu’en 2001, les moteurs n’indexaient pas les formats PDF Jusqu’en 2000, on avait coutume de représenter le web à la manière (Adobe) et Microsoft Office (Excel, Word, Power Point…). Depuis l’été d’une toile d’araignée, supposant ainsi que les pages web sont toutes 2001, Google indexe le PDF et, depuis octobre 2001, il indexe les fichiers bien liées entre elles, selon la même densité de liens entrant et sortant, Word (.doc), Excel (.xls), Powerpoint (.ppt), Rich Text Format (.RTF), constituant ainsi un ensemble homogène de ramifications. Ainsi, en PostScript (.ps) et d’autres encore. Le format Flash, lui, a commencé à partant de certaines URLs bien définies, les robots devaient forcément © digimind - tous droits réservés digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
  • 9. parvenir à parcourir le web en quasi-totalité. ces pages sont accessibles et liées à partir du noyau mais en retour, elles Or, en juin 2000, des chercheurs de IBM (Almaden Research Center, n’ont pas de liens qui pointent vers le cœur. C’est le cas, par exemple, de Californie), Compaq et Altavista ont proposé une toute autre sites “Corporate” de sociétés qui ne comportent que des liens internes et représentation du web, plus proche de la réalité… ne proposent pas de liens sortant vers d’autres sites. Dans leur étude “Graph structure in the web” , les 8 chercheurs analysent 7 200 millions de pages et 1,5 millions de liens collectés par le robot d’Altavista en 3 étapes, de mai à octobre 1999. 4. Les “Tendrils” : (21,4%) : Ce terme métaphorique, “le Web, plUtôt L’analyse de ces pages révèle que le web se structurerait en 4 parties : emprunté à la botanique, qU’Une toile désigne des filaments. Ceux- d’araignée, est ci représentent des pages strUCtUrée Comme qui ne sont pas liées au Un immense cœur SCC, et sans liens qui papillon” pointent vers elles à partir du cœur. Ces filaments ne sont connectés qu’aux zones IN et OUT via des liens sortants de la zone IN et des liens entrants dans la zone OUT. L’étude révèle par ailleurs que si l’on choisit une page au hasard au sein des zones IN et OUT, la probabilité qu’un chemin direct existe de la source (IN) à la destination (OUT) est de seulement 24% (représenté ici par le “tube”). - Enfin, 8,3% des pages constituent des îlots, totalement déconnectés du reste du web. Ces pages sont donc orphelines, sans liens pointant Connectivity of the web. © etude “graph structure in the web” vers elles et sans liens sortant, qui auraient permis aux sites destinataires de les trouver. Pour identifier ces pages, il n’existe donc pas d’autres 1. La partie centrale, le Cœur : SCC (Giant Strongly Connected Component), solutions que de connaître leurs adresses fournies par leurs créateurs. soit 27,5 % des pages web analysées. Toutes les pages web sont bien connectées entre elles via des liens directs. Comment est-il possible que des pages soient mal liées ou non liées ? Ces pages de sites web peuvent être mal référencées ou non référencées 2 et 3. Les zones IN et OUT : La partie IN (21,4%) comprend les pages involontairement dans les index de moteurs : “source” : ces pages comportent des liens qui pointent vers le cœur - Par exemple si ses auteurs ne se sont pas préoccupés d’optimiser ces (SCC) mais l’inverse n’est pas vrai : aucun lien présent dans le cœur ne pages (choix adéquat des mots clés, des titres) afin qu’elles soient visibles pointent sur ces pages. Cela peut concerner de nouvelles pages pas parmi les premiers résultats des moteurs. C’est ensuite un cercle vicieux encore découvertes et donc non “liées” par des liens pointant vers elles. : les algorithmes de moteurs comme Google privilégient la popularité La partie OUT (21,4%) comprend au contraire des pages de “destination” : des sites pour un bon classement dans les pages de résultats (plus le www.digimind.fr boston - london - pa r i s - grenoble - r a b at
  • 10. nombre de liens pointant vers une page est important, plus cette page nes qui s’identifient. Le robot ne peut donc pas y accéder. aura une chance d’être bien classée au sein des résultats). Une page web - The Truly Invisible Web : contenu qui ne peut être indexé pour des rai- mal classée dès le départ sera moins visible, donc moins découverte par sons techniques. Ex: format inconnu par le moteur, pages générées dy- les internautes et bénéficiera de moins de liens. Ces pages, au mieux, namiquement. stagneront ou descendront dans les profondeurs des pages de résultats des moteurs. Le terme de Web Invisible a été employé pour la première fois en - Une page placée sur le web sans liens pointant vers elle demeurera 1994 par le DR Jill Ellsworth pour évoquer une information dont le invisible des moteurs de recherche. Cela est le cas pour des milliers de contenu était invisible des moteurs de recherche conventionnels. documents dont les auteurs ne connaissent pas ou se soucient peu des principes de visibilité de Mais dans son étude “The Deep Web: Surfacing Hidden leurs pages (documents de recherche, documents “le Web n’est pas Value “ , Michael K. Bergman estime, avec raison, que le techniques..). réellement inVisible terme de Web Invisible est inapproprié. En effet, la seule Par ailleurs, on voit sur cette représentation du web mais diFFiCilement chose d’invisible l’est aux “yeux” des robots des moteurs. en papillon que certaines pages demeurent tout à Des technologies comme Digimind Evolution permet- aCCessible. il FaUt fait invisibles et d’autres seulement moins visibles tent d’accéder et de surveiller ce web invisible. plUtôt parler de …Il existe donc des niveaux de visibilité. Aussi le Aussi, plutôt que le web visible et invisible, l’étude de terme “invisible” au sens strict n’est pas forcément le Web proFond ” BrightPlanet préfère évoquer un “Surface Web” et un plus approprié… “Deep web” (web profond). En effet, le problème n’est pas tant la visibilité que l’accessibilité par les moteurs. Il existe donc un Un Web inVisible, CaChe oU proFond ? web de surface que les moteurs parviennent à indexer et un web pro- fond, que leurs technologies ne parviennent pas encore à explorer, mais Plutôt que de parler d’un Web Invisible, certains spécialistes ont tenté de qui est visible à partir d’autres technologies perfectionnées. préciser le concept et de l’illustrer différemment. On pourrait donc comparer le web à un gigantesque iceberg (en per- Ainsi, Chris Sherman et Gary Price proposent dans leur ouvrage “The pétuelle expansion) présentant un volume de ressources immergées Invisible Web” de distinguer 4 types de web invisible : 8 beaucoup plus important que les ressources de surface. Comme le - The Opaque Web : les pages qui pourraient être indexées par les mo- web, cet iceberg verrait son volume total augmenter constamment, et teurs mais qui ne le sont pas (à cause de la limitation d’indexation du la structure de ses parties immergées et émergées se modifier avec le nombre de pages d’un site, de leur fréquence d’indexation trop rare, de temps (en fonction de l’évolution des technologies des moteurs). liens absents vers des pages ne permettant donc pas un crawling de Mais quelle peut être la taille et la composition de ces 2 parties de l’ice- liens en liens) berg ? - The Private Web : concerne les pages web disponibles mais volontaire- ment exclues par les webmasters (mot de passe, metatags ou fichiers Si en moyenne, le volume de la partie immergée d’un iceberg est 50 fois dans la page pour que le robot du moteur ne l’indexe pas). plus important que celui de sa partie émergée, les proportions du web - The Proprietary web : les pages seulement accessibles pour les person- visible et invisible sont très différentes… © digimind - tous droits réservés digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
  • 11. © digimind - tous droits réservés digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page 2
  • 12. Dans la même collection White papers • «Le Web 2.0 pour la veille et la recherche d’information : Exploitez les ressources du Web Social» Christophe Asselin, Expert Veille Internet, Digimind • «Blogs et RSS, des outils pour la veille stratégique» Christophe Asselin, Expert Veille Internet, Digimind • «Réputation Internet : Ecoutez at analysez le buzz digital» Christophe Asselin, Expert Veille Internet, Digimind • «Evaluer le Retour sur Investissement d’un logiciel de veille» Edouard Fillias, Consultant Veille Stratégique, Digimind • «Catégorisation automatique de textes» • «Benchmark des solutions de veille stratégique» red books • Biotechnologie • Nanotechnologie • Nutrition • RFID • Risk management • Contrefaçon • Moyens de paiement a télécharger sur http://www.digimind.fr/actus/publications © digimind - tous droits réservés digimind Whitepaper - « Découvrir et exploiter le web invisible pour la veille stratégique » | page
  • 14. Téléchargez l’intégralité de ce document et l’ensemble des publications de Digimind : http://www.digimind.fr/actus/actu/publications www.digimind.fr boston - london - pa r i s - grenoble - r a b at