1. Université AbdelmalekEssadi Faculté des Sciences de Tétouan Département Mathématiques et Informatiques Année univ. : 2010-2011 Filière : SMP S4 2 – Exploration du Web Anouar Abtoy anouar.abtoy@uae.ma 1
2. Introduction Internet : vaste champ d’information. Connecte des millions d’ordinateurs entre eux à travers le monde. 2
3. Introduction L’information peut provenir de différents sources: Institutions (librairies, universités, gouvernements, musées…) Organisations informelles (groupe d'intérêts, forums, blogs, liste de diffusion…) Publications (livres, journaux, revues, rapports…) Médias (TV, radio,vidéos,DVD,MP3…) Individus (enseignants, bibliothécaires, experts, amis…) 3
4. Introduction L’utilisation d’Internet pour rechercher de l’information s’impose comme un passage obligé. Les difficultés d’utilisation: Le choix d’un mauvais outil de recherche. Mal stratégie de recherche. Le choix des mauvaises mots-clés. Mal expression des requêtes. 4
5. Histoire d’Internet 1957: lancement du premier Spoutnik par les russes ( pleine Guerre froide). Le président Eisenhower des USA décida de créer l’ARPA ( Advanced ResearchProjectsAgency) au sien de DoD (Department of Defense). Objectif: créer un système de communication décentralisé pour l’armée américaine dans le cas de destruction de l’ensemble des réseaux de communication par des ogives atomiques soviétiques.. 5
6. Histoire d’Internet 1967: les premiers fondements théoriques de ARPANET. Ne disposait que du service de courrier électronique. 1969: l’utilisation de ARPANET dans le domaine public. ARPANET relie 4 instituts universitaires ( Standford, UCLA, Santa barbara et Utah) 6
7. Qu’est-ce qu’Internet ? Le réseau des réseaux. Acheminer l’information d’une machine vers une autre. L’un des protocoles qui a marqué l’impulsion d’Internet est TCP/IP 7
8. Le Web En anglais : WroldWide Web la « toile (d’araignée) mondiale » communément appelé le Web, parfois la Toile ou le WWW (3W). Le Web n’est qu’une des applications d’Internet 8
9. Le Web Origine: 1989 Tim Berners Lee propose de créer su le site internet du CERN ( Centre européen pour la recherche nucléaire) un ensemble de documents reliés les uns aux autres par des liens hypertextes. 9 Tim Berners Lee
10. Le Web Le WWW: Utilise le protocole HTTP pour transférer les documents. Les documents ( pages) sont écrits dans un langage HTML(HypertextMarkupLanguage) 10 Hypertexte: un lien qui consiste à lier ou pointer un document vers un autre
11. Le Web Document HTML Page Web Extension : .html Ensemble de pages Web == un site Web. 11
12. Le Web Un site Web doit être hébergé par un serveur. Un certain nombre d’outils sont à installer: Un Serveur Web (Ex: Apache) Un langage de script (Ex: PHP) Un serveur de base de données (Ex: MySQL) … 12
13. Le Web Pour consulter une page Web, il faut disposer d’un navigateur: MozillaFirefox Internet Explorer Google Chrome Apple Safari …… 13
14. Le Web Visible Le web dit visible ou surfacique est en fait constitué de toutes les pages indexées par les moteurs de recherche Google, Yahoo, Bing…). Indexation : 14 un moteur de recherche "aspire" les pages et les indexe dans des bases de données contenues sur des servers. Lorsqu'un quelconque utilisateur effectue une recherche, il lance dans le même temps une requête sur la base de donnée. Ex: Google indexe environ 9 à 10 % du web entier ces 10% qui constituent le web visible
15. Le Web invisible Dit aussi le web caché (en anglais Hidden web ) ou le web profond (deep web). C’est la partie du web accessible en ligne, mais non indexée par les moteurs de recherche classiques généralistes. inaccessible aux moteur de recherche. 15
16. Le Web invisible Selon CompletePlanet*, le web profond serait 500 fois plus grand que le web de surface ( visible). 16 *:http://aip.completeplanet.com/
17. Le Web invisible Typologie du contenu des sites: Les bases de données (BD) spécialisées par sujet: Ex: des BD médicales, de physique, de brevets; Les BD internes à des sites volumineux: Ces pages sont générées dynamiquement. Ex: la base de connaissance des sites Microsoft 17
18. Le Web invisible Typologie du contenu des sites: Les publications: les BD interrogeables ( via un moteur interne) donnant accès à des articles, des extraits d’ouvrages, des thèses, des livres blancs… Ex: FindArticles et books.google; 18
19. Le Web invisible Typologie du contenu des sites: Les bibliothèques en ligne. Ex: la bibliothèques du Congés des États-Unis; 19
20. Le Web invisible Typologie du contenu des sites: Les pages jaunes et blanches: répertoires de personnes morales et physiques. Ex: www.pj.ma 20
21. Le Web invisible Comment identifier les sites du web invisibles ? Quelques outils : Outils de recherche spécialisés: Yahoo! SearchSubscriptions ( recherche thématique) Incywincy ( moteur de recherche du web invisible) 21
22. Le Web invisible FindArticles( moteur de recherche d’articles, de journaux, de magazines, etc…) Google Scholar(moteur de recherche des travaux universitaires) 22
23. Le Web invisible High Beam( moteur de recherche, à usage académique et professionnel, de journaux, magazines, et d’autres publications) HighWirePress(spécialisé dans la numérisation des publications scientifiques : journaux, ouvrages et autres) 23
24. Le Web invisible Les répertoires de moteurs: Allsearchengines( spécialisé dans la recherche sur le web britannique) Finderseeker(moteur de recherche des moteur de recherche) 24
25. Le Web invisible Les bases de données interrogeables: The Internet Archive ( librairie numérique offrant l’accès universel aux ouvrages, vidéos, musiques…) 25
26. Le Web invisible Les Bibliothèques en ligne: Libdex( annuaire des librairies) 26
28. Les moteurs de recherche Indexent régulièrement des millions de pages web dans une base de données. La plupart des moteurs de recherche disposant de 3 composantes : Un logiciel de indexation: appelés aussi robots, spiders ou crawlers. Un logiciel de recherche Un index Ex: 28
29. Les moteurs de recherche chaque moteur de recherche propose une formulaire simple de recherche. La recherche s’effectue dans la base de données du moteur et nonsur la totalité d’Internet. 29
30. Les moteurs de recherche Classement des résultats: on peut distinguer deux grandes classes de méthodes de tri: Le tri par pertinence: les résultats d’une requête sont affichés selon un ordre déterminé par le calcul d’un score pour chaque réponse. Le tri par popularité: deux méthodes principales: La méthode basée sur la co-citation: utilise le nombre de liens pointant sur les pages. La méthode basée sur la mesure d’audience: tri les pages en fonction du nombre de visites qu’elles reçoivent 30
31. Les annuaires Annuaires ou répertoires ≠ moteurs de recherche. Recensent des sites web classés par catégories et sous catégorises. 2 types : généralistes et spécialisé. Ex: annuaire généraliste Résultats: Par mots-clés Par forme de catégories 31
32. Les métamoteurs est un logiciel qui puise ses informations à travers plusieurs moteurs de recherche. le métamoteur envoie ses Requêtes à plusieurs moteurs de recherche, et retourne les résultats de chacun d'eux. Ex: 32
33. D’autres outils Les encyclopédies: elles présentent des informations validées, sûres et de qualité. Site fédérateurs et guides: ils indexent des sites validés pour leur qualité dans des domaines précis appartenant au web visible et invisible. Les webrings: est une collection de sites web et sont souvent composés de sites aux thèmes similaires. 33
35. Méthodologies de recherche Définition du besoin d’information: L’identification des composantes. La priorisation des composantes. La formulation des composantes : ex: les synonymes. Limitations: Linguistique : plus de 85% du web sont en anglais. Chronologique: date de publication et période couverte. Géographique : origine des pages web. 35
36. Opérateurs de recherche Opérateurs logiques (booléens): OR (ou), AND(et),NOT(sauf). Recherche d’expressions: l’utilisations des guillemets(« … »). Les parenthèses: sont utilisées pour forcer l’ordre d’exécution des opérateurs. Ex: (cours OR TD )ET (physique ET quantique) 36
37. Opérateurs de recherche Opérateurs avancés: Title, intitle ou allintitle: rehcercher les mots-clés uniquement dans le titre des pages web Ex: intitle:licence professionnelle Filetype: lancer des rehcercher selon le type et e format de fichier. Ex: cours algèbre filetype:pdf Site: réaliser des recherches au niveau d’un site dont le contenu et très volumineux. Ex: cours réseaux site:www.siteduzero.net D’autres opérateurs, visiter : www.searchengineshowdown.com 37