Evolutions des compétences des professionnels de l'information
Archiva duweb
1. Archivage du Web :
Quelle mise en œuvre ?
Mercredi 25 septembre 2012
ADBS, Paris
Chloé Martin chloe@internetmemory.net
Leïla Medjkoune leila.medjkoune@internetmemory.net
1
vendredi 19 octobre 2012
2. Internet Memory
Leïla Medjkoune
Responsable des services d’archivage
Depuis 2007
Chloé Martin
Responsable des partenariats et du
développement
Depuis 2010
2
Deux entités pour une même cause, l’archivage du Web :
✓ Internet Memory Foundation, 2005 (anciennement European Archive)
✓ Internet Memory Research, spin-off d’IMF, 2011
➡ 150 To de données, une douzaine d’institutions partenaires,
plusieurs projets de recherche, 20+ ETP motivés !
vendredi 19 octobre 2012
3. Archivage du Web :
Quelle mise en œuvre ?
• Etat des lieux
• Vous avez dit Archivage du Web ?
• Cas Pratiques
• Pour aller plus loin...
3
vendredi 19 octobre 2012
4. Etat des lieux
• Omniprésence du Web et de ses contenus
• Pourquoi archiver le Web ?
• Qui archive le Web ?
• Enquête
4
vendredi 19 octobre 2012
5. Le Web ? Ici, là et ailleurs...
Omniprésent
Dynamique
Contenu Web
diversité des formats
Ephémère
précieux
5
vendredi 19 octobre 2012
6. Omniprésence du Web
• De 50 millions de sites actifs (déc.06) à 190
millions (sept.11)
• 2,3 milliards d’utilisateurs Internet en déc.11
pour une population mondiale de 6,9 milliards
• Boom des Média sociaux
• Facebook (n°1): 250 millions de photos par jour
• YouTube (n°2): 830 millions de vidéos par jour
• Twitter (n°15): 175 millions de Tweets par jour
• LinkedIn (n°29):135 millions de profils
• E-gouvernement : 44% des procédures
administratives des entreprises eur. sont
traitées par voie électronique
!"
#!"
$!"
%!"
&!"
'!"
(!"
)!"
*!"
+!"
,
-./0"1232456.74"
189-:0"
;-<38=
0"6.7">??0=
3@.0"
A93.B0"
C3:-."
!"#$%&'%()*)+,"-.*%/%
6
vendredi 19 octobre 2012
7. Etat des lieux
• Omniprésence du Web et de ses contenus
• Pourquoi archiver le Web ?
• Qui archive le Web ?
• Enquête
7
vendredi 19 octobre 2012
8. • Patrimoine: le Web, un nouveau media
• Contraintes légales
• dépôt légal,
• e-gouvernement,
• publications en ligne,
• corporate
• Recherche
• Knowledge Management, Data mining
Pourquoi archiver le Web ?
8
vendredi 19 octobre 2012
9. Etat des lieux
• Omniprésence du Web et de ses contenus
• Pourquoi archiver le Web ?
• Qui archive le Web ?
• Enquête
9
vendredi 19 octobre 2012
10. Qui archive le Web?
• Institutions privées
(Fondations)
• Institutions publiques à
vocation patrimoniale
• Archives nationales et régionales
• Bibliothèques nationales, régionales
et universitaires
• Musées
• Organisations internationales
➡ IIPC
• Sociétés commerciales
10
vendredi 19 octobre 2012
11. Quelques initiatives...
๏ Internet Archive Foundation
๏ Bibliothèque du Congrès
๏ Archives Nationales UK
๏ ...
๏ International Internet
Preservation Consortium
๏ International Web Archiving
Workshop
๏ En France
‣ Bibliothèque nationale de
France (BnF)
‣ Institut national de
l’Audiovisuel (InA)
‣ Quelques initiatives
universitaires : IEP, université de
Lorraine,...
11
vendredi 19 octobre 2012
12. Etat des lieux
• Omniprésence du Web et de ses contenus
• Pourquoi archiver le Web ?
• Qui archive le Web ?
• Enquête
12
vendredi 19 octobre 2012
13. Enquête 2010 (Europe)
74 réponses sur 365 institutions
8%
7%
1%
7%
23%
5%
19%
30%
Yes, fully operational
Yes, operational but still experimenting
Yes, just starting a Web Archiving project
No, but we plan to do it
No, no funding
No, not in our mandate
No, an other institution is already in charge
answered question
Legal Aspects % Nb
Yes, law is enacted or passed 50% 34
Yes, law is expected 16,2% 11
Lobbying are in progress 7,4% 5
No, we do not applicable law 26,5% 18
Answered question 68
Access restriction % Nb
Access is online for anyone 41% 25
Access is online with restrictions 28% 17
Access is on site for anyone 18% 11
Access is on site with restrictions 21% 13
We do not have access: contents are
in a completely dark archive
21% 13
Answered questionAnswered question 61
Archive policy % Nb
Domain crawls - TLD (.uk, .eu, .com…) 23% 12
Thematic/selective crawls 71% 37
Only our Websites and associated Websites 30,8% 16
Answered questionAnswered question 52
13
vendredi 19 octobre 2012
14. Archivage du Web :
Quelle mise en œuvre ?
• Etat des lieux
• Vous avez dit Archivage du Web ?
• Cas Pratiques
• Pour aller plus loin...
14
vendredi 19 octobre 2012
15. Vous avez dit Archivage Web ?
• L’archivage du Web en un clin d’oeil
• Besoin de compétences particulières ?
• Solutions : en interne ou en externe ?
Quid du Retour sur Investissement
15
vendredi 19 octobre 2012
16. Quid ?
Qu’est-ce qu’une archive Web ?
Une copie d’un site web
enregistrée par un robot (crawler)
à une date et heure spécifique
sur lequel on peut naviguer
comme un site en ligne
(vs copie d’écran et back-up)
Ex: http://collections.europarchive.org/tna/*/www.tate.org.uk
16
vendredi 19 octobre 2012
17. Défis d’un projet d’Archive Web
• Sélectionner ce qui sera préservé
• Définir des frontières
• Relever des défis technologiques
• Préserver un contenu non stable
• Rendre accessible
17
vendredi 19 octobre 2012
20. Vous avez dit Archivage Web ?
• L’archivage du Web en un clin d’oeil
• Besoin de compétences particulières ?
• Solutions : en interne ou en externe ?
Quid du Retour sur Investissement
20
vendredi 19 octobre 2012
21. Compétences
• Mettre en place une équipe multi-disciplinaire
‣ Sélection/contrôle qualité: Bibliothécaire / Conservateur /
Archiviste,Assistant qualité, Chef de projet
‣ Capture de contenu Web/développements: Ingénieur, technicien
‣ Création et administration de l’infrastructure: Ingénieur,
administrateur système
➡ L’archivage duWeb nécessite des compétences et une expérience
cruciales, surtout dans le cas d’une solution entièrement en interne.
21
vendredi 19 octobre 2012
22. Vous avez dit Archivage Web ?
• L’archivage du Web en un clin d’oeil
• Besoin de compétences particulières ?
• Solutions : en interne ou en externe ?
Quid du Retour sur Investissement
22
vendredi 19 octobre 2012
23. Archive
Web
+ -
solution
interne
Contrôle de tout le processus
Budgets internes
Equipe en interne
Autonome
Ressources humaines
Infrastructures
solution
externe
Déploiement rapide
Coûts adaptables aux volumes
collectés
Economie d’échelle
Etat de l’art
Dépendance à une société
Problèmes organisationnels
(langue, décalage horaire, IP,...)
En interne ou en externe ?
23
vendredi 19 octobre 2012
24. Outils d’archivage
24
• Netarchivesuite (http://netarchive.dk/suite/)
‣ Open source, développé au Danemark par la Royal
Library et la State and University Library
• Web curator tool: (http://webcurator.sourceforge.net)
‣ Open source, développé par la National Library of New
Zealand, la British Library, à l’initiative de IIPC
(International Internet Preservation Consortium)
• Archive-it (http://www.archive-it.org/)
‣ service payant d’archivage Web, développé par Internet
Archive
vendredi 19 octobre 2012
25. ArchivetheNet
• Software-as-a-Service ergonomique et intuitif
• 3 modules de gestion automatisés :
• Administration
• Collection
• Rapports
• Processus entièrement automatisé (montée en charge)
• Personnalisation du services grâce à des options (QA,...)
• Actualisation en continu de l’outils
➡ Rapide déploiement
➡ Bon Retour sur Investissement (ROI)
25
vendredi 19 octobre 2012
26. Archivage du Web :
Quelle mise en œuvre ?
• Etat des lieux
• Vous avez dit Archivage du Web ?
• Cas Pratiques
• Pour aller plus loin...
26
vendredi 19 octobre 2012
27. Cas pratiques
• Préservation
• Garder une trace de l'information en ligne au fil des années
• Construire une mémoire thématique
• Fin de projet de recherche
• Refonte complète des sites
• Multimedia et réseaux sociaux
• Archives Web contextualisées dans l'audiovisuel
• Capture et accès: You Tube,Twitter, etc.
• Au delà de la préservation, l’usage des Archives Web
• Transparence et visibilité
• Allègement des sites
• Statistiques d’usage
• Recherche
27
vendredi 19 octobre 2012
28. Préservation
• Garder une trace de l'information en ligne au fil des ans
✓ Parlement du Royaume-Uni
✓ CERN (où le Web est né il y a plus de 20 ans!)
• Construire une mémoire thématique de contenus en ligne
✓ Bibliothèque nationale d'Irlande
• Fin de projets de recherche, disparition du site et du domaine
✓ Retour sur les projets de recherche européens,
✓ Inside Installations
• Refonte complète de sites
✓ RTS
28
vendredi 19 octobre 2012
30. Pour un événement
Bibliothèque nationale d’Irlande
146 sites archivés, avant, pendant et après la campagne électorale
30
vendredi 19 octobre 2012
31. Projets de recherche
• FP6 (2000-2007): 10’000+ projets
financés, soit 17+ milliards d’€
• Analyse de 200 projets (avril 2012)
• 65% des projets ont fait l’objet d’un
site Web :
➡ Tous les sites de projets finis depuis
moins de 2 ans sont encore
accessibles
➡ 23% des sites de projets finis depuis
3 ans ont disparu
➡ 32% des sites de projets finis depuis
6 ans ont disparu
31
vendredi 19 octobre 2012
32. RTS: Refonte de site
D’une refonte de site à un changement d’identité
2010 début 2012 aujourd’hui
version archivée version archivée version en ligne
32
vendredi 19 octobre 2012
33. Cas pratiques
• Préservation
• Garder une trace de l'information en ligne au fil des années
• Construire une mémoire thématique
• Fin de projet de recherche
• Refonte complète des sites
• Multimedia et réseaux sociaux
• Archives Web contextualisées dans l'audiovisuel
• Capture et accès: You Tube,Twitter, etc.
• Au delà de la préservation, l’usage des Archives Web
• Transparence et visibilité
• Allègement des sites
• Statistiques d’usage
• Recherche
33
vendredi 19 octobre 2012
34. Multimedia & Réseaux sociaux
• Constituer des archives Web contextualisées
✓ Südwestrundfunk (SWR)
• Résoudre les difficultés d’Accès pour les réseaux sociaux
✓ YouTube
✓ Twitter
34
vendredi 19 octobre 2012
35. SWR: Festival Rock am Ring
Contexte
- Evénement sur 3 jours
Taille de la campagne
- Site officiel
- Site de la TV
- Sites des médias sociaux
- Forum
- Sites des médias
traditionnels
Fréquence: 5 fois
- 3 jour avant l’événement
- les 3 jours de l’événement
- 3 jour après l’événement
Profondeur
- Complète pour 1re et 5e
captures
- Partiellement pour 2,3 et 4
Limites
- Budget
- Limites techniques
- Restrictions légales
- Ressources humaines
Bénéfices
- une vue d’ensemble
- suivre l’événement en
temps réel
- garder une trace de la
présence médiatique
Festival Rock-am-Ring
Complete
Crawl
Complete
CrawlPartial
Crawl
Partial
Crawl
Partial
Crawl
35
vendredi 19 octobre 2012
37. Défi:Video
37
• Développement d’une
méthode de capture
• Remplacement du
player utilisé
•Modification de l’outil
d’accès pour reproduire
l’accès en ligne
vendredi 19 octobre 2012
40. Cas pratiques
• Préservation
• Garder une trace de l'information en ligne au fil des années
• Construire une mémoire thématique
• Fin de projet de recherche
• Refonte complète des sites
• Multimedia et réseaux sociaux
• Archives Web contextualisées dans l'audiovisuel
• Capture et accès: You Tube,Twitter, etc.
• Au delà de la préservation, l’usage des Archives Web
• Transparence et visibilité
• Allègement des sites
• Statistiques d’usage
• Recherche
40
vendredi 19 octobre 2012
41. Usages : Cas des Archives
Nationales du Royaume Uni
• Transparence et visibilité :
✓ Redirection automatique
✓ Memento
• Alléger le poids de son site
✓ Redirection des Archives des sites vers l’Archive Web
• Statistiques d'usage
✓ Exemple de l’Archive Web d’Irlande
41
vendredi 19 octobre 2012
42. Visibilité
•Accès public
•Recherche
• par URL et par date de capture
• plein texte
• navigation par catégorie
•Personnalisation
• Logo
• Bannière
• Catégorie dans la recherche
avancée
42
vendredi 19 octobre 2012
43. D’un site qui n’est plus en ligne
43
vendredi 19 octobre 2012
45. et retour au web vivant
45
vendredi 19 octobre 2012
46. Memento
• Développement piloté
par le Los Alamos
National Laboratory et
financé par la
Bibliothèque du Congrès
• Vise à intégrer les
archives Web à la
navigation Web
vendredi 19 octobre 2012
48. Cas pratiques
• Préservation
• Garder une trace de l'information en ligne au fil des années
• Construire une mémoire thématique
• Fin de projet de recherche
• Refonte complète des sites
• Multimedia et réseaux sociaux
• Archives Web contextualisées dans l'audiovisuel
• Capture et accès: You Tube,Twitter, etc.
• Au delà de la préservation, l’usage des Archives Web
• Transparence et visibilité
• Allègement des sites
• Statistiques d’usage
• Recherche
48
vendredi 19 octobre 2012
49. Exemples - Recherche
Projet de recherche thématique : enpolitique.com
• Etude de l'évolution des sites web politiques lors de
campagnes nationales (France & Québec)
• Pertinence du projet face à la disparition des sites
Ex: http://toushollande.fr fermé et redirigé
vers la page Facebook du candidat élu
49
vendredi 19 octobre 2012
50. Archivage du Web :
Quelle mise en œuvre ?
• Etat des lieux
• Vous avez dit Archivage du Web ?
• Cas Pratiques
• Pour aller plus loin...
50
vendredi 19 octobre 2012
51. Pour aller plus loin...
... face aux nombreux challenges du Web et de son archivage
• Web caché & profond
• Spams & boucles
• Sites dynamiques
• Média sociaux
• Multimedia
• Web Mining
51
vendredi 19 octobre 2012
52. Internet Memory relève le défi
• Crawl sélectif :
✓ LiWA (2007-2010)
✓ ARCOMEM (2010-2013)
• Préservation :
✓ SCAPE (2010-2013)
• Big Data et traitement de
l’information Web :
✓ LK (2009-2012)
✓ LAWA (2010-2013)
✓ TrendMiner (2011-2014)
✓ DOPA (2012-2014)
✓ AnnoMarket (2012-2014)
... et s’engage dans des projets de recherche
52
vendredi 19 octobre 2012
53. Internet Memory
Internet Memory Foundation
Amsterdam - Paris
• Fondation à but non lucratif
• Préservation & Open Access
http://internetmemory.org
@InternetMemory
Internet Memory Research
Paris
• Services d’Archivage
http://archivethe.net
@ArchivetheNet
• Services de traitement de
l’information à grande échelle
http://mignify.com
@mignify
53
vendredi 19 octobre 2012