Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche
1. Analyse linguistique de grands corpus d’écrits scolaires
problèmes de transcription, d’annotation et de traitement
Journée d’études organisée par le groupe Ecriture Scolaire du laboratoire Clesthia (EA 7345)
Mercredi 18 mars 2015
Consortium Corpus-écrits
SIG
TEI-CMC
Open Resources and
TOols for LANGuage
http://comere.org
http://hdl.handle.net/11403/comere
Thierry Chanier
2. Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from the Internet. These
heterogeneous corpora will be structured and processed in a uniform way,
complemented with metadata. CoMeRe will be released as OpenData
through the national infrastructure Ortolang, following constraints which will
be reused for the forthcoming “Corpus de Référence du Français”.
Project supported by the national
consortium Corpus-écrits, sub-part of
Huma-Num, and Ortolang (French
correspondant to DARIAH)
Variety + Standards + Open Access
Consortium Corpus-écrits
10. 10
l'utilisateur est autorisé à télécharger une copie du corpus […]
• la réutilisation (reproduction, diffusion) de parties non substantielles du corpus XXX est
autorisée […]
• la réutilisation est soumise à la condition de citer in extenso, à titre de crédits : […]
• la réutilisation (reproduction, diffusion) de parties substantielles du corpus XXX n'est pas
permise sur le fondement de la présente licence d'utilisation.
Je consens aux présentes conditions d'utilisation (obligatoire pour avoir accès au corpus)
Ce corpus, diffusé par Huma-Num, est présenté comme étant en accès libre (OA)
Regarder sans pouvoir
réutiliser?
There exist 3 main criteria that research data should follow in order to be considered OpenData.
Besides being obviously available, the interesting perspective is the fact that data can be access in order to be reuse and mix with other data and licence should explicitly mention this.
Second interesting point is that the constraints for reuse should be reduced to a minimum, then the definition stipulate that non-commercial’ restrictions that would prevent ‘commercial’ use, or restrictions of use for certain purposes are not allowed
V1 prend du temps et pourra servir pendant des années aux autres chercheurs
Sinon inutilisable après une recherche, adhoc
Marie-Laure Elalouf, « Constitution d’un grand corpus de textes d’élèves. Problèmes méthodologiques et premiers
résultats », Linx [En ligne], 51 | 2004, mis en ligne le 28 janvier 2011, consulté le 17 octobre 2012. URL : http://
linx.revues.org/205 ; DOI : 10.4000/linx.205