1. Marie-‐Anne
Paveau
Université
Paris
13
Nord
h7p://penseedudiscours.hypotheses.org/
h7p://technodiscours.hypotheses.org/
@mapav8
2. «
Corpus
linguisEcs
does
not
exist
»,
Chomsky
1999,
cité
par
RasEer
2005
«
La
linguisEque
de
corpus
prend
le
langage
comme
elle
le
trouve
»
Sampson
1994,
cité
par
Habert
et
al.
1997
3. 1.
La
paire
qualita.f/quan.ta.f
est-‐elle
symétrique
?
2.
La
nature
du
savoir
linguis.que
3.
La
ques.on
du
contexte
4.
Ma.ères
technolangagières
4. 1.1.
«
Les
précisions
de
la
linguis.que
ne
sont
pas
de
celles
qui
s'énoncent
par
des
nombres
»
(Meillet,
Cohen
1924)
Habert
2005b
A
part
des
domaines
comme
la
psycholinguisEque,
la
phonéEque
et
la
phonologie,
une
bonne
parEe
de
la
recherche
linguisEque
ne
suppose
pas
d'instrument
par1culier.
C'est
en
tout
cas
un
implicite
largement
partagé,
en
parEculier
depuis
les
débuts
de
la
grammaire
généraEve.
Ce7e
situaEon
se
trouve
aujourd'hui
bousculée
par
la
mulEplicaEon
[…]
des
ouEls,
des
instruments
et
des
ressources
modifiant
les
condiEons
de
consEtuEon
d'observables
et
d'analyse
de
données
en
sciences
du
langage.
A
côté
d'une
linguis1que
sans
instrument,
s'impose
clairement
une
linguis1que
«
à
l'instrument
».
5. 1.2.
Un
exemple
de
qualita.f
revendiqué
Boch
et
al.
2007
Introduc.on
A
parEr
de
l’observaEon
d’un
corpus
d’arEcles
publiés
dans
le
champ
de
la
linguisEque,
ce<e
étude
propose
une
analyse
qualita1ve
et
exploratoire
des
marqueurs
lexicaux
de
la
convergence
(de
type
conformément
à
nos
hypothèses)
et
de
la
divergence
(de
type
contre
toute
a<ente)
par
rapport
aux
a7entes
de
l’auteur-‐
chercheur
ou
de
la
communauté
scienEfique.
2.2.
La
construc.on
des
a2entes
comme
disposi.f
argumenta.f
Dès
lors
que
l’on
privilégie
une
observa1on
«
au
ras
du
texte
»,
la
noEon
d’a7ente
est
d’abord
à
concevoir
comme
un
disposiEf
rhétorique
général,
que
l’on
peut
définir
en
termes
de
stratégies
d’écriture.
6. 3.1.
Pour
une
approche
syntagma.que
des
marqueurs
Un
relevé
lexico-‐séman1que
des
marqueurs
révèle
que
certains
termes
foncEonnent
comme
des
clignotants
dans
le
repérage
et
interviennent
dans
des
expressions
relaEvement
figées.
-‐
L’«
a7ente
»
et
ses
dérivés,
qui
peuvent
servir
à
indiquer
le
caractère
a7endu
(comme
a<endu,
chose
a<endue,
comme
nous
nous
y
a<endions,
comme
on
pouvait
s’y
a<endre),
ou
à
l’inverse,
la
surprise
(contre
toute
a<ente,
contrairement
à
nos
a<entes,
de
façon
ina<endue,
un
résultat
ina<endu)
;
-‐
la
«
prévision
»
(contrairement
à
nos
prévisions,
comme
cela
était
prévisible,
ces
résultats
sont
prévisibles)
;
-‐
la
«
convergence
»
(conformément
à
nos
hypothèses,
nos
postulats,
nos
a<entes,
aux
prévisions),
qui
sert
la
validaEon
posiEve
des
a7entes
7. Conclusion
Ces
marques
lexicales
ne
peuvent
être
rapportées
à
des
modes
de
construcEon
des
savoirs
qu'en
tenant
compte
du
texte
dans
son
ensemble
;
[…]
Non
seulement
la
quesEon
du
plan
de
texte
est
importante,
mais
la
construcEon
des
a7entes
de
manière
plus
générale
peut
se
présenter
sous
des
formes
variées.
Elles
appellent
une
approche
qualita1ve,
à
même
d’envisager
les
marques
lexicales
en
lien
avec
d’autres
et
au
niveau
global
du
texte.
8. 2.1.
Un
savoir
à
l’œil
ou
au
trompe
l’œil
?
La
ques.on
de
la
connaissance
vraie
Labbé
2001
(résumé
en
français)
La
distance
intertextuelle
quanEfie
les
proximités
entre
plusieurs
textes.
Elle
peut
être
mesurée
grâce
à
un
indice
normalisé
et
à
une
échelle
de
la
distance.
Ces
ouEls
peuvent
être
uElisés
pour
l'a<ribu1on
d'auteur.
Une
applicaEon
est
présentée
sur
l'un
des
cas
célèbre
de
la
li7érature
française
:
Corneille
et
Molière.
Le
calcul
fait
clairement
la
différence
entre
les
deux
œuvres
mais
il
démontre
aussi
que
Corneille
a
contribué
à
de
nombreux
chefs
d’œuvre
de
Molière.
9. Lemercier
Zalc
2008
:
17
La
quanEficaEon
permet,
par
exemple,
d’infirmer
le
lien
fait
par
les
contemporains
entre
peintres
étrangers
et
avant-‐gardisme
à
Paris
au
début
du
XXe
siècle
(Joyeux-‐Prunel
2007)
[…]
Ces
réponses
amènent
d’autres
quesEons,
d’autant
plus
intéressantes
qu’elles
renvoient
aux
représenta1ons
des
acteurs
:
pourquoi
voient-‐ils
ainsi
la
peinture
étrangère
[…]
?
Le
chiffre,
«
au
même
Etre
qu’un
fragment
de
texte
ou
un
qu’un
tesson
d’amphore
»,
peut
jouer
le
rôle
d’indice
et
orienter
une
intui1on,
en
plus
de
ses
foncEons
de
descripEon
et
de
définiEon
des
possibles
(Grenier
1995)
?
10. 2.2.
Du
savoir
augmenté
aux
culturonomics
–
culturonomics
=
culture
+
genomics
–
Michel
et
al.
2010
:
«
“Culturomics”
extends
the
boundaries
of
rigorous
quanEtaEve
inquiry
to
a
wide
array
of
new
phenomena
spanning
the
social
sciences
and
the
humaniEes.
»
–
h7p://books.google.com/ngrams
–
5,2
millions
de
livres
numérisés
par
Google
et
accessibles
librement
au
public,
soit
500
milliards
de
mots,
soit
4
%
des
livres
jamais
publiés
sur
Terre
11. 2.3.
L’instrument
de
l’ins.tu.on
?
Lemercier
Zalc
2008
:
13
Depuis
2005,
les
appels
à
projets
de
l’Agence
naEonale
pour
la
recherche,
qui,
pour
mimer
les
«
sciences
dures
»,
ont
remis
à
l’ordre
du
jour
le
modèle
de
la
grosse
base
de
données
consEtuée
pour
elle-‐même
par
un
personnel
précaire,
tendant
d’ailleurs
à
faire
renaître
une
certaine
forme
de
traitement
quan1ta1f,
avec
le
risque
de
retomber
dans
d’anciennes
ornières.
12. 3.1.
La
longue
histoire
du
contexte
dans
les
disciplines
TDI
Moirand
2006
:
43
Actuellement,
[…]
je
me
situe
dans
une
concep1on
dynamique
du
contexte,
ce
qui,
pour
le
chercheur
en
analyse
du
discours
qui
travaille
sur
les
données
empiriques,
repose
sur
le
repérage
et
la
prise
en
compte
d’indices
de
contextualisaEon
de
niveaux
divers
au
fur
et
à
mesure
de
l’avancée
du
recueil
des
données
et
des
analyses
effectuées
(mais
pas
forcément
dans
l’ordre
de
l’énuméraEon
qui
suit)
:
–
le
cotexte
linguis.que,
le
cotexte
linéaire
du
«
fil
»
intratextuel
(le
fil
horizontal
du
discours
ou
le
fil
déroulant
de
l’interacEon
et
les
reprises
de
formes
diverses
qui
s’y
manifestent)
;
–
le
contexte
sémio.que
et
situa.onnel
(le
«
hic
»
et
«
nunc
»
de
la
situaEon
de
communicaEon)
;
–
le
contexte
des
séries
génériques
dans
lesquelles
s’inscrivent
les
unités
discursives
empiriques
recueillies
à
l’intérieur
d’un
domaine,
dans
une
situaEon
de
communicaEon
ou
sur
un
type
de
support
;
–
et
enfin
le
contexte
socio-‐historique
qui
entre
de
manière
exhibée
ou
cachée
dans
les
configuraEon
discursives,
donc
tout
ce
qui
relève
de
l’intertexte
et
de
l’interdiscours
(voire
de
l’histoire
conversaEonnelle),
ainsi
que
des
mémoires
collecEves
et
des
savoirs
partagés,
c’est-‐à-‐dire
de
l’histoire…
13. 3.2.
Le
contexte
en
linguis.que
de
corpus
Guilhaumou
2002
§
59
Nous
constatons
donc
que
l’aspect
réflexif
du
discours
prend
une
importance
toujours
plus
grande
dans
la
procédure
de
formaEon
de
nouveaux
corpus.
Il
s’agit
en
effet
d’associer
dans
un
corpus
issu
de
l’ac1vité
langagière
de
locuteurs
précis
non
seulement
des
acteurs
stratégiques
et
des
acteurs
émergents,
des
experts
et
des
militants
ordinaires,
des
protagonistes
et
des
spectateurs,
mais
aussi
les
chercheurs
en
sciences
sociales
eux-‐mêmes.
Nous
entrons
ainsi
dans
un
processus
de
co-‐construc1on
des
corpus
où
la
quesEon
de
l’arEculaEon
du
discours
et
du
métadiscours
consEtue
une
dynamique
interne
à
la
formaEon
de
nouveaux
corpus.
§
61
La
réflexivité
du
discours,
thème
désormais
majeur
de
l’analyse
de
discours,
a
ouvert
la
voie
au
corpus
réflexif
non
seulement
sous
la
forme
du
«
très
grand
corpus
»
où
texte
et
contexte
se
retrouvent
dans
un
même
espace
construit,
mais
aussi
sous
la
forme
de
corpus
co-‐construits
à
l’intérieur
desquels
le
point
de
vue
du
chercheur
est
l’une
des
données
majeures
de
la
construcEon
de
ces
corpus.
14. Mayaffre
2010
:
13
[…]
finalement,
la
linguisEque
de
corpus
n’est
rien
d’autre
qu’une
linguis1que
endogène,
et
son
ouEllage
par
la
staEsEque
(endogène
par
essence)
apparaît
naturel
aussi
bien
chez
[Biber
1988,
1995,
1998],
[Habert,
Nazarenko
et
Salem
1997]
que
[Malrieu
et
RasEer
2001].
Matrice
du
sens,
le
corpus
entreEent,
dès
lors,
un
dialogue
direct
avec
la
noEon
de
co(n)texte
puisque
l’on
admet
que
la
co(n)textualisaEon
est
la
condiEon
de
la
maïeuEque
du
sens.
[…]
Le
sens
naît
en/du
corpus
pourrait-‐on
renchérir
liant
corpus
et
contexte
dans
une
rela1on
étroite,
quasi-‐
synonymique.
15. Le
corpus
peut
être
en
effet
conçu
comme
une
forme
privilégiée
du
contexte.
Plus
précisément,
nous
définissons
le
corpus
comme
la
forme
maximale
du
contexte
{30,
32}.
[…]
Précisons
cependant
:
en
définissant
le
corpus
comme
forme
maximale
du
contexte,
nous
entendons
forme
maximale
formalisable
du
contexte,
car
le
contexte
(le
co-‐texte
proche
ou
l’intertexte
plus
lointain)
est
insondable
et
à
proprement
parler
insaisissable.
Plus
loin
encore,
le
contexte
lorsqu’il
s’étend
au-‐delà
du
co-‐texte
ou
de
l’intertexte
pour
toucher
à
la
situaEon
socio-‐
historique
et
aux
condiEons
de
producEon
des
discours
est
une
chose
qui
échappe
pour
par1e
aux
études
strictement
linguis1ques.
16. 3.3.
Problèmes
posés
Lemercier
Zalc
2008
15-‐16
Les
microhistoriens
ne
choisissent
pas
nécessairement
d’abandonner
formalisaEon
et
modélisaEon.
[…]
Ce
qui
est
criEqué,
est
un
travail
de
quan1fica1on
u1lisé
pour
me<re
au
jour
des
structures
préexistantes,
de
fait
déjà
connues
[...]
La
démarche
est
rejetée
au
profit
d’une
reconstrucEon
du
passé
à
parEr
de
traces
ou
d’indices.
Carlo
Ginzburg
en
appelle
ainsi
à
passer
du
«
paradigme
galiléen
»
au
«
paradigme
indiciaire
»
(...)
Il
refuse
le
mythe
d’une
histoire
scienEfique,
où
le
tableau
de
chiffres
est
en
soi
une
conclusion
pour
redonner
une
dignité
à
l’interprétaEon
de
traces
».
17
Mais
comment
savoir
si
un
individu
est
excep1onnel
avant
d’avoir
évalué
les
grands
traits
du
groupe
dont
nous
l’extrayons
?
…
retour
entre
quanEtaEf
et
qualitaEf.
17. 4.1.
Une
perspec.ve
symétrique
pour
le
discours
(Paveau
2007,
2009,
2012a,
Achard-‐Bayle
&
Paveau
2012)
–
Le
discours
est
une
ma1ère
langagière
consEtuée
par
son
intégra1on
dans
les
environnements
quelle
que
soit
leur
nature
–
Discours
:
ensemble
de
producEons
verbales
élaborées
dans
un
environnement
dont
les
paramètres
sont
à
la
fois
humains
et
non
humains,
explicites,
implicites
et
tacites
(les
prédiscours)
et
qui
ne
peuvent
en
être
isolés
:
l’environnement
de
producEon
des
énoncés
est
cons1tu1f
de
leur
descripEon,
leur
foncEonnement
et
leur
sens
–
éviter
le
logocentrisme
et
«
l’égocéphalocentrisme
»
(Paveau
2012)
–
Cet
environnement
est
mixte
:
toutes
ses
données
entrent
en
ligne
de
compte
dans
l’élaboraEon
des
discours,
le
social,
le
culturel,
le
poliEque,
l’esthéEque,
l’éthique,
le
biologique,
technique,
objectal,
matériel,
etc.
–
Les
catégories
sont
pensées
comme
ouvertes
les
unes
sur
les
autres,
et
non
closes
dans
leurs
fronEères.
Par
exemple
:
penser
le
poliEque
avec
ce
qui
le
traverse
d’éthique,
de
culturel
ou
de
social
18. 4.2.
Il
y
a
numérique
et
numérique
(et
numérique)
–
numérique
1
:
numérisé
pour
l’analyse
–
sens
le
plus
fréquent
dans
la
linguisEque
de
corpus
–
numéraisaEon
à
parEr
de
textes
imprimés
linéaires
donc
des
producEons
navigables
–
en
ligne
ou
hors
ligne
–
numérique
2
:
scanné
(non
navigable)
ou
numérisé
(navigable)
pour
la
lecture
–
dans
l’édiEon
–
en
ligne
–
exemple
des
revues
mises
en
ligne
–
numérique
3
:
produit
naEvement
en
ligne
+
3a
:
écriture
linéaire
(sans
liens
hypertextuels
ni
intégraEon
de
médias
et
hypermédias)
:
textes
li7éraires
ou
scienEfiques
par
exemple
+
3b
:
écriture
délinéarisée
par
liens,
hypermédias,
polyénonciaEon
(commentaires,
wikis),
etc.
19. 4.3.
Les
produc.ons
technolangagières
–
Un
trait
technolangagier
est
une
caractérisEque
de
nature
composite
due
à
la
producEon
du
langage
dans
un
disposiEf
d’écriture
numérique
–
Exemples
:
+
l’hyperlien,
mot
ou
un
segment
technolangagier
car
cliquable
et
support
d’hypertexte
+
le
hashtag
sur
le
réseau
Twi7er
(Paveau
2012a),
un
technomorphème
car
permet
par
clic
de
redocumenter
un
thème
ou
une
informaEon
+
les
boutons
de
partage
d’informaEon,
qui
sont
des
formes
technodiscursives
de
discours
rapportés
(Paveau
2011,
2012b)
+
certains
genres
de
discours
sont
technodiscursifs
:
la
demande
d’ami.é
sur
Facebook,
qui
passe
nécessairement
par
le
bouton
«
ajouter
»
20. 4.4.
Pour
un
traitement
écologique
des
produc.ons
technolangagières
–
la
quesEon
quali/quan.
semble
se
dissoudre
sous
des
interrogaEons
qui
touchent
à
l’équipement
global
de
la
linguisEque
pour
penser
la
technodiscursivité
des
écritures
naEves
en
ligne
–
le
traitement
quanE
implique
une
extrac.on
de
l’écosystème
numérique
=>
logocentrisme
ou
égocentrisme
–
le
traitement
quali
reste
inadapté
faute
d’ou.ls
=>
disEncEon
binaire
maintenue
entre
langagier
et
non-‐langagier)
21. Exemple
1
:
traiter
les
énoncés
produits
sur
le
réseau
social
Facebook,
Aït
Saïdi,
Ma7hey
2012
22.
23. Exemple
2
:
le
hashtag
et
la
redocumentaEon
par
tweetdoc.
Le
cas
de
#RadioLondres
24.
25. –
Web
3.0
web
de
données
–
annonce
(un
peu
rapide)
de
la
«
mort
du
discours
»
:
Mounier
2011
–
mais
«
renaissance
rhétorique
»
par
redocumentaEon
des
données
:
visualisaEon
de
données,
journalisme
de
données,
curaEon
de
données
(par
exemple
tweetdoc)
–
enjeu
important
:
que
la
linguistqiue
se
saisisse
de
ces
objets
numériques
naEfs,
en
parEculier
le
document,
laissé
pour
le
moment
à
d’autres
disciplines
(Pédauque
2003)