21. La valeur PageRank d’un
document est liée au nombre
de documents qui le citent et
à leur propre valeur
PageRank.
22. Le PageRank est aussi la probabilité
stationnaire d'une chaîne de Markov.
23. Brin et Page proposent alors
une analogie.
Le web est un ensemble de
documents. Chaque
hyperlien correspond à une
citation.
24. Dans sa version « pure »,
Pagerank incarne un certain
idéal démocratique.
« Dans l’esprit de PageRank ». Dominique Cardon. Exposé Colloque Arc-Info. Nov 2012
25. Mais pour bien fonctionner, il
faudrait que personne ne
tente d’optimiser ses
documents en fonction de
l’algorithme.
32. Google a eu une meilleure idée
que de simplement vendre de
la publicité.
33. Brin et Page ont réalisé qu’ils
accumulaient du capital
linguistique grâce au nombre
croissant d’utilisateurs qui
s’exprimaient au travers de
services de Google.
36. Un algorithme qui organise
automatiquement la
spéculation autour des mots a
permis de créer le premier
marché linguistique mondial.
37. Le marché linguistique existait
déjà avant Google.
Il était possible depuis
longtemps d’acheter certains
mots (Trademarks)
> cf. C.Fauré commentant Lombardo sur l’origine antique des Trademarks
> http://www.christian-faure.net/2012/01/22/les-savoirs-de-lecriture-en-grece-
ancienne-3-marchands-transactions-economiques-ecritures/
42. 1. Enchère sur un mot clé (E)
Une entreprise choisit un mot ou une
expression, par exemple « vacances »
et le prix maximum qu’elle serait prête
à payer en cas de clic.
Google propose une estimation du montant de l’enchère à proposer pour avoir de
bonnes chances d’être dans la première page des résultats proposés.
Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieux
spéci#ques.
43. 2. Calcul du score de qualité de la
publicité (Q)
Google donne un score à la publicité sur
une échelle de un à dix.
Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à la
requête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité de
son contenu et rapidité de chargement) et du nombre de clics moyen sur la publicité. En
gros, ce score mesure à quel point la publicité « fonctionne ».
C’est un point essentiel, car Google ne gagne de l’argent que si les internautes
choisissent e"ectivement de cliquer sur le lien proposé par la publicité.
L’algorithme exact qui produit le score de qualité de la publicité reste secret et
modi!able à loisir par Google.
44. 3. Calcul du rang (R)
Le Rang est l’Enchère multipliée par le
Score. Une publicité ayant un bon score
peut ainsi compenser une enchère plus
faible et arriver devant.
R=E*Q
45. 4. Calcul du prix à payer en cas de
clic (P)
Le prix que paye une entreprise 1 si un
internaute clique sur sa publicité n’est
pas le prix de l’enchère, mais le prix
de l’enchère 2 juste en dessous de sa
propre enchère modulée par la qualité
relative entre cette deuxième enchère
et celle de l’entreprise.
Tout tient dans la formule : P1 = E2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, E2
est l’enchère la plus haute en dessous de l’enchère de l'entreprise 1, Q1 la qualité de
l’enchère 1, Q2 la qualité de l’enchère 2.
46. Ce jeu d’enchères est recalculé pour
chaque requête de chaque utilisateur
— des millions de fois par seconde
51. Google a réussi à étendre le
domaine du capitalisme à la
langue elle-même, à
organiser la vente
de « mots » à l’échelle
planétaire.
52. Ces autres projets et
innovations technologiques
peuvent être analysés à
travers ce prisme.
53.
54. Quand Google corrige à la
volée un mot que vous avez
mal orthographié, il transforme
un matériau sans valeur en une
ressource économique
potentiellement rentable.
55. Quand Google prolonge une
phrase que vous avez
commencée à taper, il ramène
votre expression dans le
domaine de la langue qu’il peut
exploiter.
60. Nous nous exprimons chaque
jour un peu plus au travers d’une
des interfaces de Google (GMail,
Google Docs, Google+, etc.)
61. Nous sommes déjà des
millions chaque jour à écrire
et à parler par le biais de
Google.
62. Les acteurs du capitalisme
linguistique doivent
développer des relations
linguistiques intimes et
durables avec un grand
nombre d’utilisateurs, pour
pouvoir modéliser et in!échir
la langue.
68. Du fait de ces médiations, la
langue elle-même risque de se
transformer.
69. Première hypothèse (2011)
Les technologies du capitalisme linguistique
conduiraient à la régularisation de la
langue.
Plus nous ferons appel aux prothèses
linguistiques, laissant les algorithmes
corriger et prolonger nos propos, plus cette
régularisation serait e$cace.
70. Mais cette régularisation se base
essentiellement sur une analyse statistique
des écrits de l’Internet. Or beaucoup de ces
écrits ne sont pas des ressources pures, ce
sont des écrits déjà in!uencés par des
algorithmes.
71. Il nous fait donc désormais distinguer deux
types de ressources linguistiques :
(a) les ressources primaires produites par des
humains (conversations orales ou écrites,
contenus de livres scannés, etc.)
(b) les ressources secondaires produites par
des machines en général à partir des
ressources primaires (traduction automatique,
articles écrits par des algorithmes, spam).
72. La modi#cation de la syntaxe dans des
chaînes de traduction automatique illustre un
certain de type de pollution.
« La qualité se dégrade petit à petit au fur et à mesure
quand on applique des algorithmes de traduction
automatique »
« Quality degrades gradually as and when we measure
applies algorithms to machine translation »
« Calidad degrada gradualmente a medida y cuando la
medida se aplica algoritmos de traducción automática »
« Qualité se dégrade progressivement au fur et à mesure
est appliquée algorithmes de traduction automatique »
73. Les distorsions sémantiques introduites par le
‘Text Spinning’ illustrent un autre type de
pollution :
« Mr. and Mrs. Dursley, of number four, Privet Drive, were
proud to say that they were perfectly normal, thank you
very much. They were the last people you'd expect to be
involved in anything strange or mysterious, because they
just didn't hold with such nonsense. »
« Mr. but Mrs. Dursley, of number four, Privet Drive, were
glad to declare that they were impeccably standard,
thanks much. They were the !nal folks you'd look for to be
included in whatever or recondite, resulting from the fact
that they simply didn't keep with such gibberish. “
75. Un humain peut, dans certains
cas, faire la di"érence, mais il
est di$cile de construire des
algorithmes pour faire
automatiquement cette
distinction.
76. Au fur et à mesure que la quantité de
ressources secondaires devient signi#cative
par rapport aux ressources primaires, les
modèles statistiques peuvent se modi#er pour
intégrer le vocabulaire, les formulations et
les tournures des algorithmes.
77. Ce sont ces tournures qui
risquent de nous être
proposées sous la forme de
suggestions ou de corrections.
78. Google voit les ressources
secondaires comme un danger,
une pollution pour ses
modèles.
79. Pour lutter contre cette « pollution »
croissante, Google a modi#é en 2011 son
service Google Translate.
Google a remplacé son service créateur de ressources
secondaires en un service de traduction « on demand » qui
garde toujours le texte original de la traduction, pour s’en
servir pour la recherche et pour potentiellement améliorer
progressivement la traduction proposée au fur et à mesure que
les algorithmes de traduction progressent.
cf. Kirti Vashee / Analysis of the Shutdown Announcements of the Google Translate API
80. Cela ne su$ra pas.
Il faut maintenant compter avec l’écriture des
machines et tous les hybrides de ce nouvel
ordre linguistique.
81. Sur les 30 meilleurs éditeurs de
Wikipedia, les 2/3 sont des
bots
> R.Stuart Geiger, “The Lives of Bots.” in Wikipedia: A Critical Point of View. 2011
> http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_recent_edits
82. D’ici deux ans, une proportion
signi#cative des messages sur
les réseaux sociaux sera peut-
être produite par des bots.
> Hwang, Pearce and Nanis (2012) Socialbots: voices from the fronts interactions Volume 19
Issue 2, March + April 2012
83.
84. Ainsi, textes humains et
algorithmiques se mêlent pour
proposer une nouvelle forme
d’écriture. Et c’est cette nouvelle
écriture que d’autres algorithmes
analysent pour ensuite structurer
nos propres productions
linguistiques.
85. Avec le capitalisme linguistique,
la langue elle-même se
transforme pour intégrer les biais
linguistiques des machines et
les contraintes de l’économie
linguistique planétaire.
86. Nous assistons peut-être une
nouvelle phase de
« grammatisation » de la
langue, une nouvelle rétroaction
de la technologie et de
l’économie sur la langue naturelle.
87. Dans un temps intermédiaire
apparait quelque chose comme
une lingua franca, un pidgin ou
un créole, dont la syntaxe et le
vocabulaire sont liés aux capacités
linguistiques des machines et aux
valeurs marchandes des mots.