En 2007, l'utilisation de réseau p2p pour télécharger des jeux, des vidéos ou des applications était encore d'actualité. L'objectif de cet article est de faire un point sur l'information que l'on pouvait en tirer et éventuellement cibler des entreprises pratiquant la veille sur ces réseaux.
1. A NALYSE DES ECHANGES SUR LE RESEAU P2P
In2Merge – Thierry HUET
E-mail : t1651214@gmail.com
Décembre 2007 – v0.0
Mots-clés : P2P, téléchargement, distribution, surveillance
Résumé : eMule n'est pas uniquement dédié au téléchargement de fichiers audio ou vidéo. On y trouve un
grand nombre de documents partagés parfois par mégarde. C'est une bonne source de renseignement à la fois
en matière de document mais aussi en matière d’habitudes liés aux utilisateurs de ce mode d’échange. Dans
cet article, nous allons vous présenter des résultats concernant l’exploitation des données provenant des
téléchargements.
réseau, le client peut rechercher des noms de fichiers
I. INTRODUCTION
par mots clés. La recherche peut être locale ou
globale. Une recherche locale (seulement sur le
Nombre d’utilisateurs exploitent eMule (eMule) pour serveur auquel est connecté le client), est plus rapide
partager des fichiers audio et vidéo. Cependant, on mais affiche moins de résultats. Une recherche
peut aussi trouver des documents, des articles, des globale (sur tous les serveurs du réseau), prend plus
présentations dont la finalité, même si elle est de temps mais offre plus de résultats. Chaque serveur
parfois promotionnelle, permet de compléter une vérifie les mots clés contenu dans sa base de données
recherche sur internet. Au delà de cette démarche de et retourne tous les noms de fichiers (ainsi que leur
recherche, il semble essentiel de faire un point sur valeur de hachage) qui correspondent à ces mots
les échanges réalisés avec cet outil. clés. Le second, Kadmelia (Kad07) considère tout
Le livre blanc du P2P (SNEP, 2007) annonce que la ordinateur connecté sur ce réseau comme un serveur.
France est le pays où « la proportion des internautes Quelles que soient vos recherches, noms de fichiers,
pratiquant le téléchargement y est élevé (>50%) ». sources de téléchargements ou autres utilisateurs,
Plus récemment, le rapport Olivennes (Olivennes, l'opération s'effectue de manière identique. Aucun
2007), tout en confirmant les chiffres proposés dans serveur ne conserve la trace des clients ni des fichiers
le livre blanc, indique que des solutions techniques qu'ils partagent. Nous proposons de collecter des
existent pour restreindre les contenus jugés illégaux. informations pour ensuite les analyser. (Gong, 2005)
Il fait aussi des propositions pour réglementer le et (Myung-Sup, 2003) décrivent et proposent une
téléchargement. Il est pourtant important de méthode pour collecter et analyser les informations
rationaliser ces chiffres et les comparer à d’autres. échangées. Nous nous baserons sur cette méthode
Dans ce document, nous aurons l’occasion de pour collecter les informations. Nous capitaliserons le
comparer le téléchargement en France et dans travail moyennant une recherche en utilisant les DNS
d’autres pays européens. afin d’associer un nom de pays et un propriétaire à
chaque adresse IP.
II. LA COLLECTE D’INFORMATION
Le mode opératoire est constitué de trois étapes.
Le mode de fonctionnement d'eMule est simple. Après
Premièrement, nous déterminons arbitrairement trois
s'être connecté à un réseau de serveur, il suffit de
mots-clés plus ou moins significatifs sur Internet. Il
faire une recherche en choisissant ses mots clés. A
faut que ces mots-clés soient les plus éloignés
l'issue de la recherche est proposée une liste de
sémantiquement possibles. Nous choisissons « SHOM
fichier qu’il convient de choisir et de télécharger si
», « Windows » et « Clapton » : SHOM1 pour son
besoin est. Quelques informations dont des
aspect thématique très spécifique, peu connu hors de
commentaires sont proposées. Il est évident que le
France ; Windows, pour son aspect attractif et
mot clé peut ne pas correspondre à l’information
universel ; Clapton… encore une fois pour son aspect
téléchargée. Le nom du fichier étant proposé par le
thématique spécifique mais mieux répandu que le
propriétaire.
SHOM.
Deux protocoles sont utilisés pour diffuser ces
informations. Le premier, eDonkey (eDo071) est basé
sur la connexion d’un ordinateur « client » à un
ordinateur « serveur ». Une fois qu'il est connecté au
1
SHOM : Service Hydrographie & Océanique de la Marine
Analyse du trafic P2P In2Merge – Thierry HUET Page 1 sur 5
2. A. Les informations collectées échangées et ne connaissant pas la règlementation en
vigueur en Israël, il semble difficile d’émettre
La collecte des informations a été réalisée sur
d’autres conclusions. Il faut seulement constater que
plusieurs jours afin de pouvoir identifier des
l’écart dans les proportions est énorme.
tendances. Aux vues de cette collecte, nous pouvons
annoncer les chiffres suivants : US FR
NL 6% 2%
• 469248 connexions ont été obtenues en 10%
réalisant trois séries de 2 mmesures. 4% des
connexions représentent des accès au réseau
eMule, Le reste est dédié aux connexions au
réseau Kadmelia.
• 30002 adresses IP ont été identifiées. CeCes
adresses sont réparties en 148 adresses pour IL
eMule, 29391 pour Kadmelia. 82%
• 125 pays ont été identifiés. Ces adresses
ntifiés.
sont réparties en 12 pays pour eMule, 123 Figure 2 - Provenance des connexions sous eMule pour 3
pour Kadmelia. requêtes (chiffres pondérés)
B. La répartition des échanges Au-delà de ces comparaisons, il reste à démontrer
delà
que la vision du réseau eMule obtenue par cette
ion
L’analyse de la provenance des connexions sous eMule méthode est « universelle ». Il n’est pas certain que,
l
(Cf. Figure 1) présente l’intérêt de démontrer la forte
) connecté au réseau en un autre lieu géographique ou
présence des États-Unis et d’Israël (on dénote tout de
Unis sur un autre serveur, la répartition soit identique Ce
,
même une grande différence entre les deux pays La
pays). pourra être l’objet d’une autre campagne de tests
tests.
présence de la Hollande étant principalement due
aux échanges avec le serveur auquel nous étions BR
DE
5% IL
connectés. 4% 4%
FR
ES 9%
FR PL
IL 14%
4% 4% US
16% 3%
IT TW
19%
KR 2%
CN 2% AR
NL
30% CA 1%
7% MY
Autres GB 1%
US 1%
2% 1%
71%
Figure 3 - Provenance des connexions sous KadMelia pour
2 mesures
Figure 1 - Provenance des connexions sous eMule pour 3
nnexions
La Figure 3 présente les connexions au réseau
te
requêtes KadMelia dans des conditions similaires à la mesure
elia
précédente pour les 15 pays les plus représe représentés.
Afin de normaliser les chiffres nous avons décidé de Nous constatons que la Chine et quelques pays
rapporter ces pourcentages au nombre d’internautes européens sont bien représenté On peut soupçonner
és.
connectés par pays. l’influence de la latence du réseau Internet sur les
résultats. Plus les serveurs sont topologiquement
distants, plus il devient difficile de s’y connec
connecter.
La valeur obtenue correspond alors à la proportion
d’utilisateurs réalisant du téléchargement. Les US
DE IL PL
graphiques représenteront alors les provenances des BR 2% 8% 0%
29%
connexions par internaute. 3% TW
4% KR AR
En pondérant les chiffres à l’aide des données sur la FR 1%
8% 3% CA
pénétration d’Internet dans les pays concernés
ES 2%
(Miniwatts Marketing Group), nous constatons que la IT
17% GB
proportion d’utilisateurs connectés à Internet et 16% CN
utilisant eMule est bien plus importante en Israël 4% MY 1%
2%
qu’en France (Cf. Figure 2). N’ayant pas
).
d’information sur la nature des informations Figure 4 - Provenance des connexions sous KadMelia pour
2 mesures (chiffres pondérés)
Analyse du trafic P2P In2Merge – Thierry HUET Page 2 sur 5
3. Ramené au nombre d’utilisateurs connectés, on Sur la Figure 6, nous constatons aussi que la stabilité
retrouve Israël et les pays européens en tête de liste. du réseau eMule est atteinte bien plus rapidement
En comparant cette information avec les cartes que celle du réseau Kadmelia. Ce qui semble évident
topologiques proposées par le CAIDA (California' San au vu des chiffres cités au paragraphe A et au vu du
diego Supercomputer Center, 2008) on constate
2008), mode de connexion. Pour effectuer une requête sur
.
effectivement que les pays européens, Israël, eMule, la distance topologique est plus courte donc
l’Afrique du Sud et les pays russes sont dans le même plus rapide.
espace.
E. Comparaison des requêtes
requêtes.
C. Consistance des échanges
Compte tenu des résultats obtenus précédemment, il
La mesure de la consistance vise à vérifier qu’une est évident que toutes les requêtes effectuées sur le
requête fournit les mêmes résultats quelque soit la réseau eMule fournissent le même résultat. La Figure
date d’acquisition. Elle a été déterminée en 7 confirme cette conclusion.
comparant un même type d’échange à des dates
différentes. 80%
70%
80% 60%
70% 50%
Série 1
60% 40%
50% 30% Série 2
Série 1
40% 20% Série 3
30% Série 2 10%
20% 0%
Série 3
10% CN FR IL NL PL TW US
0%
CN FR IL NL PL TW US Figure 7 - Comparaison des résultats de requêtes sous
eMule
Figure 5 - Consistance d'une requête sous eMule - Mot clé
SHOM Le résultat obtenu sur la Figure 8 démontre que les
requêtes réalisées sous Kadmelia sont totalement
La Figure 5 représente les résultats obtenus pour trois différentes. D’une part, nous pouvons constater la
requêtes identiques réalisées à trois dates différentes diversité des connexions. Les serveurs espagnols,
sur le réseau eMule. Nous constatons que les résultats italiens, chinois et français représentent 50% des
sont identiques. La consistance pour les autres mots connexions. D’autre part, nous consconstatons que les
clés est de même nature. résultats varient avec le mot clé. Ce qui semble
conforme au processus de fonctionnement du réseau :
Pour le réseau Kadmelia, la consistance est plus
chaque ordinateur connecté au réseau est un serveur.
difficile à mesurer. En effet, le nombre de serveur
Celui-ci réagit en fonction de son contenu.
ci
visible varie avec le temps pour tendre vers une
valeur qui semble constante (généralement après une
alement
100
½ heure de mesure, Cf. Figure 6).
80
1000 60 Clapton
800 40 Shom
600 20 Windows
400
-
200
ES
US
IT
DE
AT
FR
BR
GB
AR
CN
IL
PL
NL
TW
0
Figure 8 - Comparaison des résultats sous Kadmelia
raison
0 100 200 300 400
L’intérêt pour tel mot clé est donc plus facilement
Figure 6 - Recherche de stabilité pour le réseau Kadmelia exploitable
D. Latence du réseau III. CONCLUSIO
ONCLUSIONS
La mesure de la latence vise à déterminer le temps Les résultats que nous avons obtenus confirment
de réponse minimum pour obtenir une réponse certaines idées que l’on peut avoir sur la diffusion
exhaustive. d’information via ce type de medium. D’une ppart, il
existe bien de la demande quant à l’échange
Analyse du trafic P2P In2Merge – Thierry HUET Page 3 sur 5
4. d’information. Le nombre de pays touchés par ces Quelques constatations sont à faire quant aux
échanges n’est pas limité à la France mais concerne distributions des adresses IP. Nous avons constaté que
majoritairement les pays de l’hémisphère nord (Cf. des séries récurrentes d’adresses apparaissaient lors
Figures 1 & 2). de requêtes sous eMule. Toutes proviennent de
société prestataires de service sur Internet. Ce qui
Afin de juger de l’universalité de la mesure, il serait
laisse penser que certaines pratiques peuvent être
intéressant de comparer ces chiffres avec une autre
provoquées (audit, publicité, diffusion de masse).
série mesurée à une autre date pour identifier le
Bien évidement, à ce stade de l’étude, il est difficile
caractère évolutif des téléchargements. De même, la
d’affirmer quoi que ce soit mais on peut penser
vision que nous avons est de la France, connecté à un
effectivement que certains prestataires sont utilisés
serveur aux Pays-Bas. Il serait intéressant de faire le
pour faire ce type d’opération mais la consultation
même type de mesure dans un autre pays pour
des connexions n’est pas suffisante pour l’affirmer.
évaluer l’influence de la topologie du réseau sur les
mesures. Comment exploiter ces informations ? Le processus
mis en place permet de faire un inventaire, une
L’analyse comparative des résultats obtenus sous
cartographie des pays utilisant cette technologie. Un
eMule et sous KaMelia fait apparaitre deux types
observatoire du téléchargement mondial pourrait être
d’utilisation du réseau. D’une part, eMule fait
mis en place. Les figures 3 & 5 montrent que vouloir
apparaitre les relations entre les grands serveurs
utiliser eMule pour connaitre l’attractivité de tel mot
hébergeurs de requêtes et de données tandis que
clé n’est pas significatif. Par contre, sur KadMelia, il
l’analyse de Kadmelia fait apparaitre les échanges
pourrait être possible de soumettre tel mot clé et de
d’information entre les utilisateurs. La localisation
savoir quelle plage IP est intéressée. Un moyen
des serveurs démontre un hébergement
comme un autre d’identifier des tendances, des
majoritairement aux US. La France semble
signaux faibles cependant, pour des mots clés à faible
n’héberger que 4% des serveurs présents sur eMule
utilisation, le risque est de tomber dans le bruit de
pour un volume faible d’utilisateurs (2% des échanges
fond des échanges. Il pourrait être utile de quantifier
mondiaux…). Sans vouloir justifier ni excuser les abus
ce type d’approche et de comparer ces résultats avec
liés au téléchargement, il me semble important de
des sources d’information fiables.
comparer ces faits avec les conclusions du rapport
Olivennes.
IV. ANNEXES
F. Suites récurrentes sous eMule – Requête SHOM
Plage d’IP Propriétaire Pays
38.107.161.47/63 Performance System International, Inc US
38.107.164.2/23 Performance System International, Inc US
67.159.44.102/190 FDC Servers.net, LLC US
72.172.89.117/135 Net2EZ US
83.149.104.122/125 Leaseweb NL
212.179.18.132/142 Bezeq International-Ltd IL
G. Suites récurrentes sur eMule – Requête Clapton
Plage d’IP Propriétaire Pays
38.107.161.47/63 Performance System International, Inc US
38.107.164.2/23 Performance System International, Inc US
67.159.44.102/182 FDC Servers.net, LLc US
72.172.89.117/135 Net2EZ US
83.149.104.122/125 Leaseweb NL
212.179.18.132/142 Bezeq International-Ltd IL
Analyse du trafic P2P In2Merge – Thierry HUET Page 4 sur 5
5. H. Suites récurrentes sur eMule – Requête Windows
Plage d’IP Propriétaire Pays
38.107.161.47/63 Performance System International, Inc US
38.107.164.2/23 Performance System International, Inc US
67.159.44.102/182 FDC Servers.net, LLc US
72.172.89.117/135 Net2EZ US
83.149.104.122/125 Leaseweb NL
212.179.18.132/142 Bezeq International-Ltd IL
V. BIBLIOGRAPHIE
California' San diego Supercomputer Center. 2008. IPv4 Internet Topology Map. Cooperative Association for
Internet data Analysis. [En ligne] San Diego Supercomputer Center, 01 2008. [Citation : 2008 07 29.]
http://www.caida.org/research/topology/as_core_network/pics/ascore-simple.2008_big.png.
eDonkey2000. Wikipedia. [En ligne] [Citation : 17 12 2007.] http://fr.wikipedia.org/Wiki/Edonkey2000.
eMule. Site Officiel d'eMule. [En ligne] [Citation : 2007 17 12.] http://www.emule-
project.net/home/perl/general.cgi?l=13.
Gong, Y. 2005. Identifying P2P users using traffic analysis. Security Focus. [En ligne] 21 07 2005. [Citation : 18
12 2007.] http://www.securityfocus.com/infocus/1843/1.
Kadmelia. Wikipedia. [En ligne] [Citation : 17 12 2007.] http://fr.wikipedia.org/wiki/Kadmelia.
Miniwatts Marketing Group. World Internet Usage Statistics News & World Population Stats. [En ligne]
[Citation : 30 07 2008.] http://www.internetworldstats.com/stats.htm.
Myung-Sup, K., Hun-Jeong, K., & W., H. J. 2003. Towards Peer-to-Peer Traffic Analysis Using Flows. DSOM.
[En ligne] 2003. [Citation : 17 12 2007.] http://dpnm.postech.ac.kr/papers/DSOM/03/P2P/camera-
ready/L45.pdf.
Olivennes, Denis. 2007. Le développement et la protection des oeuvres. Paris : La Documentation Francaise,
2007. http://www.ladocumentationfrancaise.fr/rapports publics/074000726/index.shtml.
SNEP. 2007. Livre blanc sur le "peer to peer". PromusicFrance. [En ligne] 25 10 2007. [Citation : 17 12 2007.]
http://www.promusicfrance.com/pdfs/LivreBlancP2P.pdf.
Analyse du trafic P2P In2Merge – Thierry HUET Page 5 sur 5