SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Présentation de PFE Sujet: Analyse des différentes catégories d’utilisateurs d’un réseau de hotspots Wifi en appliquant des techniques de clustering. 1 21/09/2010                         Arnaud LEMPEREUR Entreprise : Laboratoire Universitaire de IIT ChicagoResponsable de stage : Dr Edward CHLEBUSTuteur de stage : Mr Daniel NEGRUDate du stage : Du 15/02/2010 au 30/07/2010
Sommaire de la présentation. 21/09/2010                         Arnaud LEMPEREUR 2
Sommaire de la présentation. 21/09/2010                         Arnaud LEMPEREUR 3
I. L’environnement du stage 21/09/2010                         Arnaud LEMPEREUR 4 ,[object Object]
L’université: L’IIT (Illinois Institute of Technology), grande université de Chicago, très ouverte aux étrangers, et partenaire de l’ENSEIRB.
Le laboratoire: « Network Modeling and TeletrafficAnalysis » composé du Dr Chlebus et de son thésard Gautam Divgi ayant déjà travaillé sur la base de données.,[object Object]
II. Présentation du sujet Le point de départ, la base de données : Données fournies par Azure Wireless, gros opérateur de réseaux sans fil en Australie! La base de données concerne l’utilisation des hotspots de Azure pendant 5 mois pour un total de 14273 sessions. Différents types de comptes selon les utilisateurs : « Hourlyaccount » - Compte à l’heure (1, 2, 5, 10 heures) « Daily account » - Compte à la journée (1, 3, 5 jours) « Monthlyaccount » - Compte au mois (téléchargement illimité dans ce type de compte) 21/09/2010                         Arnaud LEMPEREUR 6
II. Présentation du sujet Les paramètres qui caractérisent une session : La durée de la session Le trafic montant Le trafic descendant Définition du clustering : « Etant donné un nombre d’objets, chacun décrit par une base de mesures numériques, il s’agit de diviser le plan afin de diviser les objets en plusieurs groupes de tel manière que deux objets du même groupe soient similaire selon un critère défini. Le nombre de groupes et les caractéristiques de chaque groupes sont à déterminés. » 21/09/2010                         Arnaud LEMPEREUR 7
II. Présentation du sujet 21/09/2010                         Arnaud LEMPEREUR 8 Petit exemple décrivant l’objectif du projet : ,[object Object]
 Chercher dans quelle mesure les caractéristiques des éléments de ces clusters correspondent à celle de chaque catégorie de compte. « Daily account »
Sommaire de la présentation. 21/09/2010                         Arnaud LEMPEREUR 9
III. Introduction au clustering  Existence d’une panoplie très large d’algorithmes de clustering qui peuvent se classer selon certains critères: La fonction de distance utilisée pour mesurer la proximité ou la ressemblance entre deux données (influence sur la forme des clusters). La méthode de clustering peut être : Agglomerative ou divisive.  Monothéique ou polythétique.  « Hard » ou « fuzzy ».  … Existence d’algorithmes de références qu’il serait intéressant de présenter  pour mieux comprendre mais le temps me manque… 21/09/2010                         Arnaud LEMPEREUR 10
Sommaire de la présentation. 21/09/2010                         Arnaud LEMPEREUR 11
IV. L’algorithme choisi Pourquoi cet algorithme? : 21/09/2010                         Arnaud LEMPEREUR 12
IV. L’algorithme choisi Les étapes de l’algorithme NetCluster: L’application de l’algorithme WaveCluster : Quantifier l’espace sous forme d’une grille et assigner les données à leurs cellules. Appliquer la « wavelet transform » sur la densité des cellules de la grille. Trouver les cellules connectées (clusters) et assigner à chaque donnée un label selon son cluster d’appartenance. Une étape de post-processing. 21/09/2010                         Arnaud LEMPEREUR 13
IV. L’algorithme choisi La quantification : 21/09/2010                         Arnaud LEMPEREUR 14 Densité de la cellule (4,6) : 2! Grillage de l’espace deux dimensions formé par labase de données avec une certaine granularité pour chaque dimension (ici 7 pour l’axe des abscisses et 6 pour celui des ordonnés)
IV. L’algorithme choisi La wavelet transform : (procédé itératif) Correspond à un filtre sur les densités de chaque cellules. Ce filtre s’applique ligne par ligne puis colonne par colonne (pour le cas 2 dimensions). La nouvelle densité de chaque cellule prend en compte la densité des cellules voisines. Le filtre choisi est le « MexicanHat ». Puis on réalise l’élimination d’une densité sur deux. 21/09/2010                         Arnaud LEMPEREUR 15 D’ = densité cellule après filtre C(k) = coefficient du filtre M = nbr. de coefficient du filtre D = densité cellule avant filtre
IV. L’algorithme choisi 21/09/2010                         Arnaud LEMPEREUR 16
IV. L’algorithme choisi La labellisation : 21/09/2010                         Arnaud LEMPEREUR 17
IV. L’algorithme choisi Le post-processing: Définition d’un rayon maximal pour chaque dimension. Chaque cluster qui dépasse une des tailles maximales pour une des dimensions est soumis au post-processing. Par itération : Détermine la cellule de plus forte densité dans le cluster. Définit le nouveau cluster par les cellules comprises dans l’ellipse créée par les rayon maximaux de chaque dimension autour de la cellule de plus forte densité. Procède à la même opération avec les cellules restantes. 21/09/2010                         Arnaud LEMPEREUR 18
Sommaire de la présentation. 21/09/2010                         Arnaud LEMPEREUR 19
V. L’implémentation 21/09/2010                         Arnaud LEMPEREUR 20 Implémentation à l’aide de : ,[object Object]
GnuPlot pour les graphiques,[object Object]
VI. Les résultats de l’étude 21/09/2010                         Arnaud LEMPEREUR 22 Représentation des clusters pour le cas 1 dimension de la durée de session
VI. Les résultats de l’étude 21/09/2010                         Arnaud LEMPEREUR 23 Histogramme représentant la quantité absolue d’utilisateurs dans chaque cluster pour les 3 catégories d’utilisateurs
VI. Les résultats de l’étude 21/09/2010                         Arnaud LEMPEREUR 24 Représentation des clusters pour le cas 1 dimension du trafic montant à l’échelle logarithmique
VI. Les résultats de l’étude 21/09/2010                         Arnaud LEMPEREUR 25 Représentation des clusters pour le cas 2 dimensions durée de session et trafic montant à l’échelle logarithmique
VI. Les résultats de l’étude 21/09/2010                         Arnaud LEMPEREUR 26 Représentation des clusters pour le cas 3 dimensions à l’échelle logarithmique
Sommaire de la présentation. 21/09/2010                         Arnaud LEMPEREUR 27

Weitere ähnliche Inhalte

Andere mochten auch (8)

Rapport de stage de perfectionnement
Rapport de stage de perfectionnementRapport de stage de perfectionnement
Rapport de stage de perfectionnement
 
Rapport de-stage-axa
Rapport de-stage-axaRapport de-stage-axa
Rapport de-stage-axa
 
Rapport stage IP-MSAN Tunisie télécom
Rapport stage IP-MSAN Tunisie télécomRapport stage IP-MSAN Tunisie télécom
Rapport stage IP-MSAN Tunisie télécom
 
Rapport finiale
Rapport finialeRapport finiale
Rapport finiale
 
Accès Internet : Les solutions techniques comparées
Accès Internet : Les solutions techniques comparéesAccès Internet : Les solutions techniques comparées
Accès Internet : Les solutions techniques comparées
 
Rapport PFE-Implémentation de la solution Dual-Homing
Rapport PFE-Implémentation de la solution Dual-Homing Rapport PFE-Implémentation de la solution Dual-Homing
Rapport PFE-Implémentation de la solution Dual-Homing
 
Acces reseau vpn_l2_tp
Acces reseau vpn_l2_tpAcces reseau vpn_l2_tp
Acces reseau vpn_l2_tp
 
Technologies d'accès à Internet
Technologies d'accès à InternetTechnologies d'accès à Internet
Technologies d'accès à Internet
 

Ähnlich wie ENSEIRB - Stage 3A @IIT Chicago

Connected Developper Ep6 (25-05-2013)
Connected Developper Ep6 (25-05-2013)Connected Developper Ep6 (25-05-2013)
Connected Developper Ep6 (25-05-2013)
Badr Hakkari
 
composing continuos services in CoAP-based IOT
composing continuos services in CoAP-based IOT composing continuos services in CoAP-based IOT
composing continuos services in CoAP-based IOT
omri med
 

Ähnlich wie ENSEIRB - Stage 3A @IIT Chicago (20)

Presentation final
Presentation finalPresentation final
Presentation final
 
Connected Developper Ep6 (25-05-2013)
Connected Developper Ep6 (25-05-2013)Connected Developper Ep6 (25-05-2013)
Connected Developper Ep6 (25-05-2013)
 
These tony ducrocq
These tony ducrocqThese tony ducrocq
These tony ducrocq
 
Diffraction_des_rayons_X_Pierre_Gravereau_ICMCB.pdf
Diffraction_des_rayons_X_Pierre_Gravereau_ICMCB.pdfDiffraction_des_rayons_X_Pierre_Gravereau_ICMCB.pdf
Diffraction_des_rayons_X_Pierre_Gravereau_ICMCB.pdf
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 
Presentation final12
Presentation final12Presentation final12
Presentation final12
 
Grid Computing
Grid ComputingGrid Computing
Grid Computing
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
FRESNEL_Quentin_Rapport
FRESNEL_Quentin_RapportFRESNEL_Quentin_Rapport
FRESNEL_Quentin_Rapport
 
De l’open source à l’open cloud
De l’open source à l’open cloudDe l’open source à l’open cloud
De l’open source à l’open cloud
 
Detection and Analysis of Hidden Activities in Social network
Detection and Analysis of Hidden Activities in Social networkDetection and Analysis of Hidden Activities in Social network
Detection and Analysis of Hidden Activities in Social network
 
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
 
Rapport du projet
Rapport du projetRapport du projet
Rapport du projet
 
composing continuos services in CoAP-based IOT
composing continuos services in CoAP-based IOT composing continuos services in CoAP-based IOT
composing continuos services in CoAP-based IOT
 
Cross-domain recommandation system for flights and hotels
Cross-domain recommandation system for flights and hotelsCross-domain recommandation system for flights and hotels
Cross-domain recommandation system for flights and hotels
 
pfe benamor
pfe benamorpfe benamor
pfe benamor
 
pfe mehdi benamor
pfe mehdi benamorpfe mehdi benamor
pfe mehdi benamor
 
Réseaux et zones blanches étendues
Réseaux et zones blanches étenduesRéseaux et zones blanches étendues
Réseaux et zones blanches étendues
 
Grille de calule
Grille de caluleGrille de calule
Grille de calule
 
Chap XII Analyse Numerique
Chap XII Analyse NumeriqueChap XII Analyse Numerique
Chap XII Analyse Numerique
 

ENSEIRB - Stage 3A @IIT Chicago

  • 1. Présentation de PFE Sujet: Analyse des différentes catégories d’utilisateurs d’un réseau de hotspots Wifi en appliquant des techniques de clustering. 1 21/09/2010 Arnaud LEMPEREUR Entreprise : Laboratoire Universitaire de IIT ChicagoResponsable de stage : Dr Edward CHLEBUSTuteur de stage : Mr Daniel NEGRUDate du stage : Du 15/02/2010 au 30/07/2010
  • 2. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 2
  • 3. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 3
  • 4.
  • 5. L’université: L’IIT (Illinois Institute of Technology), grande université de Chicago, très ouverte aux étrangers, et partenaire de l’ENSEIRB.
  • 6.
  • 7. II. Présentation du sujet Le point de départ, la base de données : Données fournies par Azure Wireless, gros opérateur de réseaux sans fil en Australie! La base de données concerne l’utilisation des hotspots de Azure pendant 5 mois pour un total de 14273 sessions. Différents types de comptes selon les utilisateurs : « Hourlyaccount » - Compte à l’heure (1, 2, 5, 10 heures) « Daily account » - Compte à la journée (1, 3, 5 jours) « Monthlyaccount » - Compte au mois (téléchargement illimité dans ce type de compte) 21/09/2010 Arnaud LEMPEREUR 6
  • 8. II. Présentation du sujet Les paramètres qui caractérisent une session : La durée de la session Le trafic montant Le trafic descendant Définition du clustering : « Etant donné un nombre d’objets, chacun décrit par une base de mesures numériques, il s’agit de diviser le plan afin de diviser les objets en plusieurs groupes de tel manière que deux objets du même groupe soient similaire selon un critère défini. Le nombre de groupes et les caractéristiques de chaque groupes sont à déterminés. » 21/09/2010 Arnaud LEMPEREUR 7
  • 9.
  • 10. Chercher dans quelle mesure les caractéristiques des éléments de ces clusters correspondent à celle de chaque catégorie de compte. « Daily account »
  • 11. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 9
  • 12. III. Introduction au clustering Existence d’une panoplie très large d’algorithmes de clustering qui peuvent se classer selon certains critères: La fonction de distance utilisée pour mesurer la proximité ou la ressemblance entre deux données (influence sur la forme des clusters). La méthode de clustering peut être : Agglomerative ou divisive. Monothéique ou polythétique. « Hard » ou « fuzzy ». … Existence d’algorithmes de références qu’il serait intéressant de présenter pour mieux comprendre mais le temps me manque… 21/09/2010 Arnaud LEMPEREUR 10
  • 13. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 11
  • 14. IV. L’algorithme choisi Pourquoi cet algorithme? : 21/09/2010 Arnaud LEMPEREUR 12
  • 15. IV. L’algorithme choisi Les étapes de l’algorithme NetCluster: L’application de l’algorithme WaveCluster : Quantifier l’espace sous forme d’une grille et assigner les données à leurs cellules. Appliquer la « wavelet transform » sur la densité des cellules de la grille. Trouver les cellules connectées (clusters) et assigner à chaque donnée un label selon son cluster d’appartenance. Une étape de post-processing. 21/09/2010 Arnaud LEMPEREUR 13
  • 16. IV. L’algorithme choisi La quantification : 21/09/2010 Arnaud LEMPEREUR 14 Densité de la cellule (4,6) : 2! Grillage de l’espace deux dimensions formé par labase de données avec une certaine granularité pour chaque dimension (ici 7 pour l’axe des abscisses et 6 pour celui des ordonnés)
  • 17. IV. L’algorithme choisi La wavelet transform : (procédé itératif) Correspond à un filtre sur les densités de chaque cellules. Ce filtre s’applique ligne par ligne puis colonne par colonne (pour le cas 2 dimensions). La nouvelle densité de chaque cellule prend en compte la densité des cellules voisines. Le filtre choisi est le « MexicanHat ». Puis on réalise l’élimination d’une densité sur deux. 21/09/2010 Arnaud LEMPEREUR 15 D’ = densité cellule après filtre C(k) = coefficient du filtre M = nbr. de coefficient du filtre D = densité cellule avant filtre
  • 18. IV. L’algorithme choisi 21/09/2010 Arnaud LEMPEREUR 16
  • 19. IV. L’algorithme choisi La labellisation : 21/09/2010 Arnaud LEMPEREUR 17
  • 20. IV. L’algorithme choisi Le post-processing: Définition d’un rayon maximal pour chaque dimension. Chaque cluster qui dépasse une des tailles maximales pour une des dimensions est soumis au post-processing. Par itération : Détermine la cellule de plus forte densité dans le cluster. Définit le nouveau cluster par les cellules comprises dans l’ellipse créée par les rayon maximaux de chaque dimension autour de la cellule de plus forte densité. Procède à la même opération avec les cellules restantes. 21/09/2010 Arnaud LEMPEREUR 18
  • 21. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 19
  • 22.
  • 23.
  • 24. VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 22 Représentation des clusters pour le cas 1 dimension de la durée de session
  • 25. VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 23 Histogramme représentant la quantité absolue d’utilisateurs dans chaque cluster pour les 3 catégories d’utilisateurs
  • 26. VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 24 Représentation des clusters pour le cas 1 dimension du trafic montant à l’échelle logarithmique
  • 27. VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 25 Représentation des clusters pour le cas 2 dimensions durée de session et trafic montant à l’échelle logarithmique
  • 28. VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 26 Représentation des clusters pour le cas 3 dimensions à l’échelle logarithmique
  • 29. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 27
  • 30. VII. Perspectives pour le projet La partie du projet sur la base de données qui m’a été confiée a été menée à bien. Le thésard confronte en ce moment les résultats qu’il avait pu obtenir précédemment par d’autres méthodes avec les miens pour en conforter éventuellement certains ou découvrir d’autres spécificités. Si les résultats obtenus sont probants, le projet donnera peut-être lieu à une publication. 21/09/2010 Arnaud LEMPEREUR 28
  • 31. Merci de votre attention Et Place aux questions 21/09/2010 Arnaud LEMPEREUR 29