SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Système de recommandation de
films avec Spark Machine
Learning
Sommaire
• Problématique
• Système de recommandation
• Flask
• Introduction à Hadoop
• Introduction à Spark
• Spark MLLib Collaborative Filtering
• Démo
Problématique
Le nombre grandissant des produits a rendu le choix du
consommateurs très dur, ajoutons à cela que les systèmes de
recommandations des sites s’appuyent sur la popularité, d’autre part
les solutions machines learning existantes qui se base sur Mahout,
sont très couteuses.
Le segment choisit pour notre sujet est la recommandation des films,
qui est l’une des bases les plus critiques pour les distributeurs VOD et
les services de streaming.
Système de recommandation
Un système de recommandation est une forme spécifique de filtrage de
l'information visant à présenter les éléments d'information (films,
musique, livres, news) qui sont susceptibles d'intéresser l'utilisateur.
Un système de recommandation requiert 3 étapes :
• Recueillir de l'information sur l'utilisateur.
• Bâtir une matrice ou un modèle utilisateur contenant l'information
recueillie.
• Extraire à partir de cette matrice une liste de recommandations.
Exemples
• 30% du CA total d’Amazon est généré grâce au système
de recommandation de produits.
• Le succès de Netflix repose
sur son système de
recommandation de films.
Technologies utilisées
• Hadoop
• Spark – Spark MLLib
• Flask
• Python
Flask
• Flask est un Framework open-source de développement web en
Python. Son but principal est d'être léger, afin de garder la souplesse
de la programmation Python, associé à un système de templates.
• Celui-ci a été utilisé car notre code a été écrit en Python.
Hadoop
• C’est un framework Open source qui est le fruit d’un des progrès les
plus significatifs dans l’automatisation de la parallélisation venu des
travaux de Google.
• Le noyau de Hadoop est constitué de la partie stockage HDFS (
Hadoop Distributed File System) et de la partie traitement
MapReduce.
• Hadoop fractionne les données en plusieurs blocs et les distribue à
travers les nœuds du cluster.
HDFS
• HDFS assure une portabilité et peut être déployé sur différents
systèmes d’exploitation.
• HDFS est un système distribué ou chaque nœud d’un cluster
correspond à un sous ensemble du volume globale de données du
cluster.
• HDFS utilise une taille de bloc fixée à 64 Mo
• HDFS fournit un système de réplication des blocs dont le nombre de
réplication est configurable
Spark
Spark est un Framework permettant de traiter de manières complexe
de données de types variés. Par conséquent il se situe plus au niveau
des étapes Map et Reduce.
Spark se combine très bien avec des clusters Hadoop et permet
d’appliquer des algorithmes complexes sur des données issues de ces
clusters.
RDD
La notion centrale du Spark est le RDD ( Resilient Distributed Dataset):
• Dataset : Il s’agit du jeu de données qui se parcourt comme une
collection
• Distributed : Cette structure distribuée afin d ‘être découpé pour être
traité dans les différents nœuds
• Resilient : Il pourra être relu en cas de problème
Les fonctionnalités de Spark
• Le Resilient Distributed Dataset (RDD) est un concept créé par les
fondateurs de Spark. C'est sous ce format que sont gérées les données en
Spark. Par défaut, lors de la lecture d'un fichier, les données sont
manipulées sous forme d'un RDD de String où chaque élément correspond
à une ligne du fichier. Il est ensuite possible d'effectuer des opérations sur
le RDD. Il en existe deux sortes :
• les transformations : elles transforment un RDD en un autre RDD (map,
filter, reduceByKey) ;
• les actions : elles transforment un RDD en une valeur (count, collect…).
Il est important de noter que les transformations sont « lazy », c'est-à-dire
que Spark n'exécutera les calculs demandés que si une action est appliquée à
un RDD
L’écosystème de Spark
l’écosystème contient des librairies additionnelles qui permettent de
travailler dans le domaine des analyses big data et du machine
learning.
Spark vs Hadoop
MLlib: Une bibliothèque optimisée pour le calcul
parallélisé
• MLlib est la bibliothèque de Machine Learning de Spark. Tous les
algorithmes de cette bibliothèque sont conçus de manière à être
optimisés pour le calcul en parallèle sur un cluster. les performances
deviennent extrêmement intéressantes lorsque les volumétries sont
très importantes
• MLlib a été conçu pour une utilisation très simple des algorithmes en
les appelant sur des RDD dans un format spécifique, quel que soit
l'algorithme choisi. L'architecture se rapproche ainsi de ce que l'on
trouve dans la bibliothèque scikit-learn de Python
Filtrage collaborative
filtrage collaboratif est sous-jacent aux systèmes de recommandation. Il
regroupe des techniques qui visent à opérer une sélection sur les éléments à
présenter aux utilisateurs (filtrage) en se basant sur le comportement et les
goûts exprimés de très nombreux autres utilisateurs
Le recueil d’information joue un rôle crucial dans le processus, il peut être :
• Explicite. L’utilisateur attribue des notes aux produit ou indique son
appréciation (like).
• Implicite. Recueil basé sur le comportement (achats, clics, durée sur une
page).
Par exemple
Youssef
Bilal
soukaina
Principe : les meilleures recommandations proviennent des individus qui
présentent des goûts ou comportements similaires.
• Point de départ. Nous devons disposer d’une base où les préférences
d’un grand nombre d’utilisateurs sont disponibles.
youssef
bilal
soukaina
youssra
Identifier les utilisateurs dont le profil de notes est le plus proche de Youssra. Se servir des notes de ces
individus pour l’item n°4 pour estimer la note de Youssra.
La recommandation ne tient absolument pas compte de la nature ou du contenu de l’item .
Les éléments clés de l’algorithme sont :
• Disposer d’une mesure de similarité ;
• Décider du nombre de voisins ;
• Calcul de la note agrégée, avec possiblement une
pondération tenant compte de la proximité.
Jeu de données
• Nous avons utilisé un jeu de données qui contient 21 000 000 ratings,
appliqués à 27000 films par 230000 utilisateurs.
• Chaque ligne dans le jeu de données ratings est formatée comme
suit : userId, movieId, rating.
• Chaque ligne dans le jeu de données movies est formatée comme
suit : movieId,Title, genres.
Modélisation
Base initiale
Base d’apprentissage
Base de test
Base de validation
Construction d’un modèle et
stockage mémoire simplement
Prédiction
Démo

Weitere ähnliche Inhalte

Was ist angesagt?

La soutenance du mémoire
La soutenance du mémoireLa soutenance du mémoire
La soutenance du mémoireS/Abdessemed
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueYosra ADDALI
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
 
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliothequeEcole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliothequeMehdi Hamime
 
Présentation PFE (Conception et développement d'une application web && mobile...
Présentation PFE (Conception et développement d'une application web && mobile...Présentation PFE (Conception et développement d'une application web && mobile...
Présentation PFE (Conception et développement d'une application web && mobile...Ramzi Noumairi
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Présentation pfe - Etude, conception et réalisation d'une application web de ...
Présentation pfe - Etude, conception et réalisation d'une application web de ...Présentation pfe - Etude, conception et réalisation d'une application web de ...
Présentation pfe - Etude, conception et réalisation d'une application web de ...Ayoub Mkharbach
 
Rapport- Conception et réalisation d'une plateforme social learning
Rapport- Conception et réalisation d'une plateforme social learningRapport- Conception et réalisation d'une plateforme social learning
Rapport- Conception et réalisation d'une plateforme social learningRouâa Ben Hammouda
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Ines Ben Kahla
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étudeDonia Hammami
 
Projet de fin d'etude sur le parc informatique
Projet  de fin d'etude sur le parc informatiqueProjet  de fin d'etude sur le parc informatique
Projet de fin d'etude sur le parc informatiqueHicham Ben
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4JLilia Sfaxi
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Riadh K.
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5Amal Abid
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Haytam EL YOUSSFI
 

Was ist angesagt? (20)

La soutenance du mémoire
La soutenance du mémoireLa soutenance du mémoire
La soutenance du mémoire
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data Analytique
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliothequeEcole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
 
Présentation PFE (Conception et développement d'une application web && mobile...
Présentation PFE (Conception et développement d'une application web && mobile...Présentation PFE (Conception et développement d'une application web && mobile...
Présentation PFE (Conception et développement d'une application web && mobile...
 
Présentation PFE
Présentation PFEPrésentation PFE
Présentation PFE
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Présentation pfe - Etude, conception et réalisation d'une application web de ...
Présentation pfe - Etude, conception et réalisation d'une application web de ...Présentation pfe - Etude, conception et réalisation d'une application web de ...
Présentation pfe - Etude, conception et réalisation d'une application web de ...
 
Rapport- Conception et réalisation d'une plateforme social learning
Rapport- Conception et réalisation d'une plateforme social learningRapport- Conception et réalisation d'une plateforme social learning
Rapport- Conception et réalisation d'une plateforme social learning
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étude
 
Projet de fin d'etude sur le parc informatique
Projet  de fin d'etude sur le parc informatiqueProjet  de fin d'etude sur le parc informatique
Projet de fin d'etude sur le parc informatique
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
 
Rapport Projet Fin d'Études PFE
Rapport Projet Fin d'Études PFERapport Projet Fin d'Études PFE
Rapport Projet Fin d'Études PFE
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
 

Ähnlich wie Système de recommandations de films

Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
Big Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxBig Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxKhadijaHaddaoui
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdfZkSadrati
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
CHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdfCHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdfamine17157
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
Présentation de Philippe Prat et Lorène Béchard
Présentation de Philippe Prat et Lorène BéchardPrésentation de Philippe Prat et Lorène Béchard
Présentation de Philippe Prat et Lorène BéchardAssociationAF
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Les outils de veille informationnelle
Les outils de veille informationnelleLes outils de veille informationnelle
Les outils de veille informationnelleAbou Aziz
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4jBoris Guarisma
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...Jean-Baptiste Dayez
 

Ähnlich wie Système de recommandations de films (20)

Big data
Big dataBig data
Big data
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Big Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxBig Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptx
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdf
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
CHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdfCHAP 1 PRÉSENTATION GENERALE.pdf
CHAP 1 PRÉSENTATION GENERALE.pdf
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Big data
Big dataBig data
Big data
 
Présentation de Philippe Prat et Lorène Béchard
Présentation de Philippe Prat et Lorène BéchardPrésentation de Philippe Prat et Lorène Béchard
Présentation de Philippe Prat et Lorène Béchard
 
Gm archivage bdd
Gm archivage bddGm archivage bdd
Gm archivage bdd
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Les outils de veille informationnelle
Les outils de veille informationnelleLes outils de veille informationnelle
Les outils de veille informationnelle
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
 
Offre Search
Offre SearchOffre Search
Offre Search
 
Sgbd oss-27012006
Sgbd oss-27012006Sgbd oss-27012006
Sgbd oss-27012006
 

Mehr von Ibn Tofail University

Mehr von Ibn Tofail University (9)

Dossier Sponsoring
Dossier Sponsoring Dossier Sponsoring
Dossier Sponsoring
 
Apache giraph
Apache giraphApache giraph
Apache giraph
 
Implémentation des principaux algorithmes de chiffrements en Java
Implémentation des principaux algorithmes de chiffrements en JavaImplémentation des principaux algorithmes de chiffrements en Java
Implémentation des principaux algorithmes de chiffrements en Java
 
Application d'analyses des Tweets
Application d'analyses des TweetsApplication d'analyses des Tweets
Application d'analyses des Tweets
 
Introducing project spartan
Introducing project spartanIntroducing project spartan
Introducing project spartan
 
Imagine cup maroc 2015
Imagine cup maroc 2015Imagine cup maroc 2015
Imagine cup maroc 2015
 
Youth spark Morocco
Youth spark MoroccoYouth spark Morocco
Youth spark Morocco
 
Reglement enactus fsk
Reglement enactus fskReglement enactus fsk
Reglement enactus fsk
 
Dossier de sponsoring SIFE FSK
Dossier de sponsoring SIFE FSKDossier de sponsoring SIFE FSK
Dossier de sponsoring SIFE FSK
 

Kürzlich hochgeladen

666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxssusercbaa22
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...M2i Formation
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptssusercbaa22
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptxMalikaIdseaid1
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptssusercbaa22
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 

Kürzlich hochgeladen (16)

666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.ppt
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptx
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 

Système de recommandations de films

  • 1. Système de recommandation de films avec Spark Machine Learning
  • 2. Sommaire • Problématique • Système de recommandation • Flask • Introduction à Hadoop • Introduction à Spark • Spark MLLib Collaborative Filtering • Démo
  • 3. Problématique Le nombre grandissant des produits a rendu le choix du consommateurs très dur, ajoutons à cela que les systèmes de recommandations des sites s’appuyent sur la popularité, d’autre part les solutions machines learning existantes qui se base sur Mahout, sont très couteuses. Le segment choisit pour notre sujet est la recommandation des films, qui est l’une des bases les plus critiques pour les distributeurs VOD et les services de streaming.
  • 4. Système de recommandation Un système de recommandation est une forme spécifique de filtrage de l'information visant à présenter les éléments d'information (films, musique, livres, news) qui sont susceptibles d'intéresser l'utilisateur. Un système de recommandation requiert 3 étapes : • Recueillir de l'information sur l'utilisateur. • Bâtir une matrice ou un modèle utilisateur contenant l'information recueillie. • Extraire à partir de cette matrice une liste de recommandations.
  • 5. Exemples • 30% du CA total d’Amazon est généré grâce au système de recommandation de produits. • Le succès de Netflix repose sur son système de recommandation de films.
  • 6. Technologies utilisées • Hadoop • Spark – Spark MLLib • Flask • Python
  • 7. Flask • Flask est un Framework open-source de développement web en Python. Son but principal est d'être léger, afin de garder la souplesse de la programmation Python, associé à un système de templates. • Celui-ci a été utilisé car notre code a été écrit en Python.
  • 8. Hadoop • C’est un framework Open source qui est le fruit d’un des progrès les plus significatifs dans l’automatisation de la parallélisation venu des travaux de Google. • Le noyau de Hadoop est constitué de la partie stockage HDFS ( Hadoop Distributed File System) et de la partie traitement MapReduce. • Hadoop fractionne les données en plusieurs blocs et les distribue à travers les nœuds du cluster.
  • 9. HDFS • HDFS assure une portabilité et peut être déployé sur différents systèmes d’exploitation. • HDFS est un système distribué ou chaque nœud d’un cluster correspond à un sous ensemble du volume globale de données du cluster. • HDFS utilise une taille de bloc fixée à 64 Mo • HDFS fournit un système de réplication des blocs dont le nombre de réplication est configurable
  • 10. Spark Spark est un Framework permettant de traiter de manières complexe de données de types variés. Par conséquent il se situe plus au niveau des étapes Map et Reduce. Spark se combine très bien avec des clusters Hadoop et permet d’appliquer des algorithmes complexes sur des données issues de ces clusters.
  • 11. RDD La notion centrale du Spark est le RDD ( Resilient Distributed Dataset): • Dataset : Il s’agit du jeu de données qui se parcourt comme une collection • Distributed : Cette structure distribuée afin d ‘être découpé pour être traité dans les différents nœuds • Resilient : Il pourra être relu en cas de problème
  • 12. Les fonctionnalités de Spark • Le Resilient Distributed Dataset (RDD) est un concept créé par les fondateurs de Spark. C'est sous ce format que sont gérées les données en Spark. Par défaut, lors de la lecture d'un fichier, les données sont manipulées sous forme d'un RDD de String où chaque élément correspond à une ligne du fichier. Il est ensuite possible d'effectuer des opérations sur le RDD. Il en existe deux sortes : • les transformations : elles transforment un RDD en un autre RDD (map, filter, reduceByKey) ; • les actions : elles transforment un RDD en une valeur (count, collect…). Il est important de noter que les transformations sont « lazy », c'est-à-dire que Spark n'exécutera les calculs demandés que si une action est appliquée à un RDD
  • 13. L’écosystème de Spark l’écosystème contient des librairies additionnelles qui permettent de travailler dans le domaine des analyses big data et du machine learning.
  • 15. MLlib: Une bibliothèque optimisée pour le calcul parallélisé • MLlib est la bibliothèque de Machine Learning de Spark. Tous les algorithmes de cette bibliothèque sont conçus de manière à être optimisés pour le calcul en parallèle sur un cluster. les performances deviennent extrêmement intéressantes lorsque les volumétries sont très importantes • MLlib a été conçu pour une utilisation très simple des algorithmes en les appelant sur des RDD dans un format spécifique, quel que soit l'algorithme choisi. L'architecture se rapproche ainsi de ce que l'on trouve dans la bibliothèque scikit-learn de Python
  • 16. Filtrage collaborative filtrage collaboratif est sous-jacent aux systèmes de recommandation. Il regroupe des techniques qui visent à opérer une sélection sur les éléments à présenter aux utilisateurs (filtrage) en se basant sur le comportement et les goûts exprimés de très nombreux autres utilisateurs Le recueil d’information joue un rôle crucial dans le processus, il peut être : • Explicite. L’utilisateur attribue des notes aux produit ou indique son appréciation (like). • Implicite. Recueil basé sur le comportement (achats, clics, durée sur une page).
  • 17. Par exemple Youssef Bilal soukaina Principe : les meilleures recommandations proviennent des individus qui présentent des goûts ou comportements similaires.
  • 18. • Point de départ. Nous devons disposer d’une base où les préférences d’un grand nombre d’utilisateurs sont disponibles. youssef bilal soukaina youssra Identifier les utilisateurs dont le profil de notes est le plus proche de Youssra. Se servir des notes de ces individus pour l’item n°4 pour estimer la note de Youssra. La recommandation ne tient absolument pas compte de la nature ou du contenu de l’item .
  • 19. Les éléments clés de l’algorithme sont : • Disposer d’une mesure de similarité ; • Décider du nombre de voisins ; • Calcul de la note agrégée, avec possiblement une pondération tenant compte de la proximité.
  • 20. Jeu de données • Nous avons utilisé un jeu de données qui contient 21 000 000 ratings, appliqués à 27000 films par 230000 utilisateurs. • Chaque ligne dans le jeu de données ratings est formatée comme suit : userId, movieId, rating. • Chaque ligne dans le jeu de données movies est formatée comme suit : movieId,Title, genres.
  • 22. Base initiale Base d’apprentissage Base de test Base de validation Construction d’un modèle et stockage mémoire simplement Prédiction
  • 23. Démo