2. Programme
1
4
9
1
2
Séance inaugurale:
révolution numérique;
besoins des entreprises;
cadre réglementaire;
éthique et normes.
3 blocs pédagogiques:
cours et TD
approfondissements et applications aux métiers de l’assurance
réalisation d’un projet individuel sur un sujet actuariel
Rythme: 2 jours par mois comportant à la fois cours et cas pratiques
début du projet à mi-parcours
3. Programme
A) Éléments logiciels et programmation Python ~ 18h
B) Datamining et programmation R ~ 18h
C) Algorithmique en Machine Learning et mise en situation ~ 24h
D) Fondements théoriques de l’apprentissage statistique ~ 24h
E) Machine Learning distribué et applications ~ 12h
F) Extraction, utilisation et visualisation des données ~ 18h
Approfondissements et études de cas pratiques ~ 40h
* nombre d'heures à titre indicatif
COURS ET TD
APPLICATIONS AUX MÉTIERS DE L ’ASSURANCE
4. Programme
A) Éléments logiciels et programmation Python ~ 18h
Objectif : Introduction au langage Python et sensibilisation aux
grandeurs informatiques pertinentes.
Eléments de programme :
Initiation à la programmation Python
Programmation objet, classes, héritage
Bibliothèque des méthodes statistiques usuelles
Eléments logiciels pour grandes bases de donnée
Hardware, performance machine et gestion de mémoire
Efficacité d'un algorithme
Complexité, accès mémoire, ordres de grandeur
5. Programme
B) Datamining et programmation R ~ 18h
Objectif : Présenter les outils classiques d'exploration de données, sous
un angle essentiellement descriptif. Ces cours permettra une remise à
niveau en R, en rappelant, durant les premières heures, les bases de la
programmation en R.
Eléments de programme :
Manipuler des données sous R: données continues, facteurs
(recodification), dates, heures
Bases de la programmation avancée en R
Méthodes non-supervisées
Analyse factorielle et détection de clusters
6. Programme
C) Algorithmique en machine learning et mise en situation ~ 24h
Objectif : Approche par mise en situation via la participation à un
concours type Kaggle. Présentation des différentes phases : exploration,
sélection/transformation des données, algorithmes d’apprentissage,
visualisation
Eléments de programme :
Etude de cas
Exploration/ Sélection / Transformation / Nettoyage des données
Principaux algorithmes de Machine Learning (contexte de Classification)
K-NN, Régression Logistique, SVM
Forêts aléatoires, Réseaux de Neurones
Boosting, Bagging
Procédures de validation / sélection de modèle
Visualisation
Retour d’expérience et analyse des résultats
7. Programme
D) Fondements théoriques de l’apprentissage statistique ~ 24h
Objectif : Présenter les fondements mathématiques des principales
méthodes de Machine learning
Eléments de programme :
Théorie de la décision, Perte, risque, risque empirique
Modèle statistique pour la classification binaire, Approches génératives
vs. discriminantes
Machine Learning, Méthodes paramétriques, perceptron, partitionnement
Algorithmes de classification de données massives, Convexification du
risque, boosting et SVM
Méthodes ascendantes et descendantes, Critères AIC et BIC
Régression linéaire: limites et améliorations : Parcimonie. Régression pas
à pas Approche par pénalisation: ridge, lasso... Modèles linéaires
généralisés, Méthodes de régression alternatives, Approche non linéaire:
polynômes locaux, ondelettes Régression PLS et CART
8. Programme
E) Machine Learning distribué et applications ~ 12h
Objectif : Pour passer à l’échelle, les algorithmes de Machine Learning
vus dans les cours précédents doivent être repensés. Un cadre efficace
est celui des algorithmes distribués où on utilise plusieurs entités de
calculs pour mener à bien l’objectif initial. L’objectif de ce cours sera de
présenter différents exemples d’algorithmes de Machine Learning
distribués
Eléments de programme :
Algorithmes distribués : généralités
Le cas de Map-Reduce
Applications en Machine Learning
9. Programme
F) Extraction, utilisation et visualisation des données ~ 18h
Objectif : Description des enjeux économiques et sociétaux de la
révolution numérique du Big Data. Présentation des architectures de
bases ou entrepôts de données, ainsi que des techniques d'exploration
associées pour la récolte des données. Sensibilisation aux questions
éthiques sous-jacentes, aux contraintes juridiques européennes et au
rôle de la CNIL. Présentation des principales méthodes de visualisation
des données complexes.
Eléments de programme :
Ecosystème des données massives
SQL vs NoSQL
Anonymisation de données, Protection des données personnelles, enjeux
économiques
Visualisation des données
10. Programme
APPLICATIONS AUX MÉTIERS DE L’ASSURANCE
Approfondissements et études de cas ~ 40h
Objectif : Présentations de sujets « métier » et mises en situation via des
interventions courtes, et techniques, (2 à 4 h) sur des thématiques
précises.
Exemple :
Cartographie et GPS
Géolocalisation et anonymisation
Traitement de données textuelles
Health monitoring
Détection de fraude
Applications en Génomique
Investissement séquentiel en gestion de portefeuille
...
11. Programme
APPLICATIONS AUX MÉTIERS DE L’ASSURANCE
Approfondissements et études de cas ~ 40h
Objectif : Présentations de sujets « métier » et mises en situation via des
interventions courtes, et techniques, (2 à 4 h) sur des thématiques
précises.
Exemples :
...
Enchère web
Réseaux de neurone & e-commerce
Calcul du capital économique en grande dimension
Vente d’assurance en ligne
Visualisation de données et réseaux sociaux
Biosécurité
Parallélisation massive pour la simulation Monte Carlo
13. Réalisation d’un projet
Les participants à la formation réaliseront un projet visant à exhiber
l'apport de ces nouvelles méthodologies statistiques et informatiques
pour la modélisation d'un phénomène actuariel
Projet réalisé sous le tutorat d’un membre du corps enseignant de la
formation
Projet réalisé sur la deuxième moitié de la formation
Rédaction d’un rapport et soutenance devant un jury de membres du
corps enseignant ainsi que l’ensemble de la promotion (sauf conflit trop
important pour cause de confidentialité).
14. Validation de la formation
Plusieurs examens ou QCMs au cours de la
formation, pour valider l’acquisition de blocs précis
de compétences en data science
Réalisation et soutenance d’un projet mettant en
application les compétences acquises à des
problématiques actuarielles
Obtention du diplôme Actuaire Data Scientist de
l’Institut du Risk Management