Les entreprises sont de plus en plus nombreuses à s’intéresser au big data : Beaucoup y voit le graal qui leur permettra de sortir de la crise. Oui mais voilà, les Big Data entrent dans des critères de volume, véracité, variété et de vélocité (4V) bien précis et tellement importants (voire même hors norme) qu’elles ne concernent finalement qu’une très faible partie des projets d’exploitation de données. Faut-il pour autant exclure les entreprises ou les projets dont les cas d’usage n’entrent pas dans ces critères ? Nous allons démontrer dans le cadre de cette session et sur la base d’exemples concrets comment les données, même en volume limité et aussi dispersées soient-elle, renferment un gisement de valeurs considérable pour l’entreprise : à condition de respecter certains fondamentaux et prérequis pour pouvoir les faire parler. Retour d’expérience avec Anne LAURENT, directrice du centre HPC@LR à Montpellier, centre de compétences dévolu au calcul intensif (High Performance Computing) Session présentée par le partenaire : Isiasoft.
Speakers : Fabienne Amadori (Isiasoft), Anne Laurent (CNRS )
4. Big Data,
l’un des plus grands défis informatiques de la
décennie
“Big data: The next frontier for innovation, competition, and
productivity” (McKinsey Global Institute).
7. Les « autres » données,
Un gisement de valeurs
“Information has become one of the most valuable assets that
organizations have.” (Gartner)
8. Dans la suite de cette session…
T d’horizon
our
Approche, étapes clés, arbitrages et écueils à
éviter
T concernés par le bigdata
ous
9. Réseaux de neurones
Régression logistique
Big Data
Business Intelligence
Data mining
Arbre de décision
2
Data Science
Machine learning
Régression linéaire
Data Visualisation
10. Cognitif
Optimisation
Analyse prédictive
Intuitif
Evolutif
BI Reporting
Quel est le meilleur choix ?
La meilleure action
Qu’est-il arrivé ?
Quand? Combien ?
…
Que va-t-il arriver ?
Quel va être l’impact
?
20. Consolidation et nettoyage des
données
Hétérogénéité technique
Hétérogénéité fonctionnelle
Hétérogénéité des déploiements
Véracité des données
Connaissance fonctionnelle….
27. De nombreuses stratégies, de nombreux algorithmes…..
Ranking strategies
InfoGain
ChiSquared
Algorithms
Neural Network
• MultiLayerPerceptron
Filtered
Decision Tree
SymmetricalUncert
• C4.5
ReliefF
OneR
Bayes Net