SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Downloaden Sie, um offline zu lesen
JUVENAL CHOKOGOUE
Les 6 métiers vers lesquels
s’orienter
TRAVAILLER DANS LE
BIG DATA
Plan du livre numérique
Introduction ........................................................................................................................... 4
1 – Définition sommaire du Big Data ..................................................................................... 5
1.1 – Le Big Data : l’accroissement du volume et variété des données créées ................. 5
1.2 – Le Big Data : la commoditisation de l’information..................................................... 7
1.3 – Le Big Data : la suppression des barrières à l’entrée ................................................ 9
2 – Les besoins réels des entreprises en matière de Big Data .............................................11
2.1 – La mise en place d’un Data Lab...............................................................................12
2.2 – L’industrialisation de l’analyse de données ..............................................................13
3 – Les 6 profils métiers du Big Data....................................................................................15
3.1 – L’ingénieur de données (Data Engineer)..................................................................16
3.2 – Le Data Scientist......................................................................................................17
3.3 – Le Growth Hacker....................................................................................................18
3.4 – Le développeur ........................................................................................................19
3.5 – L’administrateur .......................................................................................................20
3.6 – L’architecte ..............................................................................................................21
4 – Intelligence Artificielle & Big Data : les robots vont-ils détruire nos emplois ? .................22
4.1 – Richesse accrue par automatisation et élimination des tâches moins productives ...23
4.2 – Le dilemme du chômage paradoxal .........................................................................24
5 – Les 6 compétences de base à développer pour réussir dans le Big Data.......................26
5.1 – Le SQL.....................................................................................................................26
5.2 – La programmation....................................................................................................27
5.3 – La connaissance d’Hadoop......................................................................................28
5.4 – La communication....................................................................................................28
5.5 – L’esprit d’équipe.......................................................................................................29
5.6 – La capacité à se former continuellement en autodidacte..........................................29
6 – Q & A - l’auteur répond à vos questions .........................................................................31
7 – Conclusion......................................................................................................................33
Mentions légales
Cet ebook est une propriété exclusive de Juvénal CHOKOGOUE et a fait l’objet d’un
dépôt légal. Toute personne a le droit de le télécharger et de l’utiliser uniquement sous les
conditions listées ci-dessous :
- Vous avez le droit de copier ou d’intégrer partiellement le texte de l’ebook dans vos
propres travaux à condition de mentionner le nom de l’auteur, donc Juvénal
CHOKOGOUE ;
- L’intégration de tout le texte de l’ebook nécessite une permission écrite de l’auteur ;
- le contenu de l’ebook ne doit sous aucune manière que ce soit être modifié. Il doit rester
fidèle à sa version d’origine tel que téléchargé ;
- Les références aux marques, aux entreprises et aux universités citées dans cet ebook
n’ont en aucune façon que ce soit un but publicitaire, elles sont utilisées exclusivement à
des fins académiques et restent entièrement la propriété de leurs détenteurs ;
- Les marques citées dans cet ebook, les logos d’entreprises, sont des marques déposées
des entreprises en France, aux états Unis ou partout dans le monde ;
- Les conseils, les tableaux comparatifs, les benchmark de solutions et les prises de
position présents dans l’ebook représentent le point de vue personnel de l’auteur à la date
de publication. Aucun favoritisme n’a été fait lors des benchmarks et des comparaisons.
Etant donné la vitesse avec laquelle évolue le monde de la technologie et du Big Data,
beaucoup de ces conseils et tableaux peuvent devenir obsolètes après la publication de
cet ebook. Ainsi, bien que l’auteur ait pris tous les soins nécessaires afin de vous aider à
travailler dans le Big Data, il ne peut être tenu pour responsable des résultats négatifs
qu’auraient causé l’application de ces conseils après la date de publication de l’ouvrage ;
- En raison des changements rapides du marché, le contenu des sites Web fournis peut
être modifié ou changé, ou le site Web lui-même peut être indisponible. Donc, après la
date de publication de cet ebook, l’auteur ne peux vous donner aucune garantie quant à
la disponibilité des sites Internet fournis ;
- Il y’a de l'anglicisme dans cet ebook. C'est un choix personnel de l'auteur, qui veut par-là
conserver la fiabilité de la teneur sémantique des mots du jargon ;
- Toute personne qui exécutera un acte non-autorisé à l’égard de cet ebook (recopie de
tout l’ebook sans permission écrite de l’auteur, recopie partielle de l’ebook sans
mentionner l’auteur, utilisation commerciale) s’expose à des poursuites judiciaires
conformément aux dispositions du Copyright en vigueur en France, dans l’Union
Européenne et dans le monde.
Copyright 2018 © Juvénal CHOKOGOUE
Introduction
Le 21ème siècle a été témoin d’une explosion sans précédent du volume de données.
D’après le constat des experts, des institutions publiques et privés, 90 % des données
récoltées depuis le début de l’humanité ont été générées durant les 2 dernières
années. Le marché qualifie aujourd’hui de « Big Data » cette explosion de données.
En réalité, le Big Data est le reflet d’un changement plus profond : le passage d’une
ère industrielle caractérisée par l’électricité vers une ère Numérique caractérisée par
la donnée. Ce changement a entraîné de profondes modifications dans la société
contemporaine : modèles économiques à coût marginal décroissant, commoditisation
de la connaissance, décentralisation du pouvoir de création de l’information,
suppression des barrières à l’entrée, ubérisation de la société, Internet des Objets,
blockchains. Bref, aucun aspect de la société et de nos vies n‘y échappe.
Bien qu’effrayant à vue d’œil, ce changement est en réalité les prémices de grandes
opportunités. En chine, il y’a un proverbe qui résume très bien cela : « lorsque les
vents du changement souffle, certains construisent des moulins, tandis que d’autres
construisent des abris ». Le changement contient toujours des opportunités qui lui sont
inhérentes et le proverbe essaye de dire que les opportunités se perçoivent, elles
ne se voient pas à l’œil nu.
La manière de penser nécessaire pour « voir » les opportunités d’un changement est
ce que l’on appelle un paradigme (terme emprunté à Thomas Kuhn).
Dans cet ebook, nous allons vous aider à « voir » les opportunités cachées du Big
Data, au-delà du tapage médiatique et vous équiper des outils nécessaires pour vous
préparer à les saisir, notamment les profils métiers, le rapport entre les robots et le
travail, et les compétences à développer. Plus concrètement, à la fin de la lecture de
cet ebook :
- vous saurez où résident réellement les opportunités du Big Data ;
- vous saurez les métiers porteurs du Big Data vers lesquels s’orienter et celui qui
correspond à votre profil, à votre personnalité ;
- vous verrez en quoi les robots sont importants pour l’accroissement de la richesse
et comment ils créent de nouvelles opportunités pour vous ;
- vous saurez les 6 compétences essentielles que vous devez développer pour
réussir dans le Big Data ;
- et enfin, vous aurez la réponse à la plupart des questions que vous vous posez ;
De plus, l’ebook est accompagné d’une vidéo-conférence qui vous permettra d’aller
plus en profondeur et d’assoir les idées que nous partageons ici.
Puisse cet ebook vous mettre sur le chemin des opportunités du monde abondant
créé par la donnée ! Merci pour votre confiance et bonne lecture !
Juvénal CHOKOGOUE
1 – Définition sommaire du Big Data
C’est un fait, l’humanité produit tous les 2 jours autant de données qu’elle n’en
a générée depuis l’aube de la civilisation jusqu’en 2003. Selon les études de
l’IDC, cela correspond à 2 Go de données produits tous les jours par chaque
homme, femme et enfant sur la planète. Pour qualifier cette explosion massive
de données, le qualificatif « Big Data » a été adopté. Les entreprises sont en
train de comprendre progressivement les enjeux que représentent les données
qu’elles possèdent et beaucoup ont décidé d’y en tirer profit.
En juillet 2014 dernier, le gouvernement français, par la voie de l’ex ministre
Arnaud MONTEBOURG présentait les 34 plans de la Nouvelle France
Industrielle (NFI), un projet de ré industrialisation dont l’ambition est de
positionner la France stratégiquement sur le Big Data. Par ce projet, l’Etat
montre officiellement que malgré l’engouement médiatique qu’il y’a autour du
Big Data, la transition vers l’ère Numérique est bien réelle et les opportunités
du Big Data sont bel et bien existantes.
Au-delà de l’aspect volumique, le Big Data est d’abord et avant tout la face
cachée d’un iceberg, l’expression visible d’un changement plus profond : la
transition du monde industrielle vers le monde numérique. Ainsi, nous ne
pouvons pas parler du Big Data sans parler du Numérique. Le Numérique est
un phénomène et en tant que tel, il est très difficile à définir. Imaginez que l’on
vous demande de définir la pluie. Vous voyez qu’il vous sera difficile d’exprimer
en de termes clairs ce que c’est même si vous savez très bien ce que c’est. Il
en est de même avec le Numérique et tout autre phénomène. Dans ce cas, la
meilleure approche pour définir un phénomène consiste à le caractériser, c’est-
à-dire le définir par ses caractéristiques. C’est cette approche que nous allons
adopter.
Dans les évangiles, le jeune enseignant rabbinique originaire de Galilée dit
« lorsque vous voyez les feuilles des figuiers apparaître, vous savez que l’été
est proche ». Cette affirmation indique que tout comme on est capable de
caractériser une saison par certains signes, il est possible à partir de certains
signes de reconnaître un phénomène. Le Big Data est l’expression du
Numérique, c’est un phénomène qui se caractérise par 3 éléments majeurs :
l’accroissement du volume et variété des données créées, la commoditisation
de l’information, et la suppression des barrières à l’entrée.
1.1 – Le Big Data : l’accroissement du volume et
variété des données créées
La première caractéristique majeure du Big Data et sans doute la plus visible
de toutes est l’explosion des données. Dans le Numérique, la majeure partie
des activités humaines sont automatisées, c’est-à-dire traitées par des
ordinateurs. Cette automatisation génère un flux continu de données d’une
volumétrie sans précédente, estimée en 2020 à 40 000 exa-octets, ou 40 trillion
de giga octets (soit plus de 5200 giga octets pour chaque homme, femme et
enfant de la planète) par l’IDC (International Data Corporation).
Cette explosion du volume de données vient de l’utilisation des Smartphones.
Sur plus de 7 milliards d'êtres humains, 2,5 milliards de personnes sont
connectées à Internet et 1,8 milliard d'entre eux utilisent des applications de
réseaux sociaux. Selon les recherches du journal La Tribune, 1 habitant sur 3
est équipé d’un Smart Phone, soit un plus de 2 milliards d’individus de la
population mondiale. L’utilisation de ces Smartphones a littéralement explosé le
volume de données, données qui sont générées de plus en plus vite par des
internautes qui sont de plus en plus connectés et de plus en plus actifs. Les
Internautes utilisent leur Smartphone pour des activités diverses comme le
blogging, le micro-blogging, le passage des commandes et achats, la recherche
d’information, l’elearning, la mise à jour de leurs CV, la prise des photos, ou
encore l’enregistrement des vidéos. Des études d’IDC montrent les effets de
l’utilisation des Smartphones sur la quantité de données générée :
- L’augmentation des volumes de données capturées et stockées : selon la
« Digital Universe Study » de 2011, une étude annuelle menée par l’IDC :
« en 2011, la quantité d’information créée et répliquée surpassera 1.8 Zetta
Octets, croissant d’un facteur de 9 en juste 5 ans. » Rien qu’en 2011 déjà,
on peut constater que l’échelle de la croissance des données produites
surpasse la capacité raisonnable des Systèmes de Gestion de Bases de
Données Relationnelles traditionnelles, ou même la configuration matérielle
typique supportant les accès aux données basées sur les fichiers ;
- L’accélération rapide de la croissance des données : en juste 1 an plus tard,
c’est-à-dire en 2012, la même étude postulait que « de 2005 à 2020, l’univers
digital croitra d’un facteur de 300, de 130 exa octets à 40000 exa octets, ou
40 trillion de giga-octets (soit plus de 5200 giga-octets pour chaque homme,
femme et enfant en 2020). De maintenant à 2020, l’univers digital va à peu
près doubler tous les 2 ans ;
- Croissance du volume de données qui transitent sur les réseaux
informatique : selon l’Index annuel de prévision des réseaux établi par Cisco,
en 2016, le trafic IP global annuel est estimé à 1.3 Zetta octets. Cet
accroissement dans le trafic réseau est attribué à l’accroissement du nombre
des Smart phones, tablettes et autres appareils connectés à internet, la
croissance des communautés d’utilisateurs Internet, la croissance de la
Bande passante d’Internet et la rapidité offerte par les opérateurs de
télécommunication, et la prolifération de la disponibilité et de la connectivité
du Wi-Fi. Plus de données canalisées vers des canaux de communication
plus larges crée de la pression pour la capture et la gestion de ces données
de façon cohérente et rapide ;
- La croissance des différents types d’actifs de données pour les analyses :
comparé aux méthodes traditionnelles de capture et d’organisation des
données structurées, les analystes de données cherchent des moyens de
tirer profit des données non-structurées et d’acquérir les données d’une large
variété de sources. Certaines de ces sources peuvent refléter des éléments
de structure minimalistes (tels que les logs d’activité des serveurs Web, les
logs d’appels d’un centre appel), tandis que d’autres sont complètement non-
structurées ou même limitées à des formats spécifiques (tels que les
données des réseaux sociaux qui combinent contenu textuel, images, audio
et vidéo). Pour extraire un signal utilisable de ce bruit, les entreprises doivent
améliorer leurs approches structurées de gestion de données pour prendre
en compte la sémantique textuelle et l’analyse de flux de données ;
Du côté des entreprises, on note une nouvelle catégorie d’offre qui renforce cette
communion entre explosion de données et ubiquité de l’accès à Internet : les
objets connectés ou IoT (Internet of Things). L’Internet des objets consiste à
prendre le contrôle des objets de la vie courante comme un téléviseur, un
véhicule, une maison, par Internet. Pour ce faire, des capteurs sont intégrés dans
ces objets et ces capteurs génèrent un volume énorme de données qui est
ensuite exploitée. La perspective de l’IoT est plus large que l’intégration des
capteurs dans les objets connectés. Dans un futur proche, l’objectif sera de les
doter tous d’une adresse IP à travers laquelle on pourra les contrôler via Internet.
Le Gartner a dénombré 6,4 milliards d’objets connectés dans le monde en 2016,
et prévoit qu’il sera de 20,8 milliards en 2020. Les objets connectés sont une
source de génération de données en Streaming.
La gestion de cette volumétrie de données va exiger la conception et la mise au
point de nouveaux modèles de calcul distribués, et de nouveaux modèles
d’infrastructure informatique massivement parallèle.
1.2 – Le Big Data : la commoditisation de
l’information
La deuxième caractéristique du Big Data c’est l’explosion du niveau avec lequel
la population communique. Cela est dû à la combinaison de deux facteurs : la
mise à disposition d’Internet au grand public et l’émergence de l’utilisation des
Smartphones. Là où il a nécessité à la radio 30 ans pour atteindre une audience
de 50 millions de personnes, il n’a nécessité que 13 ans à la télévision, 4 ans à
Internet, 3 ans à l’iPad, et 2 ans à Facebook. L’ubiquité d’Internet et les
Smartphones ont permis à la population d’être connectée et de communiquer à
l’échelle mondiale par le moyen des réseaux sociaux. Sur plus de 7 milliards
d'êtres humains, 2,5 milliards de personnes sont connectées à Internet et 1,8
milliard d'entre eux utilisent des applications de réseaux Sociaux tels que
Twitter, Facebook, LinkedIn, Viadeo, etc. Les Internautes utilisent leur
Smartphone pour des activités diverses comme l’envoi de mails, le blogging, le
micro-blogging, le passage des commandes et achats, la recherche
d’information, l’elearning, ou encore la mise à jour de leurs CV. Cette activité
génère une quantité phénoménale de données. Selon Planetoscope, le site de
statistique mondial (http://www.planetoscope.com ) :
- Seulement en 2013, 183 milliards de mails ont été envoyés dans le monde
(hors-spam) chaque jour. C'est environ 2 115 000 mails par seconde ;
- Ce sont 2,46 millions de contenus qui sont partagés sur Facebook par
minute ;
- ce sont chaque seconde près de 39.000 recherches qui sont faites sur le
moteur de recherche Google par les internautes. Cela représente 3,3
milliards de requêtes sur le moteur de recherche Google par jour ;
- ce sont 72,9 achats qui sont faits sur le site d’Amazon en moyenne par
seconde ;
- ce sont 50 Million de Tweets qui sont postés par jour sur Twitter ;
Cette activité de communication d’échelle mondiale entraîne la
commoditisation ou banalisation de l’information. Désormais, l’information
est commode, c’est-à-dire accessible à n’importe qui et n’importe où. Cela
signifie que les possibilités d’apprentissage sont bien plus élevées et que
chacun peut désormais se former dans le domaine qu’il veut indépendamment
de sa localisation géographique (en particulier les pays défavorisés), et de son
niveau de revenu. D’ailleurs, selon Bill Gates, les ordinateurs et les technologies
vont propager les richesses plus équitablement entre la population [que les
programmes de macro-économie]. Force est de constater que nous ne pouvons
que suivre son sens. Il le dit en ces termes : « dans l’histoire de l’humanité, les
avantages technologiques provenaient de la disponibilité de certaines plantes,
animaux et localisation géographique. Dans la société numérique actuelle, les
ressources naturelles critiques sont l’intelligence humaine, la compétence et le
leadership. Toutes les régions du monde possèdent ces 3 ressources en
abondance, ce qui promet de rendre le prochain chapitre de l’histoire de
l’humanité particulièrement intéressant ». Cela remet en question le fondement
de beaucoup de nos institutions actuelles, en commençant par le système
académique fondé sur l’université, qui détenait jusque lors le monopole du
savoir et qui était l’institution légale d’accréditation des compétences. Les
tendances technologiques qui en émergent comme le Cloud Computing remet
en question les définitions actuelles de la notion de Territoire (avec le Patriot
Act), la notion de souveraineté des Nations, la notion de Liberté Individuelle,
entre autre. L’adaptation à l’ère Numérique va exiger la mise à plat de nos
concepts actuels et leur redéfinition.
1.3 – Le Big Data : la suppression des barrières à
l’entrée
La troisième caractéristique du Big Data est la suppression des barrières à
l’entrée. En économie, la notion de barrière à l’entrée fait référence à tout
élément susceptible d’empêcher des entreprises de se lancer dans un secteur
économique particulier. Il peut s’agir d’un prix trop bas, pratiqué par les
entreprises existantes du secteur pour empêcher des concurrents de s’y lancer.
Ce prix peut être tellement bas que vendre à ce prix n’est pas suffisant pour
couvrir ses coûts de production. Un autre élément qui peut constituer une
barrière à l’entrée ce sont les coûts fixes. Par exemple, dans l’industrie, les coûts
fixes sont tellement élevés que toutes les entreprises ne peuvent pas s’y lancer.
Plusieurs autres éléments peuvent constituer des barrières à l’entrée. Par
exemple la réglementation du secteur, les impôts à payer, les charges sociales
des employés, les procédures administratives, etc.
Le Big Data a renversé beaucoup de barrières à l’entrée et par là, favorise
l’entreprenariat. A des exceptions de quelques secteurs d’activité près, il est
désormais plus simple pour n’importe qui d’entrer sur le marché, de créer sa
propre entreprise et de rivaliser avec les entreprises existantes. Dans l’ère
industrielle précédente, la consommation était relativement stable et prévisible,
la capacité de baisser les coûts de transaction et les coûts de production étaient
suffisants pour qu’’une entreprise réussisse. A juste effet, Jean Baptiste SAY
l’un des économistes de l’ère industrielle a dit : « l’offre crée sa propre demande,
il ne peut y avoir de surproduction ». Le fait de pouvoir faire des prévisions
fiables sur la demande des consommateurs, sur les salaires et sur le coût des
matières premières, permettaient aux entreprises d’amortir leurs de coûts de
production à l’aide de la quantité produite (elles savaient qu’elles allaient vendre
toute leur production). Les entreprises fusionnaient entre elles et formaient des
conglomérats qui empêchaient toute entrée d’un éventuel concurrent dans le
marché et dont les capacités de production baissaient les prix et asphyxiaient
les concurrents de faible taille. Conséquence, le marché était constitué en
majorité de conglomérats monopolistiques. Mais ça, c’était avant !
L’économie de l’ère Numérique favorise l’entreprenariat et permet à n’importe
qui de créer sa propre entreprise. 2 facteurs principaux sont à l’origine de cela,
il y’a d’une part Internet, qui supprime les barrières géographiques et physiques
qui existent entre les individus et permet de produire des services qui peuvent
être offerts à l’échelle mondial sans augmentation des coûts de transaction,
fournit l’accès à la connaissance pour améliorer ses produits/services, et il y’a
d’autre part l’émergence des modèles d’affaire plus flexibles basés sur des
structures de coûts flexible, tel que le Pay-as-You-Go (ou paiement à l’usage,
est un modèle économique qui consiste à facturer uniquement à l’usage, sur la
base de l’abonnement à l’utilisation périodique d’un service) du Cloud
Computing, qui permet d’entrer dans le marché sans avoir à faire des
investissements important en termes d’infrastructure informatique, les modèles
économiques basés sur l’affiliation, etc.
Dans l’ère Numérique, la demande des consommateurs n’est plus aussi
prévisible qu’elle était dans l’ère industrielle, elle est en constante évolution, ce
qui pénalise les modèles économiques à coûts fixes élevés sur lesquels sont
bâties la plupart des entreprises traditionnelles. L’économie Numérique exige
des modèles économiques flexibles et en constante évolution. Un nouveau type
d’entreprises a compris cela : les start-up. Les start-up sont différentes des
autres entreprises pas par leur taille comme beaucoup le pensent, mais par le
fait qu’elles se réinventent constamment. Ainsi, une start-up n’est pas une
entreprise qui vient d’être créée, mais c’est une entreprise de grande ou petite
taille qui est en réinvention continue de son modèle d’affaire. Les start-up
profitent des avantages de l’ère Numérique, notamment de la disponibilité des
données et de la flexibilité de la structure de coûts offerts pour développer des
produits en aval de la chaîne de production et progressivement, par intégration
verticale, totalement pénétrer le secteur d’activité, jusqu’à en détenir le
monopole. Les GAFA (Google Apple, Facebook et Amazon), Uber, AirBnB sont
des exemples de succès des modèles de start-up qui ont menacés les lettres
par les mails, les CD par les téléchargements, les livres par l’e-book, le
commerce par l’e-Commerce. Ces nouveaux acteurs exhibent des modèles
économiques plus dynamiques, prompt à l’expérimentation et au changement,
ce qui leur permet de croître très rapidement. D’après les statistiques rapportées
par les travaux du CNNum (Conseil National Numérique), Sur les 100 premières
entreprises françaises, une seule a moins de 30 ans : Free. Sur les 100
premières européennes, 9. Sur les 100 premières américaines, 63 ! Ces
statistiques montrent que le modèle de réinvention continue de Start-up qui a
démarré aux USA dans la Sillicon Valley il y’a quelques années a réussi à faire
émerger en moins d’un siècle des petites entreprises en géants similaire (ou si
ce n’est plus grand) aux entreprises du CAC40, établies depuis bien fort
longtemps. La longévité et l’agglomération en conglomérats ne sont donc plus
des signes de sécurité pour les entreprises traditionnelles. La suppression des
barrières à l’entrée provoquée par le Big Data va forcer les entreprises
traditionnelles établies sur le marché depuis longtemps à se réinventer, ce qui
va les emmener à devoir s’interroger sur la mise en place de nouveaux modèles
économiques, l’exploitation innovante de la donnée, et le leadership qui va avec.
Toutes ces problématiques sont autant d’opportunités qu’il faudra saisir.
2 – Les besoins réels des entreprises en
matière de Big Data
En Juin dernier, le magasine informatique Le MagIT nous a posé la question
suivante :
Juvénal, votre ouvrage Hadoop – Devenez opérationnel dans le monde du Big
Data aborde le problème de la compréhension des technologies Hadoop. Selon
vous, les entreprises françaises ont-elles atteint un niveau de maturité suffisant
pour faire éclore des projets en production réelle, et non plus se cantonner aux
PoC sans vrai usage à valeur ?
En clair, le journaliste voulait savoir si au-delà des PoC (Proof of Concept), les
entreprises avaient réellement des besoins dans le Big Data. En tant que
consultant directement impliqué dans la valorisation des données dans les
entreprises, nous pouvons vous assurer que oui, les entreprises ont de réels
besoins en matière de Big Data !
Par contre, il faut noter que leurs besoins ne dépendent pas de leur niveau de
maturité sur le sujet, mais plutôt de leur niveau de prise de conscience sur la
façon dont elles peuvent utiliser les données pour améliorer leur business. A
cela, nous avons constaté que toutes les entreprises n’ont pas le même niveau
de prise de conscience. Il y’a d’une part les entreprises qui sont dans le Big
Data, mais ne sont pas focalisées sur l’avenir ; c’est dans ces dernières qu’on
retrouve plus de PoC. Celles-ci considèrent surtout le Big Data comme un levier
de réduction de coûts (notamment grâce à Hadoop) qui leur permet de gérer le
stockage de leur volume de données plus efficacement grâce à l’agilité qu’il
apporte. Et d’autre part, il y’a les entreprises qui sont résolument tournées vers
le futur. Ici, les entreprises sont sur des projets où le Big Data est
opérationnalisé.
Plus globalement, 9 milliards de dollars, c’est le chiffre d’affaires que devrait
générer le marché du Big data en 2014, selon une étude du cabinet
Transparency Market Research. Avec une croissance de près de 40 % par an,
le marché représenterait déjà plus de 246 milliards en 2016. Selon une étude
menée par DELL EMC en 2013, 74 % des entreprises en Européennes sont
convaincues de l’intérêt du Big Data et donc d'Hadoop pour leurs activités. Une
autre de ses études publiée en avril 2014 affirme que 41 % des entreprises de
taille moyenne ont désormais entamé un ou plusieurs projets impliquant
Hadoop. En France, le plan Big Data pour la Nouvelle France industrielle (NFI)
dont la feuille de route a été validée en juillet 2014, a déclenché une impulsion
économique émanant de l’État visant à développer la valorisation du « capital
donnée ». Ce plan de la nouvelle puise sa force de l’écosystème dynamique
des entreprises françaises et des grands groupes du CAC40. Orange, La Poste,
GDF Suez, Alstom, AXA, Société Générale sont autant d’entreprises qui ont été
sélectionnées pour participer aux grands travaux du plan initié par Arnaud
Montebourg, et désormais porté par François BOURDONCLE (cofondateur
d'EXALEAD, aujourd'hui filiale de Dassault Systèmes) et Paul HERMELIN
(PDG de CAPGEMINI au moment de l’écriture de cet ebook). Le projet repose
à ce jour sur 9 solutions qui couvrent l’économie des données, les objets
intelligents, la confiance numérique, l’alimentation intelligente, les nouvelles
ressources, les villes connectées, la mobilité économique, les transports de
demain et la médecine du futur. Autant vous dire que l'engouemenent pour le
Big Data est bien réel en France et partout ailleurs en Europe, pas au même
rythme qu’aux Etats Unis, mais il est bien réel. D’ailleurs, dans notre ouvrage
Hadoop – Devenez opérationnel dans le monde du Big Data, nous expliquons
2 projets Big Data qui ont été opérationnalisés : le projet Karma d’Air France et
le projet Smart Grid d’EDF.
Tout ceci est très macro. Concrètement, en ce qui vous concerne, les besoins
des entreprises en la matière tourne autour de 2 sujets : la mise en place d’un
data lab pour centraliser l’utilisation de données et l’industrialisation des
analyses de données (reporting, data mining, etc.) pour améliorer la prise de
décision.
2.1 – La mise en place d’un Data Lab
Le premier besoin majeur des entreprises en ce qui concerne le Big Data
actuellement est la mise en œuvre d’un point d’accès unique de la donnée de
toute l’organisation, ce qui passe naturellement par la mise en place d’un centre
de données. Certaines qualifient ce centre de Data Lab (laboratoire de
données), d’autres de Enterprise Data Hub (Hub de données), d’autres encore
de Data Lake (Lac de donnée). Vous avez compris l’idée.
Ce Data Lab est absolument nécessaire parce que dans beaucoup
d’entreprises, les données sont encore éparpillées entre ses différents services.
Ce problème porte le nom de silos de données. Cette dispersion des données
vient de la lassitude offerte par les tableurs et autres outils de manipulation de
données à la portée des utilisateurs finaux. Les données sont stockées dans
des feuilles calcul, ce qui entraîne une duplication de la même donnée au sein
de l’entreprise (on parle de « plusieurs versions de la vérité » - « many version
of Truth ») ; du coup il est impossible de déterminer si un utilisateur en particulier
détient la version véritable de la donnée ou pas. Plusieurs entreprises souffrent
encore de ce problème aujourd’hui. C’est l’explosion des données dans le Big
Data combinée à ce problème de silos qui pousse les entreprises à mettre en
place des approches centralisées de gestion et d’accès à la donnée. Les enjeux
associés sont :
- avoir une vision globale sur leur activité afin de soutenir la prise de décision ;
- répondre aux exigences de réglementation en vigueur. Par exemple dans la
banque, les réglementations Bâles forcent les entreprises à conserver un
historique de leurs données ; les réglementations Sarbannes Oxley ; et
récemment les réglementations RGPD (Réglementation Européenne sur la
Protection des données), qui oblige les entreprises à indiquer en cas de
demande par son client les données qu’elles possèdent le concernant.
Bien que ce soit aussi simplement expliqué, intégrer toutes les données d’une
entreprise (répartie dans plusieurs pays sur plusieurs continents) n’est pas une
mince affaire ! Donc, dans plusieurs cas, lorsque vous serez impliqué dans un
projet Big Data, il y’a de bonnes chances que vous soyez impliqué de prêt ou
de loin à la mise en œuvre du point unique de données, que vous en fassiez
partie de la chaîne ou que vous soyez directement impliqué techniquement dans
la mise en œuvre du Data Lab.
2.2 – L’industrialisation de l’analyse de données
Il est de coutume dans le milieu de dire « Big Data without Analytics is just
data », en d’autres termes : Le Big Data sans l’analyse n’est que la donnée. Le
Data Lab ne sert à rien si l’entreprise n’est pas capable de traiter toutes les
données qu’elle a réussi à intégrer. Ceci nous emmène au deuxième besoin
concret de celles-ci : l’industrialisation de l’analyse de données. De façon
générale, l’analyse de données, que certains appellent aussi Analytics, fait
référence à l'ensemble des moyens et techniques par lesquels on extrait de
l'information (et par ricochet la valeur) des données quel que soit leur source,
leur taille, ou même leur format.
Les techniques d'analyse de données varient tellement qu’aujourd’hui il y’a une
grande confusion sur ses différentes applications. Vous entendrez parler de
Machine Learning, Data Mining, Deep Learning, simulation, etc. Mais ce qui est
important est qu’au final, le but est de faire parler les données.
En matière d’analyse de données, les entreprises sont encore pour beaucoup
dans les reporting (comprenez par-là tableaux croisés dynamiques, les
croisements et agrégations de plusieurs sources de données. Sauf dans
quelques secteurs d’activités comme le secteur bancaire où des modèles de
scoring sont utilisés pour classer les clients en fonction de leur capacité à
rembourser les crédits ou pas, dans le secteur de la grande distribution, les
modèles de classification et de recommandation sont utilisés pour regrouper les
clients en fonction de leurs niveau de similarité et leur recommander des
produits sur la base de leurs consommations antérieures et celles des
personnes qui ont le profil similaire au sien. Sinon, à part ces quelques secteurs,
dans beaucoup de cas, les entreprises sont préoccupées par la performance
globale de leurs différents processus métiers et cela passe par la définition des
métriques de performance (KPI). L’industrialisation du calcul de ces KPI se fait
aujourd’hui principalement par lot à des périodes déterminées.
Avec le Big Data et la disponibilité de la puissance de calcul, les entreprises
explore le temps réel, l’industrialisation des modèles statistiques dans le but
d’être plus réactive. Ce qui leur empêche aujourd’hui de le faire c’est d’une part
les problèmes de silos de données évoqués plus haut, car il faut savoir que
l’efficacité et la pertinence des résultats d’une analyse de données dépend pour
une grande partie de deux choses :
- la qualité des données : les silos de données créent des doublons et des
versions incomplètes des données, puisque chaque utilisateur possède sa
propre version. Cela créé des problèmes d’incomplétude de données
(missing value) préjudiciable aux analyses de données. Avec le Big Data,
ces problèmes prennent une importance sans précédent. Un axe de
positionnement pour vous serait donc d’accompagner les entreprises sur
l’ingénierie des données, c’est-à-dire le travail de croisement, d’intégration
et de prétraitement qui vient en amont de l’analyse. Vous pouvez également
assister les entreprises dans la mise en œuvre des projets qui assure la
qualité des données (le MDM – Master Data Management).
- La précision du modèle d’analyse de données : un modèle est une
représentation simplifiée de la réalité. Il s’utilise lorsque l’on souhaite avoir
une vision macroscopique d’un phénomène. Pour cela, le modèle élimine
beaucoup de facteurs et n’en retient que les plus pertinents à la
représentation du phénomène. D’une manière globale, on dit d’un modèle
qu’il est précis s’il arrive à représenter de façon plus ou moins claire la réalité
qu’il modélise. En analyse de données, la modélisation permet de ressortir
les facteurs explicatifs essentiels d’une source de données. L’idée est de
comprendre le schéma selon lequel les données sont générées pour pouvoir
anticiper ses prochaines valeurs. Par exemple, supposons que vous avez la
liste de données suivante :
3 5 8
10 12 15
100 102 105
7 9 12
Vous remarquerez que chaque ligne de données est générée selon un
schéma précis. La valeur de la deuxième colonne est toujours égale à la
valeur de la première colonne plus 2, tandis que la valeur de la troisième
colonne est toujours égale à la valeur de la deuxième colonne plus 3. Dans
ce cas de figure, si on suppose que cette hypothèse (ce constat) est vraie,
alors il est facile pour nous d’anticiper que si la valeur de la première colonne
est égale à 4, alors la valeur de la deuxième sera égale à 6 et la troisième à
9. Le but d’un modèle de données consiste à ressortir ce genre de relations.
Plus il sera capable d’expliquer le schéma selon lequel les données sont
générées et plus il sera précis. Il existe plusieurs techniques de modélisation
de données, les techniques de régression, d’arbre de décision, de réseaux
de neurones, de machine à vecteur support, etc. Manipuler ces techniques
pour trouver le modèle le plus précis exige une certaine spécialisation. Vous
pouvez donc vous positionner sur ces sujets et aider les entreprises grâce
aux modèles que vous développerez à prendre des décisions efficaces.
Au-delà de l’industrialisation de l’analyse de données, les entreprises cherchent
également à rapprocher de plus en plus les utilisateurs métier aux analyses de
données : c’est la problématique de consommation de l’Analytics. Il y’a un
regain accru du côté de la visualisation des données pour la consommation par
les métiers des résultats des analyses de données. Donc vous pouvez aussi
vous spécialiser sur la visualisation pour aider les entreprises à faire parler leurs
données. Dans le point suivant, nous allons approfondir les 6 profils métiers
vers lesquels vous pouvez vous orienter pour vous lancer dans le Big Data.
Bien entendu, en dehors des besoins de mise en place d’un Data Lab et de
l’industrialisation des analyses de données, les entreprises ont d’autres besoins
dans le domaine du Big Data, mais ceux-ci sont les plus proéminents et les plus
immédiats.
3 – Les 6 profils métiers du Big Data
Techniquement, pour réussir à exploiter les « Big Data », l'idée n'est plus de
centraliser le stockage et le traitement des données sur un serveur, mais de
distribuer leur stockage et de paralléliser leur traitement sur plusieurs
ordinateurs. Cela est possible grâce à une technologie appelée Hadoop. C’est
Hadoop qui permet à Google de répondre aux 6 000 000 de requêtes qui lui
sont adressés par seconde, à Yahoo de gérer les 2 115 000 mails qui sont
envoyés par seconde dans le monde et à Facebook de partager 2,46 millions
de contenu par minute. Hadoop est en passe de devenir le standard de Facto
de traitement de données, un peu comme Excel est progressivement devenu le
logiciel par défaut d’analyse de données. Ainsi, travailler dans l’un des aspects
du Big Data va vous exiger d’une façon ou d’une autre à utiliser Hadoop.
Hadoop est un « Framework », c’est-à-dire un ensemble de briques logiciels
qui s’assemblent les unes aux autres comme des puzzles LEGO®
pour
résoudre un problème métier. Les outils Hadoop sont regroupés par catégories
et chaque catégorie correspond à une problématique métier, ce que nous
appelons un métier Hadoop. Une problématique peut faire appel à une ou
plusieurs de ces catégories. Ainsi, la montée en compétence sur le Big Data
implique en partie la montée en compétence sur au moins l’une des catégories
de technologies Hadoop, plus concrètement de se spécialiser dans ce que nous
appelons « un profil métier Hadoop ». Le profil de métier Hadoop fait
référence à votre usage d’Hadoop, en d’autres termes, à votre métier dans la
Big Data. En fonction des besoins des entreprises que nous avons cités plus
haut, les tendances du moment, notre expérience personnelle et les offres
d’emploi sur la Big Data, nous avons détecté 6 profils de métier en Big Data :
l’Ingénieur de données (Data Engineer), le Data Scientist, le Growth Hacker, le
développeur, l’administrateur et l’architecte. Si vous souhaitez véritablement
prendre le virage du Big Data, nous vous recommandons très sérieusement de
choisir un profil et de vous y spécialiser conformément aux instructions que nous
y avons données.
3.1 – L’ingénieur de données (Data Engineer)
Ce qui se cache derrière le terme « Data engineer » c’est l’idée d’un
professionnel spécialisé sur la gestion des données en utilisant Hadoop. En
d’autres termes, c’est quelqu’un qui sait se connecter à plusieurs sources de
données, croiser les données, effectuer des opérations de nettoyage de
données, des filtres, des jointures, gérer le stockage des données dans
différents bases de données, gérer divers sortes de formats de données. En
clair, l’ingénieur de données c’est celui qui maitrise les techniques de data
management. C’est lui qui aide les entreprises à venir à bout de leurs problèmes
de qualité de données évoqués plus haut. Dans le cadre d’Hadoop, il est
question pour lui de maîtriser l’utilisation des catégories d’outils SQL sur
Hadoop (Impala, Phoenix, HAWQ), les langages d’abstraction (HiveQL, Pig
Latin) et les bases de données NoSQL (HBase, HCatalog, MongoDB).
Concrètement, il sait écrire des requêtes SQL, HiveQL, Pig Latin pour
l’interrogation des bases de données, il sait connecter les systèmes de
Business Intelligence traditionnels des entreprises à Hadoop, il sait écrire des
requêtes complexes nécessaires pour résoudre des besoins métier de
Reporting, de calcul d’indicateurs, et d’exploitation de données à des buts de
Reporting, il sait interroger des bases de données et sait les exploiter pour
l’intégration des données de divers formats. Compte tenu de la diversité des
formats de données du Numérique et de l’explosion du volume des données, ce
profil est de plus en plus recherché. La figure suivante représente le cercle de
compétence de l’ingénieur de données.
Figure 1 : cercle de compétences de l'ingénieur de données avec le niveau par compétence
de base.
3.2 – Le Data Scientist
Il y’a eu beaucoup d’engouement autour de ce profil. A une époque, il était
même décrit comme étant le « mouton à 5 pattes de l’économie Numérique »
avant que le marché se rende compte que c’était exagéré. En réalité, C’est vers
ce profil que vous devez vous diriger si vous souhaitez aider les entreprises à
industrialiser ses modèles d’analyse de données conformément à leur second
besoin que nous avons évoqué précédemment. L’idée qu’il y’a derrière ce profil
de métier, c’est quelqu’un qui sait développer des algorithmes statistique pour
anticiper le comportement d’une variable, recommander des actions à effectuer,
ou catégoriser les données en fonction de leur degré de similarité. Les modèles
qu’il développe sont vitaux au fonctionnement de certaines entreprises, par
exemple dans l’e-commerce et les réseaux sociaux, c’est le Data Scientist qui
développe les algorithmes de recommandation qui tournent derrières les
« personnes que vous pourriez aussi connaître », les « produits que vous
pourriez aussi acheter », les « pages que vous pourriez aussi aimer ». Dans le
domaine de la banque, les data scientist développent des modèles de scoring
qui permettent de prêter ou pas l’argent à un individu, d’investir ou de ne pas
investir sur un projet. Etre Data scientist nécessite donc d’avoir une double
compétence sur le métier et en mathématique. Ce profil de métier est celui qui
est le plus en vogue sur le marché actuellement. Si vous souhaitez vous
orientez vers là, alors il vous faudra vous spécialiser dans l’apprentissage
statistique et l’utilisation des modèles de calcul d’Hadoop.
Figure 2 : cercle de compétences de base du Data Scientist
3.3 – Le Growth Hacker
Un autre métier tout aussi innovant du Big Data est le Growth Hacking, un métier
qui vient tout droit de la Sillicon Valley aux Etats Unis. Le Growth Hacker est
également un profil de métier Hadoop. Du terme Growth hacking qui veut
littéralement dire "bidouiller la croissance", le Growth Hacker est une personne
à l'intersection du marketing et Hadoop qui utilise des techniques de marketing
pour accélérer rapidement et significativement la croissance (Growth) d'une
entreprise, précisément d’une start-up. Il est à la base un professionnel du
Marketing, mais qui sait faire du développement logiciel. Il utilise les modèles
de calcul d’Hadoop, les outils SQL, les langages d’abstraction pour créer de
nouvelles fonctionnalités, son but n’est pas l’analyse de données pour des fins
décisionnelles, il cherche à créer de nouveaux produits à partir d’Hadoop et
comme les gens du marketing, il s'efforce de trouver des clients pour les
produits de l'entreprise; mais il le fait en utilisant des variantes de pages
d'accueil, des facteurs de viralité, et l'envoi massif de courriers électroniques. Il
modélise ses hypothèses et utilise Hadoop pour interroger les bases de
données régulièrement. Si l'entreprise n'a pas encore complètement développé
son produit, le Growth hacker fait en sorte que la viralité fasse partie du produit
même; si la startup a déjà un produit fini, il étudie précisément les données pour
découvrir ce qui marche dans le produit et permet d'optimiser la croissance. Ce
profil est très recherché dans les start-up et dans les entreprises à modèle
économique flexible qui ont le souci de se réinventer constamment.
Figure 3 : cercle de compétences de base du Growth Hacker
3.4 – Le développeur
Profil typique d’Hadoop, le développeur fait référence à un développeur logiciel
capable d’utiliser le Java, Scala ou tout autre langage évolué pour développer
des applications métiers qui vont s’exécuter sur Hadoop. Il sait écrire des
fonctions MapReduce en java, sait manier l’exécution parallèle des travaux sur
Hadoop, il sait faire du développement distribué, de la coordination de service,
gérer la tolérance aux pannes, rendre un système cohérent et peut même
réfléchir sur les futurs améliorations d’Hadoop. C’est l’un des rares profils à
pouvoir travailler sur pratiquement toutes les catégories des outils d’Hadoop
puisque son travail intervient en amont de ceux-ci. Ce profil est également très
recherché, et surtout en ce moment où les entreprises utilisent Hadoop pour
des fins d’évaluation. Si vous voulez vous orienter vers ce profil, il vous faudra
vous spécialiser sur le développement logiciel (principalement Java) et le
traitement distribué.
Figure 4 : cercle de compétences de base du développeur
3.5 – L’administrateur
L’administrateur fait référence à un profil de compétences lié à l’administration
d’Hadoop. Concrètement, l’administration d’ Hadoop consiste en les tâches de
constitution des ordinateurs sur lesquels Hadoop est installé (connexion des
ordinateurs, configuration, installation du système d’exploitation), d’installation
et de configuration d’Hadoop, d’ajout de nouveaux ordinateurs, de gestion des
défaillances (retrait des ordinateurs défaillants et remplacement par de
nouveaux, de provisionnement en ressources et en redimensionnement.
L’administration Hadoop consiste également à gérer les aspects sécuritaires,
l’attribution des autorisations et des niveaux de permissions aux différents
utilisateurs d ‘Hadoop. L’administrateur Hadoop sait utiliser les outils
d’administration d’Hadoop. Bien évidemment, pas la peine de vous dire que ce
profil est également un profil très recherché et qu’à chaque cas nécessitant
Hadoop, il y’a toujours besoin d’au moins un administrateur. Si vous souhaitez
vous orienter vers ce profil, nous vous recommandons de vous spécialiser dans
les domaines du réseau informatique, de la sécurité informatique et de
l’administration des bases de données.
Figure 5 : cercle de compétences de base d'un administrateur Big Data
3.6 – L’architecte
Un autre profil de métier sur Hadoop est l’architecte. Ce profil de métier plus
fonctionnel que technique fait référence d’une part à la capacité de décider des
briques Hadoop nécessaires pour la résolution d’une problématique précise, et
d’autre part à la capacité à intégrer cet ensemble à l’architecture informatique
existante de l’entreprise ou à la modifier de sorte qu’elle puisse s’intégrer avec
celle-ci. C’est plus un travail conceptuel et fonctionnel qu’un travail technique.
Habituellement, les architectes de ce type de profil travaillent dans l’urbanisation
des systèmes d’information, on les appelle souvent architectes des SI ou
urbanistes des SI. A la différence des architectes des SI qui fournissent la
cartographie du système d’information de l’entreprise, l’architecte Hadoop lui,
fournit la cartographie des outils Hadoop à utiliser, montre l’impact que cela aura
dans l’architecture du SI de l’entreprise et travaille avec les décideurs pour la
mettre en place. Si vous voulez suivre ce profil alors, nous vous recommandons
de vous spécialiser dans la gestion de projets, la maîtrise d’ouvrage et le
développement Hadoop en général.
Une fois que vous aurez choisi votre profil de métier, vous pourrez le développer
à l’aide d’un ou plusieurs programmes de certifications, ou encore d’un cursus
de formation tel qu’un Master ou une formation professionnelle. Plus bas, nous
allons vous fournir les six compétences que vous devriez développer pour
chacun de ses profils et nous présenterons dans un graphique radar le niveau
requis de chacune de ces six compétences par profil métier. Ainsi, vous serez
plus clairs dans votre quête pour vous lancer dans le Big Data. En attendant,
nous allons parler d’un sujet très sensible du moment : l’intelligence artificielle.
Plus précisément, nous allons vous montrer le rapport entre les robots et les
emplois dans le Big Data. Ceci vous aidera à comprendre pourquoi vous avez
besoin des compétences que nous évoquerons par la suite.
Figure 6 : cercle de compétences de base de l'architecte Big Data
4 – Intelligence Artificielle & Big Data : les
robots vont-ils détruire nos emplois ?
Cette question est très pertinente et beaucoup se le pose. A l’heure où les
progrès de l’intelligence artificielle ont permis de d’automatiser de nombreuses
tâches, supprimant au passage beaucoup d’emplois, la question de
l’automatisation se pose désormais. D’autant plus que l’intelligence artificielle
étant une discipline comme une autre dans la valorisation des données, la
précision de ses résultats dépend de la quantité et de la qualité du volume de
données à analyser, chose que le Big Data offre.
Il y’a beaucoup de confusions autour de ce qu’est véritablement l’Intelligence
Artificielle et à ce jour, il n’y’a pas de définition admise. Nous allons proposer
une définition sur la base d’interviews que nous avons eues avec des « vrais »
experts du domaine. Pour définir l’Intelligence Artificielle, il faut commencer par
définir l’intelligence. L'intelligence est la faculté de base de tous les êtres
vivants, c'est le raisonnement sur la connaissance, en d’autres termes, la
capacité à prendre une décision sur ce que l’on sait. A partir de cette simple
définition, on peut extrapoler et dire que l'intelligence artificielle c'est le
raisonnement automatisé appliqué à des bases de données ou des bases de
connaissance. Autant vous dire par cette définition que les champs d’application
de l’Intelligence Artificielle sont très vastes !! Il est possible d’automatiser un
grand nombre de processus métiers, puisque ceux-ci s’appuient sur des règles
de décision type si événement A alors action B, sinon si événement
C alors action D. Mais ce qui nous intéresse dans le cadre de cet ebook
c’est le futur de nos métiers. Malgré les opportunités créées par le Big Data, va-
t’on se retrouver remplacés par les robots ? Pour répondre à cette question,
nous allons aller du côté de l’économie.
4.1 – Richesse accrue par automatisation et
élimination des tâches moins productives
Dans l'économie industrielle, les biens et services étaient produits par
combinaison de la main d'œuvre et du capital. Cependant, l'avancée dans le
domaine de l'intelligence artificielle et l'automatisation des tâches par les robots
a entraîné un déclin de la part de la main d'œuvre dans ce processus.
Pour beaucoup, la robotisation - le remplacement des hommes par les
machines est effrayant. Ces personnes s’inquiètent de l’impact négatif de
l’automatisation des taches sur la société. Cependant, cette crainte est non-
fondée, parce que chaque fois qu’un humain est remplacé par une machine, la
société dans son ensemble devient plus riche. Oui, vous avez bien lu ! Chaque
fois qu’un robot remplace un être humain, la société devient plus riche !
Illustrons cela à l’aide d’un exemple très simple. Supposons une île auto-
suffisante habitée par 10 personnes qui vivent de la pêche d’un bateau collectif.
Les 10 personnes pêchent chacune à l’aide d’une canne à pêche. Supposons
maintenant qu’une innovation technologique en matière de pêche fasse son
apparition sur l’île : le filet de pêche. Dorénavant, à la place d’une canne, un
large filet est utilisé. Grâce à ce filet, désormais 2 personnes suffisent pour
pêcher autant de poissons que 8 cannes à pêche : une personne pilote le
bateau et l’autre jette le filet.
En surface, il semble effectivement que le chômage ait augmenté de 0 à 80%
avec l’arrivée du filet de pêche, puisque 8 personnes sur 10 sont maintenant
sans emploi. Cependant, bien que ces 8 personnes soient chômage, la société
dans son ensemble est toujours aussi riche qu’avant, puisqu’elle reçoit toujours
la même quantité de poissons que celle qui était pêchée par ces 8 personnes.
C’est exactement ce qui arrive chaque fois qu’un robot, une machine ou une
innovation technologique majeur remplace ou automatise le travail d’un humain.
A court terme, la société est toujours aussi riche parce qu’elle reçoit toujours le
produit du travail de l’humain qui a été remplacé par le robot, et dans le long
terme, elle sera même plus riche lorsque celui-ci trouvera un nouveau travail.
Maintenant la question qui se pose est comment gérer le problème de chômage
créé par l’automatisation du travail ? Dans l’exemple de notre île, le
gouvernement a deux options : soit il taxe à 80% les 2 personnes qui continuent
la pêche et redistribue entièrement ces 80% aux 8 personnes qui sont chômage.
Soit il aide les 8 personnes en chômage à trouver de nouveaux emplois.
Malheureusement, la première option est celle qui est appliquée aujourd’hui au
problème de la robotisation. Suivez mon regard…
Ce type d’accroissement de productivité massive (2 personnes faisant le travail
de 10) est ce qui arrive dans l’ère du Big Data. La majorité des emplois même
ceux de cadre que nous avons vont inévitablement finir automatisés demain.
Chaque fois qu’un travail salarié existe quelque part, gardez à l’esprit que ce
n’est qu’une question de temps avant qu’un entrepreneur chevronné trouve le
moyen de l’automatiser (Uber, Airbnb, McDonald, ça vous rappelle quelque
chose n’est-ce pas ?).
Dans le Big Data dans lequel nous sommes, la richesse est accrue par
automatisation et élimination des tâches les moins productives et création
d’emplois plus productifs. A mesure que l’innovation technologique
progresse, des emplois sont supprimés, le chômage augmente mais le PIB
reste constant parce que la société continue de recevoir les produits et services
des emplois détruits par le biais de la technologie. Par contre, le PIB va
drastiquement augmenter lorsque l’employé remplacé trouvera un nouvel
emploi. Ceci est le nouveau processus économique, technologique ou
alchimique nous avons envie de dire, par lequel la richesse est créé dans l’ère
du Big Data. Aussi mauvais que le chômage puisse paraître, il n’est que la
première étape du processus alchimique conduisant à la création de richesse.
Pour comprendre plus en profondeur ce rapport étroit entre l’innovation
technologique et la quantité de richesse créée, nous vous recommandons de
vous procurer l’ouvrage « Unlimited Wealth » de Paul Zane PILZER et de
consulter les travaux de Joseph Schumpeter sur le processus de destruction
créatrice.
4.2 – Le dilemme du chômage paradoxal
Le problème - ou le dilemme auquel fait face la société aujourd’hui - est le cycle
de chômage paradoxal par lequel plus de richesse est créé dans la société :
chaque année, alors que nous emplois sont détruits ou automatisés par
l’Intelligence artificielle ou autre technologie efficiente, on constate une forte
disparité grandissante dans notre population : l’employé qui perd son emploi est
de moins en moins celui qui en trouve. L’intelligence artificielle semble créer une
classe d’anciens employés qui manque les compétences nécessaires pour
décrocher les nouveaux emplois créés, et une autre classe d’employés dont les
opportunités semblent illimitées. Chief Digital Officer, Data scientist, Consultant
Big Data, Growth Hacker, sont autant de métiers créés par l’évolution
technologique qui ne sont pas nécessairement à la portée d’anciens employés.
De l’autre côté, dans l’industrie automobile, si vous étiez un mécanicien
expérimenté dans la réparation des carburateurs, vous seriez expulsés du
marché lorsque ceux-ci étaient progressivement remplacés par les injecteurs
de carburant. Le même raisonnement s’applique lorsque les tableaux de bord
mécaniques des véhicules étaient progressivement remplacés par des tableaux
de bord électroniques, etc. Clairement, les technologies évoluent tellement vite
que mettre à jour ses compétences par rapport à leur évolution est inutile.
Que faire lorsque votre emploi actuel sera obsolète demain à cause de
l’automatisation par un robot ? Tout d’abord, la solution ne consiste pas à
devenir un spécialiste. Lorsque vous vous spécialisez, surtout
technologiquement, vous prenez le risque d’être obsolète à peine quelques
mois ou années plus tard. Le temps moyen de péremption d’une technologie
aujourd’hui est estimé à 6 mois. Si vous étudiez bien les entreprises qui ont mis
les clés sous le paillasson comme Kodak ou les maisons de disques, vous vous
rendrez compte que la spécialisation, qui a pendant longtemps été leur point
fort est devenu avec l’évolution technologique leur point faible. Kodak n’a pas
pu s’adapter au changement de la pellicule vers le numérique, Nokia n’a pas su
s’adapter des téléphones à claviers aux smartphones. Les fabricants de
cassettes n’ont pas su s’adapter à l’arrivée de CD, etc. La solution consiste à
développer une compétence générique, une compétence qui vous permettra
d’acquérir de nouvelles compétences à mesure que la technologie
progresse. Par exemple, l’apprentissage d’une langue. La langue est une
compétence générique car elle vous permet de développer d’autres
compétences. Au lieu d’étudier Scala, étudiez la programmation fonctionnelle,
au lieu d’étudier Spark, apprenez la programmation distribuée, au lieu
d’apprendre Word 2016, apprenez le traitement de texte. L’idée est d’éviter de
fonder votre compétence sur la spécialisation sur une technologie et ainsi éviter
de « vous retrouver avec des compétences qui ne servent plus à rien » comme
l’a si bien dit Henri Steele Commager. Ce type de compétence générique qui
vous permet d’acquérir d’autres compétences est appelé par les économistes
les compétences de bases. Nous aimons les qualifier par compétences de long
terme.
Alors, à la question : « les robots vont t’ils détruire nos emplois », notre réponse
est oui ! Mais pas de panique ! Ils nous rendront proportionnellement riches et
créeront de nouveaux emplois. Par contre, cette nouvelle richesse et ces
nouveaux emplois ne seront accessibles qu’aux personnes qui ont su les
anticiper auparavant et développer les compétences de base nécessaires pour
les saisir. Dans le prochain point, nous allons vous indiquer précisément ces
compétences en question.
5 – Les 6 compétences de base à développer
pour réussir dans le Big Data
Le Big Data va de pair avec l’Intelligence Artificielle. Alors que celle-ci s’applique
à de nombreux secteurs d’activités, de nombreux emplois sont détruits.
Paradoxalement, de nombreux autres sont créés. Selon les estimations de
plusieurs cabinets de conseil et d’expertise, le Big Data va créer d’ici 2020 plus
de 4,4 millions d’emplois. Déjà une étude menée par Dell en 2013 montrait que
74% des entreprises européennes étaient convaincues de l’intérêt du Big Data
dans leurs activités. Une année après, une étude menée par CAPGEMINI
montrait que 43% des entreprises étaient en train de se restructurer pour saisir
les opportunités du Big Data dans les 3 années à venir. Ces chiffres montrent
que malgré l’engouement médiatique qu’il y’a autour du Big Data, l’opportunité
est bel et bien réel. Par ailleurs, par le projet de la Nouvelle France Industrielle,
le gouvernement espère la création de 100 000 emplois directs dans le Big Data
d’ici 2018. Autant vous dire donc que l’intérêt pour le Big Data est bien réel et
que l’opportunité est là. Quelles sont ces 6 compétences de base nécessaires
pour réussir dans le Big Data ? A titre de rappel, une compétence de base n’est
pas une compétence opérationnelle, c’est une compétence générique qui vous
permet d’acquérir d’autres compétences plus spécifiques et opérationnelles.
Dans le cadre de nos recherches, de notre expérience et des interviews avec
des entreprises, nous avons identifié 6 compétences de base : le SQL, la
programmation, la connaissance d’Hadoop, la communication, l’esprit d’équipe
et la capacité à se former seul(e).
5.1 – Le SQL
La première compétence de base indispensable pour travailler dans le Big Data
est le SQL. Le SQL est le langage de manipulation et d’interrogation des bases
de données relationnelles. Avec le rapprochement de l’Analytics aux métiers, il
est devenu plus que jamais le langage standard de requête et d’interrogation
des bases de données. Malgré les multiples tentatives de le déclasser, il a su
s’imposer sur le marché depuis plus de 20 ans comme étant le langage de choix
pour l’exploitation des données. Avec l’accroissement exponentiel du volume
de données auquel nous assistons, il n’est pas difficile de prédire qu’Hadoop, le
logiciel de traitement des données à grande échelle, va devenir la plateforme
standard de traitement de données, un peu comme l’est progressivement
devenu Excel peu de temps après l’essor des PC. Problème : à la différence
d’Excel, Hadoop n’a pas été conçu au départ pour être utilisé par les utilisateurs
métier, mais par les développeurs. Or, l’expérience a et continue de montrer
que l’adoption à grande échelle d’une technologie et son succès ne dépendent
pas des développeurs, mais des utilisateurs métiers (confère la loi de Metcalfe).
Pour qu’une technologie accroche les métiers, il faut absolument qu’elle soit
transparente pour eux, c’est-à-dire qu’elle ne leur demande aucune
compétence supplémentaire et Hadoop n’y fais pas exception. Aujourd’hui, en
matière de gestion de données, le SQL est la compétence favorite des métiers.
De plus, les entreprises utilisent de plus en plus le HDFS, le système de fichiers
distribué d’Hadoop comme répertoire de stockage central pour toutes leurs
données, données provenant pour la plupart des systèmes opérationnels
(comptabilité, marketing, finance, Ressources Humaines, etc.) ; la majorité des
outils d’exploitation de ces données (par exemple Business Objects, Oracle,
SAS, Teradata, Tableau, etc.) s’appuient sur le SQL. C’est pourquoi le SQL est
une compétence clé pour travailler et réussir dans le Big Data. La fondation
Apache a bien compris ce rapport étroit qui existe entre le SQL et les analystes
métiers, c’est pourquoi depuis qu’elle a repris Hadoop en 2009, elle s’évertue à
le rapprocher le plus que possible du SQL. Ainsi, la connaissance du SQL va
vous permettre d’utiliser les outils comme Hive, Impala, HawQ, Presto, qui sont
des outils qui permettent d’exécuter le SQL directement sous Hadoop. Bien
entendu, Hadoop, HDFS, Hive, HawQ, Presto, Impala dépassent largement le
cadre de cet ebook. Nous allons parlerons de façon très brève plus bas.
5.2 – La programmation
Le philosophe Ludwig Wittgenstein, disait déjà : « les limites de mon langage
signifient les limites de mon monde ». La maîtrise de la programmation dans un
langage évolué tel que Java, Scala ou Python est la deuxième compétence que
vous devez posséder pour réussir dans le Big Data. Malgré la large échelle
d’adoption du SQL dans le Big Data, celui-ci reste un langage déclaratif. En
d’autres termes, il donne la possibilité d’écrire ses programmes sous forme
d’instructions déclaratives qui indiquent le QUOI sans entrer dans les détails du
COMMENT. Ici l’utilisateur définit ce qu’il souhaite obtenir à l’aide d’un
ensemble d’instructions et de mots clés tels que SELECT, GROUP BY,
WHERE, et le moteur du langage se charge de traduire ces instructions en plan
d’exécution. Bien que cette approche permette de simplifier le développement,
elle a pour principal inconvénient de limiter la complexité des problèmes qui
peuvent y être exprimés. Les langages de programmation fonctionnelle telle que
Scala, ou Pig permettent d’écrire les applications sous forme de séquences
d’opérateurs qui permettent d’exprimer le cheminement nécessaire pour obtenir
son résultat. Ce style de programmation offre une plus grande flexibilité sur le
type de problème qui peut être exprimé par l’utilisateur. Des langages plus
évolués comme le Java ou le C++ permettent d’aller plus loin et de développer
de nouvelles fonctionnalités sous forme de procédures/fonctions qui s’appellent
les unes aux autres. Grâce à cette caractéristique, l’utilisateur peut gérer ses
programmes comme des projets applicatifs entiers et a un contrôle total sur leur
performance. Nous vous recommandons d’apprendre jusqu’à proéminence au
moins un type de programmation (fonctionnelle, objet, déclaratif) et un langage
de programmation. Quant à vous indiquer lequel, ce serait plus difficile, car le
niveau popularité des différents langages varie sans cesse. Actuellement, les
trois langages les plus populaires pour le Big Data sont : Java, Scala et Python.
5.3 – La connaissance d’Hadoop
De façon traditionnelle, la gestion des données consiste à centraliser le
stockage et le traitement des données sur un serveur placé dans une
architecture clients/serveur. Avec l’explosion du volume de données, pour
réussir à exploiter les « Big Data », l'approche n'est plus de centraliser le
stockage et le traitement des données sur un serveur, mais de distribuer leur
stockage et de paralléliser leur traitement sur plusieurs ordinateurs (un cluster).
Il existe plusieurs outils qui implémentent cette approche, mais Hadoop est
aujourd’hui l’outil le plus mature du marché et par conséquent le plus adopté.
D’ailleurs, avec l’intégration d’Hadoop au SQL, il n’est pas difficile de prédire
qu’il va devenir la plateforme standard de traitement de données, un peu comme
l’est progressivement devenu Excel peu de temps après l’essor des PC. Ainsi,
si vous souhaitez travailler dans le Big Data, il vous faut impérativement
connaitre le fonctionnement d’Hadoop. Attention, l’idée ici n’est pas d’être
expert, mais d’avoir les connaissances de base pour pouvoir l’utiliser à son
maximum. Hadoop représente un changement dans la manière d’aborder les
traitements de données. Il vous faut donc prendre le temps de comprendre en
quoi consiste ce changement.
5.4 – La communication
S’il y’a bien une compétence qui est très négligée aussi bien dans le monde de
la technologie que dans le monde du développement logiciel, c’est la
communication. La communication c’est l’art de transmettre de façon claire ses
idées à une audience. La communication est la capacité de transmettre ses
idées de sorte que les autres non seulement comprennent ce que vous dites
mais aussi le sens de ce que vous dites. C’est également la capacité d’écouter
et de comprendre les autres. Une communication est efficace lorsque les autres
membres de l’équipe perçoivent tous le sens du message transmis par le
destinataire. Tacler les problèmes du Big Data exige des compétences très
variées. Le mythe du mouton à 5 pattes que représentait le Data Scientist à
l’époque est tombé. Les entreprises ont compris que si elles veulent
véritablement saisir les opportunités du Big Data, il est plus réaliste de se
constituer des équipes pluridisciplinaires (équipes composées de compétences
différentes, mais complémentaires) composées de professionnels de différents
métiers que d’essayer de recruter une super star. Dès lors, on assiste de plus
en plus à des projets Big Data regroupant des métiers de différents pôles de
l’entreprise. Par exemple, vous aurez dans la même équipe des développeurs,
des analystes marketing, des administrateurs, des chefs de projets, des
infographes et des managers. Cette approche d’équipe pluridisciplinaire porte
même un nom : le DevOps. Avec l’approche DevOps prenant de plus en plus
d’ampleur, il devient crucial pour les membres d’une équipe de pouvoir
communiquer de façon à ce que des personnes issues de métiers différents
puissent comprendre et que le projet soit livré dans les délais. Ainsi, si vous
voulez réussir en Big Data, au-delà des qualifications techniques comme le
SQL, Java, Scala ou Hadoop, nous vous recommandons fortement de
développer et d’affiner continuellement vos capacités communicationnelles.
Vous en aurez besoin pour communiquer aussi bien avec les directeurs, les
managers, les techniciens que les commerciaux. De plus, cette compétence
transverse vous aidera dans plusieurs autres domaines de votre vie non reliée
aux activités professionnelles.
5.5 – L’esprit d’équipe
En plus de devoir aimer travailler dans des équipes mixtes, en Big Data, il est
également très important d’avoir l’esprit d’équipe, d’apprendre des autres
membres de l’équipe et de leur enseigner ce que vous savez. Aujourd’hui, la
technologie évolue très rapidement, les entreprises rencontrent des nouveaux
challenges tous les jours. Vous devez donc avoir la capacité de collaborer avec
les autres membres de l’équipe sur une base régulière, combiner vos forces
avec les leurs afin d’avoir une vision 360° et de pouvoir bénéficier de l’effet de
MasterMind. A titre explicatif, l’effet MasterMind c’est l’effet synergétique
provoqué par la concentration combinée de plusieurs personnes.
5.6 – La capacité à se former continuellement en
autodidacte
Dans l’âge industrielle, l’âge moyen de la retraite était de 65 ans parce qu’à cet
âge, les individus étaient trop fatigués pour soulever les pneus et placer les
moteurs dans les véhicules dans les lignes d’assemblages. Aujourd’hui, on est
techniquement obsolète et prêt pour la retraite tous les 18 mois, qui représente
le rythme avec lequel la technologie évolue aujourd’hui. L’ère Numérique est
résolument une ère autodidacte, une ère où chacun apprend de lui-même que
de ses parents comme c’était le cas dans l’ère agraire ou de la fac comme c’était
le cas dans l’ère industrielle. Il est bien connu en vertu de la loi économique de
la rareté que le salaire d’un individu n’est pas fonction de son ancienneté ou de
son niveau d’expérience comme on le pense intuitivement, mais de sa rareté.
Cependant, dans le Big Data, la rapidité des progrès technologiques fait qu’il
est de plus en plus difficile d’être rare (ou de se différencier). Les technologies
évoluent tellement vite qu’il est devenu inutile de suivre leur évolution. Lorsque
vous vous spécialisez technologiquement, vous prenez le risque d’être obsolète
à peine quelques mois ou années plus tard. Le temps moyen de péremption
d’une technologie aujourd’hui est estimé à 6 mois et il est établi que la moitié
des technologies qu’un étudiant en informatique apprend lors d’un programme
de Master est démodé lorsqu’il arrive à la troisième année du programme
d’étude. Ceci n’est pas juste propre au Big Data. Prenez l’industrie automobile
par exemple, lorsque les entreprises quittent des véhicules de moteur à
combustion pour les remplacer par les moteurs à injection, que pensez-vous
qu’il se passe pour toutes les personnes qui sont spécialisés dans la
maintenance des moteurs à explosion ? Bien évidemment, elles sont
précipitées au chômage. De même, lorsque le tableau de bord mécanique des
véhicules est progressivement remplacé par des tableaux de bord
électroniques, est-il difficile de deviner ce qui arrive aux spécialistes des
tableaux de bord mécaniques ? Comme nous l’avons souligné plutôt, face à
cette rapide recrudescence technologique, le succès exige de posséder les
compétences de base. Au lieu de vous spécialiser, il faut développer des
compétences conceptuelles qui vous permettront de vous adapter à tous les
futurs changements dans votre marché. Par exemple, au lieu d’apprendre la
programmation en Scala, vous apprendrez la programmation fonctionnelle. Au
lieu d’apprendre Hadoop, vous apprendrez les principes et les architectures de
calcul distribué. Donc, dans votre apprentissage autodidacte, éviter de tomber
dans le piège de la technique, la recherche rapide du concret. Restez
conceptuelle dans un premier temps, développez des compétences génériques
pour comprendre le socle des technologies que vous allez apprendre. Ce n’est
qu’une fois que vous l’aurez fait que vous pourrez décider de développer vos
compétences sur une technologie particulière.
Nous allons maintenant répondre à des questions que vous vous posez en ce
qui concerne votre orientation dans le Big Data, votre carrière et vos
préoccupations. La majorité de ces questions m’ont été posées par des
journalistes, nos lecteurs et par les participants de la conférence jointe à cet
ebook que nous avons eu en Novembre dernier avec les éditions ENI sur le
thème « les clés pour saisir les opportunités du Big Data ». Nous vous
enverrons le replay audio de cette conférence dans votre mail dans quelques
jours.
6 – Q & A - l’auteur répond à vos questions
La réponse à quelques questions fréquentes qui m’ont été posées lors de la
conférence sur les 6 clés du Big Data et qui me sont régulièrement posées par
les journalistes.
1) Que conseillez-vous à une personne débutante dans cet univers ?
La première chose que je conseillerais à quelqu’un qui veut se lancer dans le
Big Data c’est de se procurer l’ouvrage « Hadoop – Devenez opérationnel dans
le monde du Big Data ». L’ouvrage vous aidera à avoir une vision globale aussi
bien technique que stratégique du Big Data.
Si vous voulez monter en compétence dans l’univers d’Hadoop et le Big Data,
nous vous recommandons de choisir votre profil métier et de développer les
compétences exigées par ce profil métier. Cela vous permettra de ne pas
disperser vos efforts et d’être spécialisé sur un métier du Big Data bien précis.
A titre de rappel, les 6 profils métiers que vous retrouverez d’ailleurs dans notre
ouvrage sont les suivants : Data Engineer, Data Scientist, Développeur,
Architecte, Administrateur et Growth Hacker. Dans l’ouvrage, nous présentons
ces profils métiers donnons les recommandations nécessaires (formations,
certifications, aptitude, orientation, demande sur le marché, exigences, etc.)
pour faire la transition vers ces profils.
2) Pouvez-vous décrire, en vous basant sur votre expérience, comment se
passe un projet Hadoop et quels talents sont mobilisés ?
Bonjour David, bien sûr ! Hadoop est utilisé dans les projets qualifiés de « Big
Data » pour aider les entreprises à traiter leurs volumes massifs de données. A
ce jour, il n’y’a pas de consensus arrêté pour caractériser ce qu’est un projet
« Big Data », mais en général ce sont des projets de traitement et de
valorisation de données pour la détection de nouvelles opportunités pour
l’entreprise. Ce type de projet requiert plusieurs types de talents, spécialement :
les managers, qui définissent l’orientation du projet et mettent à disposition le
budget nécessaire pour conduire le projet, les chefs de projet, pour superviser
l’exécution du projet et sa livraison dans les délais impartis, les chargés de MOA
pour la définition des uses cases métiers à implémenter et la vérification de la
conformité des applications développées aux exigences métiers, les Data
Engineers, pour le développement des applications de d’intégration et de
traitement de données, les data scientist pour le développement de modèles
statistiques et de machine Learning qui font parler les données, les architectes
et les administrateurs pour l’administration de la plateforme Hadoop. Notez que
toutes ces compétences ne sont pas nécessairement requises pour tous les
projets Big Data, tout dépend des objectifs de l’entreprise, de son budget et de
son management. Dans certains projets, Hadoop est juste utilisé pour
développer des PoC, auquel cas il n’est pas nécessaire de mobiliser toutes ces
compétences.
3) Business Intelligence et Hadoop, est-ce le même monde ? Une
personne spécialisée en BI sera-t-elle perdue dans un monde Big Data ?
On va dire que c’est le même but, mais ce n’est pas la même approche. En
business Intelligence, on cherche à améliorer la performance selon le schéma
classique « Sources de données -> ETL -> Data Warehouse -> Cubes OLAP -
> Analytics/Reporting ». Avec Hadoop, on est dans une approche massivement
parallèle où Hadoop fait office aussi bien de socle de stockage que de moteur
de traitement. Une personne spécialisée en BI en fonction de sa préférence
(ETL, OLAP, Reporting) aura plus ou moins de mal à monter en compétence en
Big Data. Après, tout dépend. Il est tout à fait possible de transférer sa
préférence de la BI au Big Data. Par exemple, si en BI vous étiez spécialisé sur
l’écriture des requêtes, il vous sera facile de vous spécialiser sur l’écriture des
requêtes SQL en Hadoop. En fait, l’apprentissage en Big Data se fait selon un
profil métier. Il vous faut juste choisir le profil métier qui vous convient et suivre
les recommandations que nous donnons pour développer vos compétences.
Dans notre ouvrage, nous présentons ces profils métiers (il y’a en a 6) et nous
donnons les instructions nécessaires pour faire la transition vers le Big Data.
4) Pensez-vous qu'Hadoop pourra être totalement délaissé dans le futur ?
Vous savez, un contemporain a dit une fois que l’art de la prédiction est
extrêmement difficile surtout en ce qui concerne la technologie, ce qui est vrai.
Toutefois, , nous avons la certitude qu’Hadoop va devenir la plateforme
standard de traitement de données un peu comme Excel l’est devenu dans les
années 90 jusqu’aujourd’hui. Pourquoi ? Tout simplement parce que
l’expérience a montré à mainte reprise et continue de montrer que l’adoption à
large échelle d’une technologie dépend des métiers, et non des développeurs.
C’est surement guidé par ce constat que Bob Metcalfe a énoncé sa fameuse
loi qui porte son nom : « la valeur d’une technologie est proportionnelle au carré
du nombre de personnes qui l’utilise ». Ainsi, pour reconnaître les technologies
du futur, il faut juste voir si elles remplissent les conditions pour être adoptées
à grande échelle par les utilisateurs métiers. La condition siné quanon
d’adoption d’une technologie à large échelle est la transparence à l’utilisateur.
En d’autres termes, pour qu’une technologie soit adoptée à large échelle, il ne
faut pas qu’elle requiert à l’utilisateur plus de compétences qu’il n’en possède.
Aujourd’hui, le SQL est un langage très transparent et très utilisé par les métiers.
Ainsi, pour qu’une technologie de données leur séduise, il faut absolument
qu’elle leur donne la possibilité d’utiliser le SQL. En plus d’être mature et stable,
Hadoop est l’une des rares technologies du Big Data complètement intégré au
SQL, ce qui fait qu’elle ne risque pas d’être délaissée d’aussitôt !
5) Hadoop est souvent associé à une sphère de technologies variées. Pour
n’en citer que certains, Spark, Flink, Kafka, Storm, floutant quelque peu la
frontière fonctionnelle entre chaque composant. N’est-ce pas un frein à
l’apprentissage et comment faire pour s’y retrouver ?
En effet, à la base, Hadoop n’a pas été conçu selon une approche « one-size-
fits-all », c’est-à-dire comme un logiciel qui va fournir toutes les fonctionnalités
à tous les uses cases possibles du Big Data, mais selon une approche
modulaire. C’est pourquoi on dit qu’il est un « framework ». Cette approche a
l’avantage de favoriser le développement des solutions spécifiques à une
problématique Big Data précise tout en gardant le même socle technologique
qui est Hadoop. L’ensemble des solutions qui gravitent autour d’Hadoop
aujourd’hui constitue ce qu’on appelle l’écosystème Hadoop. C’est
généralement le manque de compréhension de ce fait qui entraîne la confusion
et freine l’apprentissage. Dans l’ouvrage, nous expliquons que le
développement d’une solution en Hadoop est similaire à l’assemblage de
plusieurs puzzles LEGO. Il faut savoir combiner l'ensemble des solutions de
l’écosystème de manière à ce que cet ensemble réponde au besoin de la
problématique métier considérée. Ainsi, l’apprentissage d’Hadoop ne va pas se
faire solution par solution ou logiciel par logiciel, mais selon ce que nous avons
qualifié dans l’ouvrage de profil de métier Hadoop. Le profil de métier Hadoop
fait référence aux compétences relatives à un ensemble spécifique d’outils de
l’écosystème Hadoop pour répondre aux besoins d’une problématique métier
précise.
Vous trouverez la suite de ces questions dans la vidéo conférence jointe à
l’ebook.
7 – Conclusion
Comme vous pouvez le voir, un vrai changement est en cours, le Big Data est
bien là et apporte des opportunités qui sont bel et bien réelles. Ceux qui seront
proactifs, sortiront de leur zone de confort choisiront leur profil et développeront
les compétences que nous avons énoncées dans cet ebook bénéficieront
professionnellement, socialement, et financièrement des opportunités que le
Big Data a à offrir. Ceux qui ne sortirons pas de leur zone de confort et
continuerons à procrastiner ou nier l’évidence du Big Data finirons surpris et
frustrés de n’avoir pas réagi suffisamment à temps. Souvenez-vous, 100 000
emplois directs sont prévu par le gouvernement cette année seulement. Nous
avons écrit cet ebook pour vous rendre conscient des opportunités qui existent
dans le Big Data et pour vous orienter dans vos choix de carrière et d’orientation.
Maintenant, notre prière pour vous est que vous prenez les devants et
embrassiez le monde fabuleux dans lequel nous vivons actuellement, le monde
du Big Data ! Nous avons rédigé l’ouvrage « Hadoop Devenez opérationnel
dans le monde du Big Data » pour vous accompagner dans le développement
de ces 6 compétences. Plus précisément, l’ouvrage « Hadoop Devenez
opérationnel dans le monde du Big Data » va vous munir des compétences de
long-terme dont vous aurez besoin pour travailler dans le Big Data. Vous y
retrouverez 3 chapitres entièrement consacré au fonctionnement d’Hadoop ; le
chapitre 7 vous aidera à développer les compétences nécessaires pour écrire
et exécuter du SQL sur Hadoop et le chapitre 11 vous aidera à développer l’état
d’esprit d’abondance que vous devez avoir pour détecter les opportunités du
Big Data et aider votre entreprise à faire la différence sur son marché. Si vous
êtes vraiment déterminés à vous lancer dans le Big Data, alors n’hésitez pas à
vous le procurer.
Vous pouvez consulter les articles dans lequel est paru l’ouvrage dans les
magazines suivants. Vous pouvez également lire les commentaires sur pour
voir ce que les lecteurs en pensent : https://commentaires_EIHADto/2V2p
Votre avis compte !
Cher lecteur, encore une fois, merci de vous être procuré cet ebook « Travaillez
dans le Big Data : les 6 métiers vers lesquels s’orienter ». Nous espérons qu’il
a répondu à vos exigences et qu’il a rempli ses 3 promesses à votre endroit à
savoir :
- vous rendre conscient des opportunités disponibles pour vous dans le Big
Data ;
- vous orienter dans votre choix de carrière Big Data
- vous indiquer les profils métiers et les compétences que vous devez
développer pour réussir dans le Big Data.
Maintenant que vous avez fini sa lecture, n’hésitez pas à en parler autour de
vous, de le recommander à ceux qui peuvent en avoir besoin.
N’hésitez pas également à entrer en contact avec nous, nous voulons être
connectés avec vous, nous serons ravis de connaitre ce que vous avez apprécié
ou pas de l’ebook, de répondre à vos questions et de vous aider à progresser
dans l’acquisition de vos nouvelles compétences. Pour entrer en contact avec
nous, vous pouvez :
- visiter le site web dédié au projet dans lequel fait partie l’ebook :
http://www.data-transitionnumerique.com/hadoop
- Nous écrire directement sur l’adresse :
contact@data-transitionnumerique.com
Vous pouvez également nous contacter sur les réseaux sociaux via :
- Facebook: https://www.facebook.com/transitionnumerique
- Twitter projet : https://twitter.com/DataTransNume/
- Twitter auteur : https://twitter.com/Juvenal_JVC
- Linkedn auteur : https://fr.linkedin.com/in/juvenal-chokogoue
N’hésitez pas à utiliser ces supports pour tous vos besoins, nous serons ravis
d’entrer en contact avec vous et de répondre à toutes vos questions.
Nous vous encourageons également à laisser un commentaire sur Amazon ou
sur le site où vous avez téléchargé l’ouvrage. Cela nous permet de prendre en
compte votre niveau de satisfaction pour les futures éditions de l’ebook et cela
rassure les éventuelles personnes dans leur décision d’acquérir ou pas l’ebook.
Merci d’avance pour votre collaboration.

Más contenido relacionado

Ähnlich wie elivre - Travailler dans le Big Data V1.pdf

Livre blanc quels outils de veille pour demain promo 16 icomtec intelligenc...
Livre blanc quels outils de veille pour demain   promo 16 icomtec intelligenc...Livre blanc quels outils de veille pour demain   promo 16 icomtec intelligenc...
Livre blanc quels outils de veille pour demain promo 16 icomtec intelligenc...Maxime LEROUX
 
#PortraitDeStartuper #23 - Luko - Raphaël Vullierme
#PortraitDeStartuper #23 - Luko - Raphaël Vullierme#PortraitDeStartuper #23 - Luko - Raphaël Vullierme
#PortraitDeStartuper #23 - Luko - Raphaël VulliermeSébastien Bourguignon
 
Livre Blanc "L'humain dans le numérique et le big data" du comité scientifiqu...
Livre Blanc "L'humain dans le numérique et le big data" du comité scientifiqu...Livre Blanc "L'humain dans le numérique et le big data" du comité scientifiqu...
Livre Blanc "L'humain dans le numérique et le big data" du comité scientifiqu...Alban Jarry (Bibliothèque de Documents)
 
Thèse 2009 Anne-Laure Payet
Thèse 2009 Anne-Laure PayetThèse 2009 Anne-Laure Payet
Thèse 2009 Anne-Laure PayetAnne-Laure Payet
 
Impact des reseaux_sociaux_sur_l_economie_greenivory_livre_vert_
Impact des reseaux_sociaux_sur_l_economie_greenivory_livre_vert_Impact des reseaux_sociaux_sur_l_economie_greenivory_livre_vert_
Impact des reseaux_sociaux_sur_l_economie_greenivory_livre_vert_Celine Haidamous
 
Livre blanc "Big Data et Réseaux Sociaux : mythes & réalités – la déclinaison...
Livre blanc "Big Data et Réseaux Sociaux : mythes & réalités – la déclinaison...Livre blanc "Big Data et Réseaux Sociaux : mythes & réalités – la déclinaison...
Livre blanc "Big Data et Réseaux Sociaux : mythes & réalités – la déclinaison...Alain GARNIER
 
Le gestionnaire de communauté au Québec
Le gestionnaire de communauté au QuébecLe gestionnaire de communauté au Québec
Le gestionnaire de communauté au QuébecKim Auclair
 
La veille de Né Kid du 21.07.10 : summer issue #1 - les nouveaux métiers de...
La veille de Né Kid du  21.07.10 :  summer issue #1 - les nouveaux métiers de...La veille de Né Kid du  21.07.10 :  summer issue #1 - les nouveaux métiers de...
La veille de Né Kid du 21.07.10 : summer issue #1 - les nouveaux métiers de...Né Kid
 
Conception d'un produit multimédia
Conception d'un produit multimédia Conception d'un produit multimédia
Conception d'un produit multimédia Ralph Ward
 
#PortraitDeStartuper #19 - KeeeX - Laurent Henocque
#PortraitDeStartuper #19 - KeeeX - Laurent Henocque#PortraitDeStartuper #19 - KeeeX - Laurent Henocque
#PortraitDeStartuper #19 - KeeeX - Laurent HenocqueSébastien Bourguignon
 
Le cercle des droits de label privé
Le cercle des droits de label privéLe cercle des droits de label privé
Le cercle des droits de label privéJean-Pierre Malaize
 
L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 2016L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 201655 | fifty-five
 
Nouveaux eldorados bjet connectes
Nouveaux eldorados bjet connectesNouveaux eldorados bjet connectes
Nouveaux eldorados bjet connectesRoland BOYER
 
La Veille De Né Kid Du 30.07.09 : les sièges sociaux
La Veille De Né Kid Du 30.07.09 : les sièges sociauxLa Veille De Né Kid Du 30.07.09 : les sièges sociaux
La Veille De Né Kid Du 30.07.09 : les sièges sociauxNé Kid
 

Ähnlich wie elivre - Travailler dans le Big Data V1.pdf (20)

Livre blanc quels outils de veille pour demain promo 16 icomtec intelligenc...
Livre blanc quels outils de veille pour demain   promo 16 icomtec intelligenc...Livre blanc quels outils de veille pour demain   promo 16 icomtec intelligenc...
Livre blanc quels outils de veille pour demain promo 16 icomtec intelligenc...
 
Les geants-du-web
Les geants-du-webLes geants-du-web
Les geants-du-web
 
#PortraitDeStartuper #23 - Luko - Raphaël Vullierme
#PortraitDeStartuper #23 - Luko - Raphaël Vullierme#PortraitDeStartuper #23 - Luko - Raphaël Vullierme
#PortraitDeStartuper #23 - Luko - Raphaël Vullierme
 
Livre Blanc "L'humain dans le numérique et le big data" du comité scientifiqu...
Livre Blanc "L'humain dans le numérique et le big data" du comité scientifiqu...Livre Blanc "L'humain dans le numérique et le big data" du comité scientifiqu...
Livre Blanc "L'humain dans le numérique et le big data" du comité scientifiqu...
 
Thèse 2009 Anne-Laure Payet
Thèse 2009 Anne-Laure PayetThèse 2009 Anne-Laure Payet
Thèse 2009 Anne-Laure Payet
 
Impact des reseaux_sociaux_sur_l_economie_greenivory_livre_vert_
Impact des reseaux_sociaux_sur_l_economie_greenivory_livre_vert_Impact des reseaux_sociaux_sur_l_economie_greenivory_livre_vert_
Impact des reseaux_sociaux_sur_l_economie_greenivory_livre_vert_
 
Livre blanc "Big Data et Réseaux Sociaux : mythes & réalités – la déclinaison...
Livre blanc "Big Data et Réseaux Sociaux : mythes & réalités – la déclinaison...Livre blanc "Big Data et Réseaux Sociaux : mythes & réalités – la déclinaison...
Livre blanc "Big Data et Réseaux Sociaux : mythes & réalités – la déclinaison...
 
VIEWLEX # 08
VIEWLEX # 08VIEWLEX # 08
VIEWLEX # 08
 
Le gestionnaire de communauté au Québec
Le gestionnaire de communauté au QuébecLe gestionnaire de communauté au Québec
Le gestionnaire de communauté au Québec
 
Rep2400 blogue 2
Rep2400 blogue 2Rep2400 blogue 2
Rep2400 blogue 2
 
La veille de Né Kid du 21.07.10 : summer issue #1 - les nouveaux métiers de...
La veille de Né Kid du  21.07.10 :  summer issue #1 - les nouveaux métiers de...La veille de Né Kid du  21.07.10 :  summer issue #1 - les nouveaux métiers de...
La veille de Né Kid du 21.07.10 : summer issue #1 - les nouveaux métiers de...
 
Travail du futur
Travail du futurTravail du futur
Travail du futur
 
Conception d'un produit multimédia
Conception d'un produit multimédia Conception d'un produit multimédia
Conception d'un produit multimédia
 
#PortraitDeStartuper #19 - KeeeX - Laurent Henocque
#PortraitDeStartuper #19 - KeeeX - Laurent Henocque#PortraitDeStartuper #19 - KeeeX - Laurent Henocque
#PortraitDeStartuper #19 - KeeeX - Laurent Henocque
 
Le cercle des droits de label privé
Le cercle des droits de label privéLe cercle des droits de label privé
Le cercle des droits de label privé
 
L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 2016L'Encyclopédie des Big Data 2016
L'Encyclopédie des Big Data 2016
 
Nouveaux eldorados bjet connectes
Nouveaux eldorados bjet connectesNouveaux eldorados bjet connectes
Nouveaux eldorados bjet connectes
 
Café Numérique charleroi
Café Numérique charleroiCafé Numérique charleroi
Café Numérique charleroi
 
Moxie trends 2013
Moxie trends 2013Moxie trends 2013
Moxie trends 2013
 
La Veille De Né Kid Du 30.07.09 : les sièges sociaux
La Veille De Né Kid Du 30.07.09 : les sièges sociauxLa Veille De Né Kid Du 30.07.09 : les sièges sociaux
La Veille De Né Kid Du 30.07.09 : les sièges sociaux
 

elivre - Travailler dans le Big Data V1.pdf

  • 1. JUVENAL CHOKOGOUE Les 6 métiers vers lesquels s’orienter TRAVAILLER DANS LE BIG DATA
  • 2. Plan du livre numérique Introduction ........................................................................................................................... 4 1 – Définition sommaire du Big Data ..................................................................................... 5 1.1 – Le Big Data : l’accroissement du volume et variété des données créées ................. 5 1.2 – Le Big Data : la commoditisation de l’information..................................................... 7 1.3 – Le Big Data : la suppression des barrières à l’entrée ................................................ 9 2 – Les besoins réels des entreprises en matière de Big Data .............................................11 2.1 – La mise en place d’un Data Lab...............................................................................12 2.2 – L’industrialisation de l’analyse de données ..............................................................13 3 – Les 6 profils métiers du Big Data....................................................................................15 3.1 – L’ingénieur de données (Data Engineer)..................................................................16 3.2 – Le Data Scientist......................................................................................................17 3.3 – Le Growth Hacker....................................................................................................18 3.4 – Le développeur ........................................................................................................19 3.5 – L’administrateur .......................................................................................................20 3.6 – L’architecte ..............................................................................................................21 4 – Intelligence Artificielle & Big Data : les robots vont-ils détruire nos emplois ? .................22 4.1 – Richesse accrue par automatisation et élimination des tâches moins productives ...23 4.2 – Le dilemme du chômage paradoxal .........................................................................24 5 – Les 6 compétences de base à développer pour réussir dans le Big Data.......................26 5.1 – Le SQL.....................................................................................................................26 5.2 – La programmation....................................................................................................27 5.3 – La connaissance d’Hadoop......................................................................................28 5.4 – La communication....................................................................................................28 5.5 – L’esprit d’équipe.......................................................................................................29 5.6 – La capacité à se former continuellement en autodidacte..........................................29 6 – Q & A - l’auteur répond à vos questions .........................................................................31 7 – Conclusion......................................................................................................................33
  • 3. Mentions légales Cet ebook est une propriété exclusive de Juvénal CHOKOGOUE et a fait l’objet d’un dépôt légal. Toute personne a le droit de le télécharger et de l’utiliser uniquement sous les conditions listées ci-dessous : - Vous avez le droit de copier ou d’intégrer partiellement le texte de l’ebook dans vos propres travaux à condition de mentionner le nom de l’auteur, donc Juvénal CHOKOGOUE ; - L’intégration de tout le texte de l’ebook nécessite une permission écrite de l’auteur ; - le contenu de l’ebook ne doit sous aucune manière que ce soit être modifié. Il doit rester fidèle à sa version d’origine tel que téléchargé ; - Les références aux marques, aux entreprises et aux universités citées dans cet ebook n’ont en aucune façon que ce soit un but publicitaire, elles sont utilisées exclusivement à des fins académiques et restent entièrement la propriété de leurs détenteurs ; - Les marques citées dans cet ebook, les logos d’entreprises, sont des marques déposées des entreprises en France, aux états Unis ou partout dans le monde ; - Les conseils, les tableaux comparatifs, les benchmark de solutions et les prises de position présents dans l’ebook représentent le point de vue personnel de l’auteur à la date de publication. Aucun favoritisme n’a été fait lors des benchmarks et des comparaisons. Etant donné la vitesse avec laquelle évolue le monde de la technologie et du Big Data, beaucoup de ces conseils et tableaux peuvent devenir obsolètes après la publication de cet ebook. Ainsi, bien que l’auteur ait pris tous les soins nécessaires afin de vous aider à travailler dans le Big Data, il ne peut être tenu pour responsable des résultats négatifs qu’auraient causé l’application de ces conseils après la date de publication de l’ouvrage ; - En raison des changements rapides du marché, le contenu des sites Web fournis peut être modifié ou changé, ou le site Web lui-même peut être indisponible. Donc, après la date de publication de cet ebook, l’auteur ne peux vous donner aucune garantie quant à la disponibilité des sites Internet fournis ; - Il y’a de l'anglicisme dans cet ebook. C'est un choix personnel de l'auteur, qui veut par-là conserver la fiabilité de la teneur sémantique des mots du jargon ; - Toute personne qui exécutera un acte non-autorisé à l’égard de cet ebook (recopie de tout l’ebook sans permission écrite de l’auteur, recopie partielle de l’ebook sans mentionner l’auteur, utilisation commerciale) s’expose à des poursuites judiciaires conformément aux dispositions du Copyright en vigueur en France, dans l’Union Européenne et dans le monde. Copyright 2018 © Juvénal CHOKOGOUE
  • 4. Introduction Le 21ème siècle a été témoin d’une explosion sans précédent du volume de données. D’après le constat des experts, des institutions publiques et privés, 90 % des données récoltées depuis le début de l’humanité ont été générées durant les 2 dernières années. Le marché qualifie aujourd’hui de « Big Data » cette explosion de données. En réalité, le Big Data est le reflet d’un changement plus profond : le passage d’une ère industrielle caractérisée par l’électricité vers une ère Numérique caractérisée par la donnée. Ce changement a entraîné de profondes modifications dans la société contemporaine : modèles économiques à coût marginal décroissant, commoditisation de la connaissance, décentralisation du pouvoir de création de l’information, suppression des barrières à l’entrée, ubérisation de la société, Internet des Objets, blockchains. Bref, aucun aspect de la société et de nos vies n‘y échappe. Bien qu’effrayant à vue d’œil, ce changement est en réalité les prémices de grandes opportunités. En chine, il y’a un proverbe qui résume très bien cela : « lorsque les vents du changement souffle, certains construisent des moulins, tandis que d’autres construisent des abris ». Le changement contient toujours des opportunités qui lui sont inhérentes et le proverbe essaye de dire que les opportunités se perçoivent, elles ne se voient pas à l’œil nu. La manière de penser nécessaire pour « voir » les opportunités d’un changement est ce que l’on appelle un paradigme (terme emprunté à Thomas Kuhn). Dans cet ebook, nous allons vous aider à « voir » les opportunités cachées du Big Data, au-delà du tapage médiatique et vous équiper des outils nécessaires pour vous préparer à les saisir, notamment les profils métiers, le rapport entre les robots et le travail, et les compétences à développer. Plus concrètement, à la fin de la lecture de cet ebook : - vous saurez où résident réellement les opportunités du Big Data ; - vous saurez les métiers porteurs du Big Data vers lesquels s’orienter et celui qui correspond à votre profil, à votre personnalité ; - vous verrez en quoi les robots sont importants pour l’accroissement de la richesse et comment ils créent de nouvelles opportunités pour vous ; - vous saurez les 6 compétences essentielles que vous devez développer pour réussir dans le Big Data ; - et enfin, vous aurez la réponse à la plupart des questions que vous vous posez ; De plus, l’ebook est accompagné d’une vidéo-conférence qui vous permettra d’aller plus en profondeur et d’assoir les idées que nous partageons ici. Puisse cet ebook vous mettre sur le chemin des opportunités du monde abondant créé par la donnée ! Merci pour votre confiance et bonne lecture ! Juvénal CHOKOGOUE
  • 5. 1 – Définition sommaire du Big Data C’est un fait, l’humanité produit tous les 2 jours autant de données qu’elle n’en a générée depuis l’aube de la civilisation jusqu’en 2003. Selon les études de l’IDC, cela correspond à 2 Go de données produits tous les jours par chaque homme, femme et enfant sur la planète. Pour qualifier cette explosion massive de données, le qualificatif « Big Data » a été adopté. Les entreprises sont en train de comprendre progressivement les enjeux que représentent les données qu’elles possèdent et beaucoup ont décidé d’y en tirer profit. En juillet 2014 dernier, le gouvernement français, par la voie de l’ex ministre Arnaud MONTEBOURG présentait les 34 plans de la Nouvelle France Industrielle (NFI), un projet de ré industrialisation dont l’ambition est de positionner la France stratégiquement sur le Big Data. Par ce projet, l’Etat montre officiellement que malgré l’engouement médiatique qu’il y’a autour du Big Data, la transition vers l’ère Numérique est bien réelle et les opportunités du Big Data sont bel et bien existantes. Au-delà de l’aspect volumique, le Big Data est d’abord et avant tout la face cachée d’un iceberg, l’expression visible d’un changement plus profond : la transition du monde industrielle vers le monde numérique. Ainsi, nous ne pouvons pas parler du Big Data sans parler du Numérique. Le Numérique est un phénomène et en tant que tel, il est très difficile à définir. Imaginez que l’on vous demande de définir la pluie. Vous voyez qu’il vous sera difficile d’exprimer en de termes clairs ce que c’est même si vous savez très bien ce que c’est. Il en est de même avec le Numérique et tout autre phénomène. Dans ce cas, la meilleure approche pour définir un phénomène consiste à le caractériser, c’est- à-dire le définir par ses caractéristiques. C’est cette approche que nous allons adopter. Dans les évangiles, le jeune enseignant rabbinique originaire de Galilée dit « lorsque vous voyez les feuilles des figuiers apparaître, vous savez que l’été est proche ». Cette affirmation indique que tout comme on est capable de caractériser une saison par certains signes, il est possible à partir de certains signes de reconnaître un phénomène. Le Big Data est l’expression du Numérique, c’est un phénomène qui se caractérise par 3 éléments majeurs : l’accroissement du volume et variété des données créées, la commoditisation de l’information, et la suppression des barrières à l’entrée. 1.1 – Le Big Data : l’accroissement du volume et variété des données créées La première caractéristique majeure du Big Data et sans doute la plus visible de toutes est l’explosion des données. Dans le Numérique, la majeure partie des activités humaines sont automatisées, c’est-à-dire traitées par des ordinateurs. Cette automatisation génère un flux continu de données d’une
  • 6. volumétrie sans précédente, estimée en 2020 à 40 000 exa-octets, ou 40 trillion de giga octets (soit plus de 5200 giga octets pour chaque homme, femme et enfant de la planète) par l’IDC (International Data Corporation). Cette explosion du volume de données vient de l’utilisation des Smartphones. Sur plus de 7 milliards d'êtres humains, 2,5 milliards de personnes sont connectées à Internet et 1,8 milliard d'entre eux utilisent des applications de réseaux sociaux. Selon les recherches du journal La Tribune, 1 habitant sur 3 est équipé d’un Smart Phone, soit un plus de 2 milliards d’individus de la population mondiale. L’utilisation de ces Smartphones a littéralement explosé le volume de données, données qui sont générées de plus en plus vite par des internautes qui sont de plus en plus connectés et de plus en plus actifs. Les Internautes utilisent leur Smartphone pour des activités diverses comme le blogging, le micro-blogging, le passage des commandes et achats, la recherche d’information, l’elearning, la mise à jour de leurs CV, la prise des photos, ou encore l’enregistrement des vidéos. Des études d’IDC montrent les effets de l’utilisation des Smartphones sur la quantité de données générée : - L’augmentation des volumes de données capturées et stockées : selon la « Digital Universe Study » de 2011, une étude annuelle menée par l’IDC : « en 2011, la quantité d’information créée et répliquée surpassera 1.8 Zetta Octets, croissant d’un facteur de 9 en juste 5 ans. » Rien qu’en 2011 déjà, on peut constater que l’échelle de la croissance des données produites surpasse la capacité raisonnable des Systèmes de Gestion de Bases de Données Relationnelles traditionnelles, ou même la configuration matérielle typique supportant les accès aux données basées sur les fichiers ; - L’accélération rapide de la croissance des données : en juste 1 an plus tard, c’est-à-dire en 2012, la même étude postulait que « de 2005 à 2020, l’univers digital croitra d’un facteur de 300, de 130 exa octets à 40000 exa octets, ou 40 trillion de giga-octets (soit plus de 5200 giga-octets pour chaque homme, femme et enfant en 2020). De maintenant à 2020, l’univers digital va à peu près doubler tous les 2 ans ; - Croissance du volume de données qui transitent sur les réseaux informatique : selon l’Index annuel de prévision des réseaux établi par Cisco, en 2016, le trafic IP global annuel est estimé à 1.3 Zetta octets. Cet accroissement dans le trafic réseau est attribué à l’accroissement du nombre des Smart phones, tablettes et autres appareils connectés à internet, la croissance des communautés d’utilisateurs Internet, la croissance de la Bande passante d’Internet et la rapidité offerte par les opérateurs de télécommunication, et la prolifération de la disponibilité et de la connectivité du Wi-Fi. Plus de données canalisées vers des canaux de communication plus larges crée de la pression pour la capture et la gestion de ces données
  • 7. de façon cohérente et rapide ; - La croissance des différents types d’actifs de données pour les analyses : comparé aux méthodes traditionnelles de capture et d’organisation des données structurées, les analystes de données cherchent des moyens de tirer profit des données non-structurées et d’acquérir les données d’une large variété de sources. Certaines de ces sources peuvent refléter des éléments de structure minimalistes (tels que les logs d’activité des serveurs Web, les logs d’appels d’un centre appel), tandis que d’autres sont complètement non- structurées ou même limitées à des formats spécifiques (tels que les données des réseaux sociaux qui combinent contenu textuel, images, audio et vidéo). Pour extraire un signal utilisable de ce bruit, les entreprises doivent améliorer leurs approches structurées de gestion de données pour prendre en compte la sémantique textuelle et l’analyse de flux de données ; Du côté des entreprises, on note une nouvelle catégorie d’offre qui renforce cette communion entre explosion de données et ubiquité de l’accès à Internet : les objets connectés ou IoT (Internet of Things). L’Internet des objets consiste à prendre le contrôle des objets de la vie courante comme un téléviseur, un véhicule, une maison, par Internet. Pour ce faire, des capteurs sont intégrés dans ces objets et ces capteurs génèrent un volume énorme de données qui est ensuite exploitée. La perspective de l’IoT est plus large que l’intégration des capteurs dans les objets connectés. Dans un futur proche, l’objectif sera de les doter tous d’une adresse IP à travers laquelle on pourra les contrôler via Internet. Le Gartner a dénombré 6,4 milliards d’objets connectés dans le monde en 2016, et prévoit qu’il sera de 20,8 milliards en 2020. Les objets connectés sont une source de génération de données en Streaming. La gestion de cette volumétrie de données va exiger la conception et la mise au point de nouveaux modèles de calcul distribués, et de nouveaux modèles d’infrastructure informatique massivement parallèle. 1.2 – Le Big Data : la commoditisation de l’information La deuxième caractéristique du Big Data c’est l’explosion du niveau avec lequel la population communique. Cela est dû à la combinaison de deux facteurs : la mise à disposition d’Internet au grand public et l’émergence de l’utilisation des Smartphones. Là où il a nécessité à la radio 30 ans pour atteindre une audience de 50 millions de personnes, il n’a nécessité que 13 ans à la télévision, 4 ans à Internet, 3 ans à l’iPad, et 2 ans à Facebook. L’ubiquité d’Internet et les Smartphones ont permis à la population d’être connectée et de communiquer à l’échelle mondiale par le moyen des réseaux sociaux. Sur plus de 7 milliards d'êtres humains, 2,5 milliards de personnes sont connectées à Internet et 1,8
  • 8. milliard d'entre eux utilisent des applications de réseaux Sociaux tels que Twitter, Facebook, LinkedIn, Viadeo, etc. Les Internautes utilisent leur Smartphone pour des activités diverses comme l’envoi de mails, le blogging, le micro-blogging, le passage des commandes et achats, la recherche d’information, l’elearning, ou encore la mise à jour de leurs CV. Cette activité génère une quantité phénoménale de données. Selon Planetoscope, le site de statistique mondial (http://www.planetoscope.com ) : - Seulement en 2013, 183 milliards de mails ont été envoyés dans le monde (hors-spam) chaque jour. C'est environ 2 115 000 mails par seconde ; - Ce sont 2,46 millions de contenus qui sont partagés sur Facebook par minute ; - ce sont chaque seconde près de 39.000 recherches qui sont faites sur le moteur de recherche Google par les internautes. Cela représente 3,3 milliards de requêtes sur le moteur de recherche Google par jour ; - ce sont 72,9 achats qui sont faits sur le site d’Amazon en moyenne par seconde ; - ce sont 50 Million de Tweets qui sont postés par jour sur Twitter ; Cette activité de communication d’échelle mondiale entraîne la commoditisation ou banalisation de l’information. Désormais, l’information est commode, c’est-à-dire accessible à n’importe qui et n’importe où. Cela signifie que les possibilités d’apprentissage sont bien plus élevées et que chacun peut désormais se former dans le domaine qu’il veut indépendamment de sa localisation géographique (en particulier les pays défavorisés), et de son niveau de revenu. D’ailleurs, selon Bill Gates, les ordinateurs et les technologies vont propager les richesses plus équitablement entre la population [que les programmes de macro-économie]. Force est de constater que nous ne pouvons que suivre son sens. Il le dit en ces termes : « dans l’histoire de l’humanité, les avantages technologiques provenaient de la disponibilité de certaines plantes, animaux et localisation géographique. Dans la société numérique actuelle, les ressources naturelles critiques sont l’intelligence humaine, la compétence et le leadership. Toutes les régions du monde possèdent ces 3 ressources en abondance, ce qui promet de rendre le prochain chapitre de l’histoire de l’humanité particulièrement intéressant ». Cela remet en question le fondement de beaucoup de nos institutions actuelles, en commençant par le système académique fondé sur l’université, qui détenait jusque lors le monopole du savoir et qui était l’institution légale d’accréditation des compétences. Les tendances technologiques qui en émergent comme le Cloud Computing remet en question les définitions actuelles de la notion de Territoire (avec le Patriot Act), la notion de souveraineté des Nations, la notion de Liberté Individuelle, entre autre. L’adaptation à l’ère Numérique va exiger la mise à plat de nos
  • 9. concepts actuels et leur redéfinition. 1.3 – Le Big Data : la suppression des barrières à l’entrée La troisième caractéristique du Big Data est la suppression des barrières à l’entrée. En économie, la notion de barrière à l’entrée fait référence à tout élément susceptible d’empêcher des entreprises de se lancer dans un secteur économique particulier. Il peut s’agir d’un prix trop bas, pratiqué par les entreprises existantes du secteur pour empêcher des concurrents de s’y lancer. Ce prix peut être tellement bas que vendre à ce prix n’est pas suffisant pour couvrir ses coûts de production. Un autre élément qui peut constituer une barrière à l’entrée ce sont les coûts fixes. Par exemple, dans l’industrie, les coûts fixes sont tellement élevés que toutes les entreprises ne peuvent pas s’y lancer. Plusieurs autres éléments peuvent constituer des barrières à l’entrée. Par exemple la réglementation du secteur, les impôts à payer, les charges sociales des employés, les procédures administratives, etc. Le Big Data a renversé beaucoup de barrières à l’entrée et par là, favorise l’entreprenariat. A des exceptions de quelques secteurs d’activité près, il est désormais plus simple pour n’importe qui d’entrer sur le marché, de créer sa propre entreprise et de rivaliser avec les entreprises existantes. Dans l’ère industrielle précédente, la consommation était relativement stable et prévisible, la capacité de baisser les coûts de transaction et les coûts de production étaient suffisants pour qu’’une entreprise réussisse. A juste effet, Jean Baptiste SAY l’un des économistes de l’ère industrielle a dit : « l’offre crée sa propre demande, il ne peut y avoir de surproduction ». Le fait de pouvoir faire des prévisions fiables sur la demande des consommateurs, sur les salaires et sur le coût des matières premières, permettaient aux entreprises d’amortir leurs de coûts de production à l’aide de la quantité produite (elles savaient qu’elles allaient vendre toute leur production). Les entreprises fusionnaient entre elles et formaient des conglomérats qui empêchaient toute entrée d’un éventuel concurrent dans le marché et dont les capacités de production baissaient les prix et asphyxiaient les concurrents de faible taille. Conséquence, le marché était constitué en majorité de conglomérats monopolistiques. Mais ça, c’était avant ! L’économie de l’ère Numérique favorise l’entreprenariat et permet à n’importe qui de créer sa propre entreprise. 2 facteurs principaux sont à l’origine de cela, il y’a d’une part Internet, qui supprime les barrières géographiques et physiques qui existent entre les individus et permet de produire des services qui peuvent être offerts à l’échelle mondial sans augmentation des coûts de transaction, fournit l’accès à la connaissance pour améliorer ses produits/services, et il y’a d’autre part l’émergence des modèles d’affaire plus flexibles basés sur des
  • 10. structures de coûts flexible, tel que le Pay-as-You-Go (ou paiement à l’usage, est un modèle économique qui consiste à facturer uniquement à l’usage, sur la base de l’abonnement à l’utilisation périodique d’un service) du Cloud Computing, qui permet d’entrer dans le marché sans avoir à faire des investissements important en termes d’infrastructure informatique, les modèles économiques basés sur l’affiliation, etc. Dans l’ère Numérique, la demande des consommateurs n’est plus aussi prévisible qu’elle était dans l’ère industrielle, elle est en constante évolution, ce qui pénalise les modèles économiques à coûts fixes élevés sur lesquels sont bâties la plupart des entreprises traditionnelles. L’économie Numérique exige des modèles économiques flexibles et en constante évolution. Un nouveau type d’entreprises a compris cela : les start-up. Les start-up sont différentes des autres entreprises pas par leur taille comme beaucoup le pensent, mais par le fait qu’elles se réinventent constamment. Ainsi, une start-up n’est pas une entreprise qui vient d’être créée, mais c’est une entreprise de grande ou petite taille qui est en réinvention continue de son modèle d’affaire. Les start-up profitent des avantages de l’ère Numérique, notamment de la disponibilité des données et de la flexibilité de la structure de coûts offerts pour développer des produits en aval de la chaîne de production et progressivement, par intégration verticale, totalement pénétrer le secteur d’activité, jusqu’à en détenir le monopole. Les GAFA (Google Apple, Facebook et Amazon), Uber, AirBnB sont des exemples de succès des modèles de start-up qui ont menacés les lettres par les mails, les CD par les téléchargements, les livres par l’e-book, le commerce par l’e-Commerce. Ces nouveaux acteurs exhibent des modèles économiques plus dynamiques, prompt à l’expérimentation et au changement, ce qui leur permet de croître très rapidement. D’après les statistiques rapportées par les travaux du CNNum (Conseil National Numérique), Sur les 100 premières entreprises françaises, une seule a moins de 30 ans : Free. Sur les 100 premières européennes, 9. Sur les 100 premières américaines, 63 ! Ces statistiques montrent que le modèle de réinvention continue de Start-up qui a démarré aux USA dans la Sillicon Valley il y’a quelques années a réussi à faire émerger en moins d’un siècle des petites entreprises en géants similaire (ou si ce n’est plus grand) aux entreprises du CAC40, établies depuis bien fort longtemps. La longévité et l’agglomération en conglomérats ne sont donc plus des signes de sécurité pour les entreprises traditionnelles. La suppression des barrières à l’entrée provoquée par le Big Data va forcer les entreprises traditionnelles établies sur le marché depuis longtemps à se réinventer, ce qui va les emmener à devoir s’interroger sur la mise en place de nouveaux modèles économiques, l’exploitation innovante de la donnée, et le leadership qui va avec. Toutes ces problématiques sont autant d’opportunités qu’il faudra saisir.
  • 11. 2 – Les besoins réels des entreprises en matière de Big Data En Juin dernier, le magasine informatique Le MagIT nous a posé la question suivante : Juvénal, votre ouvrage Hadoop – Devenez opérationnel dans le monde du Big Data aborde le problème de la compréhension des technologies Hadoop. Selon vous, les entreprises françaises ont-elles atteint un niveau de maturité suffisant pour faire éclore des projets en production réelle, et non plus se cantonner aux PoC sans vrai usage à valeur ? En clair, le journaliste voulait savoir si au-delà des PoC (Proof of Concept), les entreprises avaient réellement des besoins dans le Big Data. En tant que consultant directement impliqué dans la valorisation des données dans les entreprises, nous pouvons vous assurer que oui, les entreprises ont de réels besoins en matière de Big Data ! Par contre, il faut noter que leurs besoins ne dépendent pas de leur niveau de maturité sur le sujet, mais plutôt de leur niveau de prise de conscience sur la façon dont elles peuvent utiliser les données pour améliorer leur business. A cela, nous avons constaté que toutes les entreprises n’ont pas le même niveau de prise de conscience. Il y’a d’une part les entreprises qui sont dans le Big Data, mais ne sont pas focalisées sur l’avenir ; c’est dans ces dernières qu’on retrouve plus de PoC. Celles-ci considèrent surtout le Big Data comme un levier de réduction de coûts (notamment grâce à Hadoop) qui leur permet de gérer le stockage de leur volume de données plus efficacement grâce à l’agilité qu’il apporte. Et d’autre part, il y’a les entreprises qui sont résolument tournées vers le futur. Ici, les entreprises sont sur des projets où le Big Data est opérationnalisé. Plus globalement, 9 milliards de dollars, c’est le chiffre d’affaires que devrait générer le marché du Big data en 2014, selon une étude du cabinet Transparency Market Research. Avec une croissance de près de 40 % par an, le marché représenterait déjà plus de 246 milliards en 2016. Selon une étude menée par DELL EMC en 2013, 74 % des entreprises en Européennes sont convaincues de l’intérêt du Big Data et donc d'Hadoop pour leurs activités. Une autre de ses études publiée en avril 2014 affirme que 41 % des entreprises de taille moyenne ont désormais entamé un ou plusieurs projets impliquant Hadoop. En France, le plan Big Data pour la Nouvelle France industrielle (NFI) dont la feuille de route a été validée en juillet 2014, a déclenché une impulsion économique émanant de l’État visant à développer la valorisation du « capital donnée ». Ce plan de la nouvelle puise sa force de l’écosystème dynamique
  • 12. des entreprises françaises et des grands groupes du CAC40. Orange, La Poste, GDF Suez, Alstom, AXA, Société Générale sont autant d’entreprises qui ont été sélectionnées pour participer aux grands travaux du plan initié par Arnaud Montebourg, et désormais porté par François BOURDONCLE (cofondateur d'EXALEAD, aujourd'hui filiale de Dassault Systèmes) et Paul HERMELIN (PDG de CAPGEMINI au moment de l’écriture de cet ebook). Le projet repose à ce jour sur 9 solutions qui couvrent l’économie des données, les objets intelligents, la confiance numérique, l’alimentation intelligente, les nouvelles ressources, les villes connectées, la mobilité économique, les transports de demain et la médecine du futur. Autant vous dire que l'engouemenent pour le Big Data est bien réel en France et partout ailleurs en Europe, pas au même rythme qu’aux Etats Unis, mais il est bien réel. D’ailleurs, dans notre ouvrage Hadoop – Devenez opérationnel dans le monde du Big Data, nous expliquons 2 projets Big Data qui ont été opérationnalisés : le projet Karma d’Air France et le projet Smart Grid d’EDF. Tout ceci est très macro. Concrètement, en ce qui vous concerne, les besoins des entreprises en la matière tourne autour de 2 sujets : la mise en place d’un data lab pour centraliser l’utilisation de données et l’industrialisation des analyses de données (reporting, data mining, etc.) pour améliorer la prise de décision. 2.1 – La mise en place d’un Data Lab Le premier besoin majeur des entreprises en ce qui concerne le Big Data actuellement est la mise en œuvre d’un point d’accès unique de la donnée de toute l’organisation, ce qui passe naturellement par la mise en place d’un centre de données. Certaines qualifient ce centre de Data Lab (laboratoire de données), d’autres de Enterprise Data Hub (Hub de données), d’autres encore de Data Lake (Lac de donnée). Vous avez compris l’idée. Ce Data Lab est absolument nécessaire parce que dans beaucoup d’entreprises, les données sont encore éparpillées entre ses différents services. Ce problème porte le nom de silos de données. Cette dispersion des données vient de la lassitude offerte par les tableurs et autres outils de manipulation de données à la portée des utilisateurs finaux. Les données sont stockées dans des feuilles calcul, ce qui entraîne une duplication de la même donnée au sein de l’entreprise (on parle de « plusieurs versions de la vérité » - « many version of Truth ») ; du coup il est impossible de déterminer si un utilisateur en particulier détient la version véritable de la donnée ou pas. Plusieurs entreprises souffrent encore de ce problème aujourd’hui. C’est l’explosion des données dans le Big Data combinée à ce problème de silos qui pousse les entreprises à mettre en place des approches centralisées de gestion et d’accès à la donnée. Les enjeux
  • 13. associés sont : - avoir une vision globale sur leur activité afin de soutenir la prise de décision ; - répondre aux exigences de réglementation en vigueur. Par exemple dans la banque, les réglementations Bâles forcent les entreprises à conserver un historique de leurs données ; les réglementations Sarbannes Oxley ; et récemment les réglementations RGPD (Réglementation Européenne sur la Protection des données), qui oblige les entreprises à indiquer en cas de demande par son client les données qu’elles possèdent le concernant. Bien que ce soit aussi simplement expliqué, intégrer toutes les données d’une entreprise (répartie dans plusieurs pays sur plusieurs continents) n’est pas une mince affaire ! Donc, dans plusieurs cas, lorsque vous serez impliqué dans un projet Big Data, il y’a de bonnes chances que vous soyez impliqué de prêt ou de loin à la mise en œuvre du point unique de données, que vous en fassiez partie de la chaîne ou que vous soyez directement impliqué techniquement dans la mise en œuvre du Data Lab. 2.2 – L’industrialisation de l’analyse de données Il est de coutume dans le milieu de dire « Big Data without Analytics is just data », en d’autres termes : Le Big Data sans l’analyse n’est que la donnée. Le Data Lab ne sert à rien si l’entreprise n’est pas capable de traiter toutes les données qu’elle a réussi à intégrer. Ceci nous emmène au deuxième besoin concret de celles-ci : l’industrialisation de l’analyse de données. De façon générale, l’analyse de données, que certains appellent aussi Analytics, fait référence à l'ensemble des moyens et techniques par lesquels on extrait de l'information (et par ricochet la valeur) des données quel que soit leur source, leur taille, ou même leur format. Les techniques d'analyse de données varient tellement qu’aujourd’hui il y’a une grande confusion sur ses différentes applications. Vous entendrez parler de Machine Learning, Data Mining, Deep Learning, simulation, etc. Mais ce qui est important est qu’au final, le but est de faire parler les données. En matière d’analyse de données, les entreprises sont encore pour beaucoup dans les reporting (comprenez par-là tableaux croisés dynamiques, les croisements et agrégations de plusieurs sources de données. Sauf dans quelques secteurs d’activités comme le secteur bancaire où des modèles de scoring sont utilisés pour classer les clients en fonction de leur capacité à rembourser les crédits ou pas, dans le secteur de la grande distribution, les modèles de classification et de recommandation sont utilisés pour regrouper les clients en fonction de leurs niveau de similarité et leur recommander des produits sur la base de leurs consommations antérieures et celles des
  • 14. personnes qui ont le profil similaire au sien. Sinon, à part ces quelques secteurs, dans beaucoup de cas, les entreprises sont préoccupées par la performance globale de leurs différents processus métiers et cela passe par la définition des métriques de performance (KPI). L’industrialisation du calcul de ces KPI se fait aujourd’hui principalement par lot à des périodes déterminées. Avec le Big Data et la disponibilité de la puissance de calcul, les entreprises explore le temps réel, l’industrialisation des modèles statistiques dans le but d’être plus réactive. Ce qui leur empêche aujourd’hui de le faire c’est d’une part les problèmes de silos de données évoqués plus haut, car il faut savoir que l’efficacité et la pertinence des résultats d’une analyse de données dépend pour une grande partie de deux choses : - la qualité des données : les silos de données créent des doublons et des versions incomplètes des données, puisque chaque utilisateur possède sa propre version. Cela créé des problèmes d’incomplétude de données (missing value) préjudiciable aux analyses de données. Avec le Big Data, ces problèmes prennent une importance sans précédent. Un axe de positionnement pour vous serait donc d’accompagner les entreprises sur l’ingénierie des données, c’est-à-dire le travail de croisement, d’intégration et de prétraitement qui vient en amont de l’analyse. Vous pouvez également assister les entreprises dans la mise en œuvre des projets qui assure la qualité des données (le MDM – Master Data Management). - La précision du modèle d’analyse de données : un modèle est une représentation simplifiée de la réalité. Il s’utilise lorsque l’on souhaite avoir une vision macroscopique d’un phénomène. Pour cela, le modèle élimine beaucoup de facteurs et n’en retient que les plus pertinents à la représentation du phénomène. D’une manière globale, on dit d’un modèle qu’il est précis s’il arrive à représenter de façon plus ou moins claire la réalité qu’il modélise. En analyse de données, la modélisation permet de ressortir les facteurs explicatifs essentiels d’une source de données. L’idée est de comprendre le schéma selon lequel les données sont générées pour pouvoir anticiper ses prochaines valeurs. Par exemple, supposons que vous avez la liste de données suivante : 3 5 8 10 12 15 100 102 105 7 9 12 Vous remarquerez que chaque ligne de données est générée selon un schéma précis. La valeur de la deuxième colonne est toujours égale à la valeur de la première colonne plus 2, tandis que la valeur de la troisième colonne est toujours égale à la valeur de la deuxième colonne plus 3. Dans
  • 15. ce cas de figure, si on suppose que cette hypothèse (ce constat) est vraie, alors il est facile pour nous d’anticiper que si la valeur de la première colonne est égale à 4, alors la valeur de la deuxième sera égale à 6 et la troisième à 9. Le but d’un modèle de données consiste à ressortir ce genre de relations. Plus il sera capable d’expliquer le schéma selon lequel les données sont générées et plus il sera précis. Il existe plusieurs techniques de modélisation de données, les techniques de régression, d’arbre de décision, de réseaux de neurones, de machine à vecteur support, etc. Manipuler ces techniques pour trouver le modèle le plus précis exige une certaine spécialisation. Vous pouvez donc vous positionner sur ces sujets et aider les entreprises grâce aux modèles que vous développerez à prendre des décisions efficaces. Au-delà de l’industrialisation de l’analyse de données, les entreprises cherchent également à rapprocher de plus en plus les utilisateurs métier aux analyses de données : c’est la problématique de consommation de l’Analytics. Il y’a un regain accru du côté de la visualisation des données pour la consommation par les métiers des résultats des analyses de données. Donc vous pouvez aussi vous spécialiser sur la visualisation pour aider les entreprises à faire parler leurs données. Dans le point suivant, nous allons approfondir les 6 profils métiers vers lesquels vous pouvez vous orienter pour vous lancer dans le Big Data. Bien entendu, en dehors des besoins de mise en place d’un Data Lab et de l’industrialisation des analyses de données, les entreprises ont d’autres besoins dans le domaine du Big Data, mais ceux-ci sont les plus proéminents et les plus immédiats. 3 – Les 6 profils métiers du Big Data Techniquement, pour réussir à exploiter les « Big Data », l'idée n'est plus de centraliser le stockage et le traitement des données sur un serveur, mais de distribuer leur stockage et de paralléliser leur traitement sur plusieurs ordinateurs. Cela est possible grâce à une technologie appelée Hadoop. C’est Hadoop qui permet à Google de répondre aux 6 000 000 de requêtes qui lui sont adressés par seconde, à Yahoo de gérer les 2 115 000 mails qui sont envoyés par seconde dans le monde et à Facebook de partager 2,46 millions de contenu par minute. Hadoop est en passe de devenir le standard de Facto de traitement de données, un peu comme Excel est progressivement devenu le logiciel par défaut d’analyse de données. Ainsi, travailler dans l’un des aspects du Big Data va vous exiger d’une façon ou d’une autre à utiliser Hadoop. Hadoop est un « Framework », c’est-à-dire un ensemble de briques logiciels qui s’assemblent les unes aux autres comme des puzzles LEGO® pour résoudre un problème métier. Les outils Hadoop sont regroupés par catégories et chaque catégorie correspond à une problématique métier, ce que nous
  • 16. appelons un métier Hadoop. Une problématique peut faire appel à une ou plusieurs de ces catégories. Ainsi, la montée en compétence sur le Big Data implique en partie la montée en compétence sur au moins l’une des catégories de technologies Hadoop, plus concrètement de se spécialiser dans ce que nous appelons « un profil métier Hadoop ». Le profil de métier Hadoop fait référence à votre usage d’Hadoop, en d’autres termes, à votre métier dans la Big Data. En fonction des besoins des entreprises que nous avons cités plus haut, les tendances du moment, notre expérience personnelle et les offres d’emploi sur la Big Data, nous avons détecté 6 profils de métier en Big Data : l’Ingénieur de données (Data Engineer), le Data Scientist, le Growth Hacker, le développeur, l’administrateur et l’architecte. Si vous souhaitez véritablement prendre le virage du Big Data, nous vous recommandons très sérieusement de choisir un profil et de vous y spécialiser conformément aux instructions que nous y avons données. 3.1 – L’ingénieur de données (Data Engineer) Ce qui se cache derrière le terme « Data engineer » c’est l’idée d’un professionnel spécialisé sur la gestion des données en utilisant Hadoop. En d’autres termes, c’est quelqu’un qui sait se connecter à plusieurs sources de données, croiser les données, effectuer des opérations de nettoyage de données, des filtres, des jointures, gérer le stockage des données dans différents bases de données, gérer divers sortes de formats de données. En clair, l’ingénieur de données c’est celui qui maitrise les techniques de data management. C’est lui qui aide les entreprises à venir à bout de leurs problèmes de qualité de données évoqués plus haut. Dans le cadre d’Hadoop, il est question pour lui de maîtriser l’utilisation des catégories d’outils SQL sur Hadoop (Impala, Phoenix, HAWQ), les langages d’abstraction (HiveQL, Pig Latin) et les bases de données NoSQL (HBase, HCatalog, MongoDB). Concrètement, il sait écrire des requêtes SQL, HiveQL, Pig Latin pour l’interrogation des bases de données, il sait connecter les systèmes de Business Intelligence traditionnels des entreprises à Hadoop, il sait écrire des requêtes complexes nécessaires pour résoudre des besoins métier de Reporting, de calcul d’indicateurs, et d’exploitation de données à des buts de Reporting, il sait interroger des bases de données et sait les exploiter pour l’intégration des données de divers formats. Compte tenu de la diversité des formats de données du Numérique et de l’explosion du volume des données, ce profil est de plus en plus recherché. La figure suivante représente le cercle de compétence de l’ingénieur de données.
  • 17. Figure 1 : cercle de compétences de l'ingénieur de données avec le niveau par compétence de base. 3.2 – Le Data Scientist Il y’a eu beaucoup d’engouement autour de ce profil. A une époque, il était même décrit comme étant le « mouton à 5 pattes de l’économie Numérique » avant que le marché se rende compte que c’était exagéré. En réalité, C’est vers ce profil que vous devez vous diriger si vous souhaitez aider les entreprises à industrialiser ses modèles d’analyse de données conformément à leur second besoin que nous avons évoqué précédemment. L’idée qu’il y’a derrière ce profil de métier, c’est quelqu’un qui sait développer des algorithmes statistique pour anticiper le comportement d’une variable, recommander des actions à effectuer, ou catégoriser les données en fonction de leur degré de similarité. Les modèles qu’il développe sont vitaux au fonctionnement de certaines entreprises, par exemple dans l’e-commerce et les réseaux sociaux, c’est le Data Scientist qui développe les algorithmes de recommandation qui tournent derrières les « personnes que vous pourriez aussi connaître », les « produits que vous pourriez aussi acheter », les « pages que vous pourriez aussi aimer ». Dans le domaine de la banque, les data scientist développent des modèles de scoring qui permettent de prêter ou pas l’argent à un individu, d’investir ou de ne pas investir sur un projet. Etre Data scientist nécessite donc d’avoir une double compétence sur le métier et en mathématique. Ce profil de métier est celui qui est le plus en vogue sur le marché actuellement. Si vous souhaitez vous orientez vers là, alors il vous faudra vous spécialiser dans l’apprentissage statistique et l’utilisation des modèles de calcul d’Hadoop.
  • 18. Figure 2 : cercle de compétences de base du Data Scientist 3.3 – Le Growth Hacker Un autre métier tout aussi innovant du Big Data est le Growth Hacking, un métier qui vient tout droit de la Sillicon Valley aux Etats Unis. Le Growth Hacker est également un profil de métier Hadoop. Du terme Growth hacking qui veut littéralement dire "bidouiller la croissance", le Growth Hacker est une personne à l'intersection du marketing et Hadoop qui utilise des techniques de marketing pour accélérer rapidement et significativement la croissance (Growth) d'une entreprise, précisément d’une start-up. Il est à la base un professionnel du Marketing, mais qui sait faire du développement logiciel. Il utilise les modèles de calcul d’Hadoop, les outils SQL, les langages d’abstraction pour créer de nouvelles fonctionnalités, son but n’est pas l’analyse de données pour des fins décisionnelles, il cherche à créer de nouveaux produits à partir d’Hadoop et comme les gens du marketing, il s'efforce de trouver des clients pour les produits de l'entreprise; mais il le fait en utilisant des variantes de pages d'accueil, des facteurs de viralité, et l'envoi massif de courriers électroniques. Il modélise ses hypothèses et utilise Hadoop pour interroger les bases de données régulièrement. Si l'entreprise n'a pas encore complètement développé son produit, le Growth hacker fait en sorte que la viralité fasse partie du produit même; si la startup a déjà un produit fini, il étudie précisément les données pour découvrir ce qui marche dans le produit et permet d'optimiser la croissance. Ce profil est très recherché dans les start-up et dans les entreprises à modèle économique flexible qui ont le souci de se réinventer constamment.
  • 19. Figure 3 : cercle de compétences de base du Growth Hacker 3.4 – Le développeur Profil typique d’Hadoop, le développeur fait référence à un développeur logiciel capable d’utiliser le Java, Scala ou tout autre langage évolué pour développer des applications métiers qui vont s’exécuter sur Hadoop. Il sait écrire des fonctions MapReduce en java, sait manier l’exécution parallèle des travaux sur Hadoop, il sait faire du développement distribué, de la coordination de service, gérer la tolérance aux pannes, rendre un système cohérent et peut même réfléchir sur les futurs améliorations d’Hadoop. C’est l’un des rares profils à pouvoir travailler sur pratiquement toutes les catégories des outils d’Hadoop puisque son travail intervient en amont de ceux-ci. Ce profil est également très recherché, et surtout en ce moment où les entreprises utilisent Hadoop pour des fins d’évaluation. Si vous voulez vous orienter vers ce profil, il vous faudra vous spécialiser sur le développement logiciel (principalement Java) et le traitement distribué.
  • 20. Figure 4 : cercle de compétences de base du développeur 3.5 – L’administrateur L’administrateur fait référence à un profil de compétences lié à l’administration d’Hadoop. Concrètement, l’administration d’ Hadoop consiste en les tâches de constitution des ordinateurs sur lesquels Hadoop est installé (connexion des ordinateurs, configuration, installation du système d’exploitation), d’installation et de configuration d’Hadoop, d’ajout de nouveaux ordinateurs, de gestion des défaillances (retrait des ordinateurs défaillants et remplacement par de nouveaux, de provisionnement en ressources et en redimensionnement. L’administration Hadoop consiste également à gérer les aspects sécuritaires, l’attribution des autorisations et des niveaux de permissions aux différents utilisateurs d ‘Hadoop. L’administrateur Hadoop sait utiliser les outils d’administration d’Hadoop. Bien évidemment, pas la peine de vous dire que ce profil est également un profil très recherché et qu’à chaque cas nécessitant Hadoop, il y’a toujours besoin d’au moins un administrateur. Si vous souhaitez vous orienter vers ce profil, nous vous recommandons de vous spécialiser dans les domaines du réseau informatique, de la sécurité informatique et de l’administration des bases de données.
  • 21. Figure 5 : cercle de compétences de base d'un administrateur Big Data 3.6 – L’architecte Un autre profil de métier sur Hadoop est l’architecte. Ce profil de métier plus fonctionnel que technique fait référence d’une part à la capacité de décider des briques Hadoop nécessaires pour la résolution d’une problématique précise, et d’autre part à la capacité à intégrer cet ensemble à l’architecture informatique existante de l’entreprise ou à la modifier de sorte qu’elle puisse s’intégrer avec celle-ci. C’est plus un travail conceptuel et fonctionnel qu’un travail technique. Habituellement, les architectes de ce type de profil travaillent dans l’urbanisation des systèmes d’information, on les appelle souvent architectes des SI ou urbanistes des SI. A la différence des architectes des SI qui fournissent la cartographie du système d’information de l’entreprise, l’architecte Hadoop lui, fournit la cartographie des outils Hadoop à utiliser, montre l’impact que cela aura dans l’architecture du SI de l’entreprise et travaille avec les décideurs pour la mettre en place. Si vous voulez suivre ce profil alors, nous vous recommandons de vous spécialiser dans la gestion de projets, la maîtrise d’ouvrage et le développement Hadoop en général. Une fois que vous aurez choisi votre profil de métier, vous pourrez le développer à l’aide d’un ou plusieurs programmes de certifications, ou encore d’un cursus de formation tel qu’un Master ou une formation professionnelle. Plus bas, nous allons vous fournir les six compétences que vous devriez développer pour chacun de ses profils et nous présenterons dans un graphique radar le niveau requis de chacune de ces six compétences par profil métier. Ainsi, vous serez
  • 22. plus clairs dans votre quête pour vous lancer dans le Big Data. En attendant, nous allons parler d’un sujet très sensible du moment : l’intelligence artificielle. Plus précisément, nous allons vous montrer le rapport entre les robots et les emplois dans le Big Data. Ceci vous aidera à comprendre pourquoi vous avez besoin des compétences que nous évoquerons par la suite. Figure 6 : cercle de compétences de base de l'architecte Big Data 4 – Intelligence Artificielle & Big Data : les robots vont-ils détruire nos emplois ? Cette question est très pertinente et beaucoup se le pose. A l’heure où les progrès de l’intelligence artificielle ont permis de d’automatiser de nombreuses tâches, supprimant au passage beaucoup d’emplois, la question de l’automatisation se pose désormais. D’autant plus que l’intelligence artificielle étant une discipline comme une autre dans la valorisation des données, la précision de ses résultats dépend de la quantité et de la qualité du volume de données à analyser, chose que le Big Data offre. Il y’a beaucoup de confusions autour de ce qu’est véritablement l’Intelligence Artificielle et à ce jour, il n’y’a pas de définition admise. Nous allons proposer une définition sur la base d’interviews que nous avons eues avec des « vrais » experts du domaine. Pour définir l’Intelligence Artificielle, il faut commencer par définir l’intelligence. L'intelligence est la faculté de base de tous les êtres vivants, c'est le raisonnement sur la connaissance, en d’autres termes, la capacité à prendre une décision sur ce que l’on sait. A partir de cette simple définition, on peut extrapoler et dire que l'intelligence artificielle c'est le
  • 23. raisonnement automatisé appliqué à des bases de données ou des bases de connaissance. Autant vous dire par cette définition que les champs d’application de l’Intelligence Artificielle sont très vastes !! Il est possible d’automatiser un grand nombre de processus métiers, puisque ceux-ci s’appuient sur des règles de décision type si événement A alors action B, sinon si événement C alors action D. Mais ce qui nous intéresse dans le cadre de cet ebook c’est le futur de nos métiers. Malgré les opportunités créées par le Big Data, va- t’on se retrouver remplacés par les robots ? Pour répondre à cette question, nous allons aller du côté de l’économie. 4.1 – Richesse accrue par automatisation et élimination des tâches moins productives Dans l'économie industrielle, les biens et services étaient produits par combinaison de la main d'œuvre et du capital. Cependant, l'avancée dans le domaine de l'intelligence artificielle et l'automatisation des tâches par les robots a entraîné un déclin de la part de la main d'œuvre dans ce processus. Pour beaucoup, la robotisation - le remplacement des hommes par les machines est effrayant. Ces personnes s’inquiètent de l’impact négatif de l’automatisation des taches sur la société. Cependant, cette crainte est non- fondée, parce que chaque fois qu’un humain est remplacé par une machine, la société dans son ensemble devient plus riche. Oui, vous avez bien lu ! Chaque fois qu’un robot remplace un être humain, la société devient plus riche ! Illustrons cela à l’aide d’un exemple très simple. Supposons une île auto- suffisante habitée par 10 personnes qui vivent de la pêche d’un bateau collectif. Les 10 personnes pêchent chacune à l’aide d’une canne à pêche. Supposons maintenant qu’une innovation technologique en matière de pêche fasse son apparition sur l’île : le filet de pêche. Dorénavant, à la place d’une canne, un large filet est utilisé. Grâce à ce filet, désormais 2 personnes suffisent pour pêcher autant de poissons que 8 cannes à pêche : une personne pilote le bateau et l’autre jette le filet. En surface, il semble effectivement que le chômage ait augmenté de 0 à 80% avec l’arrivée du filet de pêche, puisque 8 personnes sur 10 sont maintenant sans emploi. Cependant, bien que ces 8 personnes soient chômage, la société dans son ensemble est toujours aussi riche qu’avant, puisqu’elle reçoit toujours la même quantité de poissons que celle qui était pêchée par ces 8 personnes. C’est exactement ce qui arrive chaque fois qu’un robot, une machine ou une innovation technologique majeur remplace ou automatise le travail d’un humain. A court terme, la société est toujours aussi riche parce qu’elle reçoit toujours le produit du travail de l’humain qui a été remplacé par le robot, et dans le long terme, elle sera même plus riche lorsque celui-ci trouvera un nouveau travail.
  • 24. Maintenant la question qui se pose est comment gérer le problème de chômage créé par l’automatisation du travail ? Dans l’exemple de notre île, le gouvernement a deux options : soit il taxe à 80% les 2 personnes qui continuent la pêche et redistribue entièrement ces 80% aux 8 personnes qui sont chômage. Soit il aide les 8 personnes en chômage à trouver de nouveaux emplois. Malheureusement, la première option est celle qui est appliquée aujourd’hui au problème de la robotisation. Suivez mon regard… Ce type d’accroissement de productivité massive (2 personnes faisant le travail de 10) est ce qui arrive dans l’ère du Big Data. La majorité des emplois même ceux de cadre que nous avons vont inévitablement finir automatisés demain. Chaque fois qu’un travail salarié existe quelque part, gardez à l’esprit que ce n’est qu’une question de temps avant qu’un entrepreneur chevronné trouve le moyen de l’automatiser (Uber, Airbnb, McDonald, ça vous rappelle quelque chose n’est-ce pas ?). Dans le Big Data dans lequel nous sommes, la richesse est accrue par automatisation et élimination des tâches les moins productives et création d’emplois plus productifs. A mesure que l’innovation technologique progresse, des emplois sont supprimés, le chômage augmente mais le PIB reste constant parce que la société continue de recevoir les produits et services des emplois détruits par le biais de la technologie. Par contre, le PIB va drastiquement augmenter lorsque l’employé remplacé trouvera un nouvel emploi. Ceci est le nouveau processus économique, technologique ou alchimique nous avons envie de dire, par lequel la richesse est créé dans l’ère du Big Data. Aussi mauvais que le chômage puisse paraître, il n’est que la première étape du processus alchimique conduisant à la création de richesse. Pour comprendre plus en profondeur ce rapport étroit entre l’innovation technologique et la quantité de richesse créée, nous vous recommandons de vous procurer l’ouvrage « Unlimited Wealth » de Paul Zane PILZER et de consulter les travaux de Joseph Schumpeter sur le processus de destruction créatrice. 4.2 – Le dilemme du chômage paradoxal Le problème - ou le dilemme auquel fait face la société aujourd’hui - est le cycle de chômage paradoxal par lequel plus de richesse est créé dans la société : chaque année, alors que nous emplois sont détruits ou automatisés par l’Intelligence artificielle ou autre technologie efficiente, on constate une forte disparité grandissante dans notre population : l’employé qui perd son emploi est de moins en moins celui qui en trouve. L’intelligence artificielle semble créer une classe d’anciens employés qui manque les compétences nécessaires pour décrocher les nouveaux emplois créés, et une autre classe d’employés dont les
  • 25. opportunités semblent illimitées. Chief Digital Officer, Data scientist, Consultant Big Data, Growth Hacker, sont autant de métiers créés par l’évolution technologique qui ne sont pas nécessairement à la portée d’anciens employés. De l’autre côté, dans l’industrie automobile, si vous étiez un mécanicien expérimenté dans la réparation des carburateurs, vous seriez expulsés du marché lorsque ceux-ci étaient progressivement remplacés par les injecteurs de carburant. Le même raisonnement s’applique lorsque les tableaux de bord mécaniques des véhicules étaient progressivement remplacés par des tableaux de bord électroniques, etc. Clairement, les technologies évoluent tellement vite que mettre à jour ses compétences par rapport à leur évolution est inutile. Que faire lorsque votre emploi actuel sera obsolète demain à cause de l’automatisation par un robot ? Tout d’abord, la solution ne consiste pas à devenir un spécialiste. Lorsque vous vous spécialisez, surtout technologiquement, vous prenez le risque d’être obsolète à peine quelques mois ou années plus tard. Le temps moyen de péremption d’une technologie aujourd’hui est estimé à 6 mois. Si vous étudiez bien les entreprises qui ont mis les clés sous le paillasson comme Kodak ou les maisons de disques, vous vous rendrez compte que la spécialisation, qui a pendant longtemps été leur point fort est devenu avec l’évolution technologique leur point faible. Kodak n’a pas pu s’adapter au changement de la pellicule vers le numérique, Nokia n’a pas su s’adapter des téléphones à claviers aux smartphones. Les fabricants de cassettes n’ont pas su s’adapter à l’arrivée de CD, etc. La solution consiste à développer une compétence générique, une compétence qui vous permettra d’acquérir de nouvelles compétences à mesure que la technologie progresse. Par exemple, l’apprentissage d’une langue. La langue est une compétence générique car elle vous permet de développer d’autres compétences. Au lieu d’étudier Scala, étudiez la programmation fonctionnelle, au lieu d’étudier Spark, apprenez la programmation distribuée, au lieu d’apprendre Word 2016, apprenez le traitement de texte. L’idée est d’éviter de fonder votre compétence sur la spécialisation sur une technologie et ainsi éviter de « vous retrouver avec des compétences qui ne servent plus à rien » comme l’a si bien dit Henri Steele Commager. Ce type de compétence générique qui vous permet d’acquérir d’autres compétences est appelé par les économistes les compétences de bases. Nous aimons les qualifier par compétences de long terme. Alors, à la question : « les robots vont t’ils détruire nos emplois », notre réponse est oui ! Mais pas de panique ! Ils nous rendront proportionnellement riches et créeront de nouveaux emplois. Par contre, cette nouvelle richesse et ces nouveaux emplois ne seront accessibles qu’aux personnes qui ont su les anticiper auparavant et développer les compétences de base nécessaires pour
  • 26. les saisir. Dans le prochain point, nous allons vous indiquer précisément ces compétences en question. 5 – Les 6 compétences de base à développer pour réussir dans le Big Data Le Big Data va de pair avec l’Intelligence Artificielle. Alors que celle-ci s’applique à de nombreux secteurs d’activités, de nombreux emplois sont détruits. Paradoxalement, de nombreux autres sont créés. Selon les estimations de plusieurs cabinets de conseil et d’expertise, le Big Data va créer d’ici 2020 plus de 4,4 millions d’emplois. Déjà une étude menée par Dell en 2013 montrait que 74% des entreprises européennes étaient convaincues de l’intérêt du Big Data dans leurs activités. Une année après, une étude menée par CAPGEMINI montrait que 43% des entreprises étaient en train de se restructurer pour saisir les opportunités du Big Data dans les 3 années à venir. Ces chiffres montrent que malgré l’engouement médiatique qu’il y’a autour du Big Data, l’opportunité est bel et bien réel. Par ailleurs, par le projet de la Nouvelle France Industrielle, le gouvernement espère la création de 100 000 emplois directs dans le Big Data d’ici 2018. Autant vous dire donc que l’intérêt pour le Big Data est bien réel et que l’opportunité est là. Quelles sont ces 6 compétences de base nécessaires pour réussir dans le Big Data ? A titre de rappel, une compétence de base n’est pas une compétence opérationnelle, c’est une compétence générique qui vous permet d’acquérir d’autres compétences plus spécifiques et opérationnelles. Dans le cadre de nos recherches, de notre expérience et des interviews avec des entreprises, nous avons identifié 6 compétences de base : le SQL, la programmation, la connaissance d’Hadoop, la communication, l’esprit d’équipe et la capacité à se former seul(e). 5.1 – Le SQL La première compétence de base indispensable pour travailler dans le Big Data est le SQL. Le SQL est le langage de manipulation et d’interrogation des bases de données relationnelles. Avec le rapprochement de l’Analytics aux métiers, il est devenu plus que jamais le langage standard de requête et d’interrogation des bases de données. Malgré les multiples tentatives de le déclasser, il a su s’imposer sur le marché depuis plus de 20 ans comme étant le langage de choix pour l’exploitation des données. Avec l’accroissement exponentiel du volume de données auquel nous assistons, il n’est pas difficile de prédire qu’Hadoop, le logiciel de traitement des données à grande échelle, va devenir la plateforme standard de traitement de données, un peu comme l’est progressivement devenu Excel peu de temps après l’essor des PC. Problème : à la différence
  • 27. d’Excel, Hadoop n’a pas été conçu au départ pour être utilisé par les utilisateurs métier, mais par les développeurs. Or, l’expérience a et continue de montrer que l’adoption à grande échelle d’une technologie et son succès ne dépendent pas des développeurs, mais des utilisateurs métiers (confère la loi de Metcalfe). Pour qu’une technologie accroche les métiers, il faut absolument qu’elle soit transparente pour eux, c’est-à-dire qu’elle ne leur demande aucune compétence supplémentaire et Hadoop n’y fais pas exception. Aujourd’hui, en matière de gestion de données, le SQL est la compétence favorite des métiers. De plus, les entreprises utilisent de plus en plus le HDFS, le système de fichiers distribué d’Hadoop comme répertoire de stockage central pour toutes leurs données, données provenant pour la plupart des systèmes opérationnels (comptabilité, marketing, finance, Ressources Humaines, etc.) ; la majorité des outils d’exploitation de ces données (par exemple Business Objects, Oracle, SAS, Teradata, Tableau, etc.) s’appuient sur le SQL. C’est pourquoi le SQL est une compétence clé pour travailler et réussir dans le Big Data. La fondation Apache a bien compris ce rapport étroit qui existe entre le SQL et les analystes métiers, c’est pourquoi depuis qu’elle a repris Hadoop en 2009, elle s’évertue à le rapprocher le plus que possible du SQL. Ainsi, la connaissance du SQL va vous permettre d’utiliser les outils comme Hive, Impala, HawQ, Presto, qui sont des outils qui permettent d’exécuter le SQL directement sous Hadoop. Bien entendu, Hadoop, HDFS, Hive, HawQ, Presto, Impala dépassent largement le cadre de cet ebook. Nous allons parlerons de façon très brève plus bas. 5.2 – La programmation Le philosophe Ludwig Wittgenstein, disait déjà : « les limites de mon langage signifient les limites de mon monde ». La maîtrise de la programmation dans un langage évolué tel que Java, Scala ou Python est la deuxième compétence que vous devez posséder pour réussir dans le Big Data. Malgré la large échelle d’adoption du SQL dans le Big Data, celui-ci reste un langage déclaratif. En d’autres termes, il donne la possibilité d’écrire ses programmes sous forme d’instructions déclaratives qui indiquent le QUOI sans entrer dans les détails du COMMENT. Ici l’utilisateur définit ce qu’il souhaite obtenir à l’aide d’un ensemble d’instructions et de mots clés tels que SELECT, GROUP BY, WHERE, et le moteur du langage se charge de traduire ces instructions en plan d’exécution. Bien que cette approche permette de simplifier le développement, elle a pour principal inconvénient de limiter la complexité des problèmes qui peuvent y être exprimés. Les langages de programmation fonctionnelle telle que Scala, ou Pig permettent d’écrire les applications sous forme de séquences d’opérateurs qui permettent d’exprimer le cheminement nécessaire pour obtenir son résultat. Ce style de programmation offre une plus grande flexibilité sur le type de problème qui peut être exprimé par l’utilisateur. Des langages plus
  • 28. évolués comme le Java ou le C++ permettent d’aller plus loin et de développer de nouvelles fonctionnalités sous forme de procédures/fonctions qui s’appellent les unes aux autres. Grâce à cette caractéristique, l’utilisateur peut gérer ses programmes comme des projets applicatifs entiers et a un contrôle total sur leur performance. Nous vous recommandons d’apprendre jusqu’à proéminence au moins un type de programmation (fonctionnelle, objet, déclaratif) et un langage de programmation. Quant à vous indiquer lequel, ce serait plus difficile, car le niveau popularité des différents langages varie sans cesse. Actuellement, les trois langages les plus populaires pour le Big Data sont : Java, Scala et Python. 5.3 – La connaissance d’Hadoop De façon traditionnelle, la gestion des données consiste à centraliser le stockage et le traitement des données sur un serveur placé dans une architecture clients/serveur. Avec l’explosion du volume de données, pour réussir à exploiter les « Big Data », l'approche n'est plus de centraliser le stockage et le traitement des données sur un serveur, mais de distribuer leur stockage et de paralléliser leur traitement sur plusieurs ordinateurs (un cluster). Il existe plusieurs outils qui implémentent cette approche, mais Hadoop est aujourd’hui l’outil le plus mature du marché et par conséquent le plus adopté. D’ailleurs, avec l’intégration d’Hadoop au SQL, il n’est pas difficile de prédire qu’il va devenir la plateforme standard de traitement de données, un peu comme l’est progressivement devenu Excel peu de temps après l’essor des PC. Ainsi, si vous souhaitez travailler dans le Big Data, il vous faut impérativement connaitre le fonctionnement d’Hadoop. Attention, l’idée ici n’est pas d’être expert, mais d’avoir les connaissances de base pour pouvoir l’utiliser à son maximum. Hadoop représente un changement dans la manière d’aborder les traitements de données. Il vous faut donc prendre le temps de comprendre en quoi consiste ce changement. 5.4 – La communication S’il y’a bien une compétence qui est très négligée aussi bien dans le monde de la technologie que dans le monde du développement logiciel, c’est la communication. La communication c’est l’art de transmettre de façon claire ses idées à une audience. La communication est la capacité de transmettre ses idées de sorte que les autres non seulement comprennent ce que vous dites mais aussi le sens de ce que vous dites. C’est également la capacité d’écouter et de comprendre les autres. Une communication est efficace lorsque les autres membres de l’équipe perçoivent tous le sens du message transmis par le destinataire. Tacler les problèmes du Big Data exige des compétences très variées. Le mythe du mouton à 5 pattes que représentait le Data Scientist à l’époque est tombé. Les entreprises ont compris que si elles veulent
  • 29. véritablement saisir les opportunités du Big Data, il est plus réaliste de se constituer des équipes pluridisciplinaires (équipes composées de compétences différentes, mais complémentaires) composées de professionnels de différents métiers que d’essayer de recruter une super star. Dès lors, on assiste de plus en plus à des projets Big Data regroupant des métiers de différents pôles de l’entreprise. Par exemple, vous aurez dans la même équipe des développeurs, des analystes marketing, des administrateurs, des chefs de projets, des infographes et des managers. Cette approche d’équipe pluridisciplinaire porte même un nom : le DevOps. Avec l’approche DevOps prenant de plus en plus d’ampleur, il devient crucial pour les membres d’une équipe de pouvoir communiquer de façon à ce que des personnes issues de métiers différents puissent comprendre et que le projet soit livré dans les délais. Ainsi, si vous voulez réussir en Big Data, au-delà des qualifications techniques comme le SQL, Java, Scala ou Hadoop, nous vous recommandons fortement de développer et d’affiner continuellement vos capacités communicationnelles. Vous en aurez besoin pour communiquer aussi bien avec les directeurs, les managers, les techniciens que les commerciaux. De plus, cette compétence transverse vous aidera dans plusieurs autres domaines de votre vie non reliée aux activités professionnelles. 5.5 – L’esprit d’équipe En plus de devoir aimer travailler dans des équipes mixtes, en Big Data, il est également très important d’avoir l’esprit d’équipe, d’apprendre des autres membres de l’équipe et de leur enseigner ce que vous savez. Aujourd’hui, la technologie évolue très rapidement, les entreprises rencontrent des nouveaux challenges tous les jours. Vous devez donc avoir la capacité de collaborer avec les autres membres de l’équipe sur une base régulière, combiner vos forces avec les leurs afin d’avoir une vision 360° et de pouvoir bénéficier de l’effet de MasterMind. A titre explicatif, l’effet MasterMind c’est l’effet synergétique provoqué par la concentration combinée de plusieurs personnes. 5.6 – La capacité à se former continuellement en autodidacte Dans l’âge industrielle, l’âge moyen de la retraite était de 65 ans parce qu’à cet âge, les individus étaient trop fatigués pour soulever les pneus et placer les moteurs dans les véhicules dans les lignes d’assemblages. Aujourd’hui, on est techniquement obsolète et prêt pour la retraite tous les 18 mois, qui représente le rythme avec lequel la technologie évolue aujourd’hui. L’ère Numérique est résolument une ère autodidacte, une ère où chacun apprend de lui-même que de ses parents comme c’était le cas dans l’ère agraire ou de la fac comme c’était le cas dans l’ère industrielle. Il est bien connu en vertu de la loi économique de
  • 30. la rareté que le salaire d’un individu n’est pas fonction de son ancienneté ou de son niveau d’expérience comme on le pense intuitivement, mais de sa rareté. Cependant, dans le Big Data, la rapidité des progrès technologiques fait qu’il est de plus en plus difficile d’être rare (ou de se différencier). Les technologies évoluent tellement vite qu’il est devenu inutile de suivre leur évolution. Lorsque vous vous spécialisez technologiquement, vous prenez le risque d’être obsolète à peine quelques mois ou années plus tard. Le temps moyen de péremption d’une technologie aujourd’hui est estimé à 6 mois et il est établi que la moitié des technologies qu’un étudiant en informatique apprend lors d’un programme de Master est démodé lorsqu’il arrive à la troisième année du programme d’étude. Ceci n’est pas juste propre au Big Data. Prenez l’industrie automobile par exemple, lorsque les entreprises quittent des véhicules de moteur à combustion pour les remplacer par les moteurs à injection, que pensez-vous qu’il se passe pour toutes les personnes qui sont spécialisés dans la maintenance des moteurs à explosion ? Bien évidemment, elles sont précipitées au chômage. De même, lorsque le tableau de bord mécanique des véhicules est progressivement remplacé par des tableaux de bord électroniques, est-il difficile de deviner ce qui arrive aux spécialistes des tableaux de bord mécaniques ? Comme nous l’avons souligné plutôt, face à cette rapide recrudescence technologique, le succès exige de posséder les compétences de base. Au lieu de vous spécialiser, il faut développer des compétences conceptuelles qui vous permettront de vous adapter à tous les futurs changements dans votre marché. Par exemple, au lieu d’apprendre la programmation en Scala, vous apprendrez la programmation fonctionnelle. Au lieu d’apprendre Hadoop, vous apprendrez les principes et les architectures de calcul distribué. Donc, dans votre apprentissage autodidacte, éviter de tomber dans le piège de la technique, la recherche rapide du concret. Restez conceptuelle dans un premier temps, développez des compétences génériques pour comprendre le socle des technologies que vous allez apprendre. Ce n’est qu’une fois que vous l’aurez fait que vous pourrez décider de développer vos compétences sur une technologie particulière. Nous allons maintenant répondre à des questions que vous vous posez en ce qui concerne votre orientation dans le Big Data, votre carrière et vos préoccupations. La majorité de ces questions m’ont été posées par des journalistes, nos lecteurs et par les participants de la conférence jointe à cet ebook que nous avons eu en Novembre dernier avec les éditions ENI sur le thème « les clés pour saisir les opportunités du Big Data ». Nous vous enverrons le replay audio de cette conférence dans votre mail dans quelques jours.
  • 31. 6 – Q & A - l’auteur répond à vos questions La réponse à quelques questions fréquentes qui m’ont été posées lors de la conférence sur les 6 clés du Big Data et qui me sont régulièrement posées par les journalistes. 1) Que conseillez-vous à une personne débutante dans cet univers ? La première chose que je conseillerais à quelqu’un qui veut se lancer dans le Big Data c’est de se procurer l’ouvrage « Hadoop – Devenez opérationnel dans le monde du Big Data ». L’ouvrage vous aidera à avoir une vision globale aussi bien technique que stratégique du Big Data. Si vous voulez monter en compétence dans l’univers d’Hadoop et le Big Data, nous vous recommandons de choisir votre profil métier et de développer les compétences exigées par ce profil métier. Cela vous permettra de ne pas disperser vos efforts et d’être spécialisé sur un métier du Big Data bien précis. A titre de rappel, les 6 profils métiers que vous retrouverez d’ailleurs dans notre ouvrage sont les suivants : Data Engineer, Data Scientist, Développeur, Architecte, Administrateur et Growth Hacker. Dans l’ouvrage, nous présentons ces profils métiers donnons les recommandations nécessaires (formations, certifications, aptitude, orientation, demande sur le marché, exigences, etc.) pour faire la transition vers ces profils. 2) Pouvez-vous décrire, en vous basant sur votre expérience, comment se passe un projet Hadoop et quels talents sont mobilisés ? Bonjour David, bien sûr ! Hadoop est utilisé dans les projets qualifiés de « Big Data » pour aider les entreprises à traiter leurs volumes massifs de données. A ce jour, il n’y’a pas de consensus arrêté pour caractériser ce qu’est un projet « Big Data », mais en général ce sont des projets de traitement et de valorisation de données pour la détection de nouvelles opportunités pour l’entreprise. Ce type de projet requiert plusieurs types de talents, spécialement : les managers, qui définissent l’orientation du projet et mettent à disposition le budget nécessaire pour conduire le projet, les chefs de projet, pour superviser l’exécution du projet et sa livraison dans les délais impartis, les chargés de MOA pour la définition des uses cases métiers à implémenter et la vérification de la conformité des applications développées aux exigences métiers, les Data Engineers, pour le développement des applications de d’intégration et de traitement de données, les data scientist pour le développement de modèles statistiques et de machine Learning qui font parler les données, les architectes et les administrateurs pour l’administration de la plateforme Hadoop. Notez que toutes ces compétences ne sont pas nécessairement requises pour tous les projets Big Data, tout dépend des objectifs de l’entreprise, de son budget et de son management. Dans certains projets, Hadoop est juste utilisé pour
  • 32. développer des PoC, auquel cas il n’est pas nécessaire de mobiliser toutes ces compétences. 3) Business Intelligence et Hadoop, est-ce le même monde ? Une personne spécialisée en BI sera-t-elle perdue dans un monde Big Data ? On va dire que c’est le même but, mais ce n’est pas la même approche. En business Intelligence, on cherche à améliorer la performance selon le schéma classique « Sources de données -> ETL -> Data Warehouse -> Cubes OLAP - > Analytics/Reporting ». Avec Hadoop, on est dans une approche massivement parallèle où Hadoop fait office aussi bien de socle de stockage que de moteur de traitement. Une personne spécialisée en BI en fonction de sa préférence (ETL, OLAP, Reporting) aura plus ou moins de mal à monter en compétence en Big Data. Après, tout dépend. Il est tout à fait possible de transférer sa préférence de la BI au Big Data. Par exemple, si en BI vous étiez spécialisé sur l’écriture des requêtes, il vous sera facile de vous spécialiser sur l’écriture des requêtes SQL en Hadoop. En fait, l’apprentissage en Big Data se fait selon un profil métier. Il vous faut juste choisir le profil métier qui vous convient et suivre les recommandations que nous donnons pour développer vos compétences. Dans notre ouvrage, nous présentons ces profils métiers (il y’a en a 6) et nous donnons les instructions nécessaires pour faire la transition vers le Big Data. 4) Pensez-vous qu'Hadoop pourra être totalement délaissé dans le futur ? Vous savez, un contemporain a dit une fois que l’art de la prédiction est extrêmement difficile surtout en ce qui concerne la technologie, ce qui est vrai. Toutefois, , nous avons la certitude qu’Hadoop va devenir la plateforme standard de traitement de données un peu comme Excel l’est devenu dans les années 90 jusqu’aujourd’hui. Pourquoi ? Tout simplement parce que l’expérience a montré à mainte reprise et continue de montrer que l’adoption à large échelle d’une technologie dépend des métiers, et non des développeurs. C’est surement guidé par ce constat que Bob Metcalfe a énoncé sa fameuse loi qui porte son nom : « la valeur d’une technologie est proportionnelle au carré du nombre de personnes qui l’utilise ». Ainsi, pour reconnaître les technologies du futur, il faut juste voir si elles remplissent les conditions pour être adoptées à grande échelle par les utilisateurs métiers. La condition siné quanon d’adoption d’une technologie à large échelle est la transparence à l’utilisateur. En d’autres termes, pour qu’une technologie soit adoptée à large échelle, il ne faut pas qu’elle requiert à l’utilisateur plus de compétences qu’il n’en possède. Aujourd’hui, le SQL est un langage très transparent et très utilisé par les métiers. Ainsi, pour qu’une technologie de données leur séduise, il faut absolument qu’elle leur donne la possibilité d’utiliser le SQL. En plus d’être mature et stable, Hadoop est l’une des rares technologies du Big Data complètement intégré au SQL, ce qui fait qu’elle ne risque pas d’être délaissée d’aussitôt !
  • 33. 5) Hadoop est souvent associé à une sphère de technologies variées. Pour n’en citer que certains, Spark, Flink, Kafka, Storm, floutant quelque peu la frontière fonctionnelle entre chaque composant. N’est-ce pas un frein à l’apprentissage et comment faire pour s’y retrouver ? En effet, à la base, Hadoop n’a pas été conçu selon une approche « one-size- fits-all », c’est-à-dire comme un logiciel qui va fournir toutes les fonctionnalités à tous les uses cases possibles du Big Data, mais selon une approche modulaire. C’est pourquoi on dit qu’il est un « framework ». Cette approche a l’avantage de favoriser le développement des solutions spécifiques à une problématique Big Data précise tout en gardant le même socle technologique qui est Hadoop. L’ensemble des solutions qui gravitent autour d’Hadoop aujourd’hui constitue ce qu’on appelle l’écosystème Hadoop. C’est généralement le manque de compréhension de ce fait qui entraîne la confusion et freine l’apprentissage. Dans l’ouvrage, nous expliquons que le développement d’une solution en Hadoop est similaire à l’assemblage de plusieurs puzzles LEGO. Il faut savoir combiner l'ensemble des solutions de l’écosystème de manière à ce que cet ensemble réponde au besoin de la problématique métier considérée. Ainsi, l’apprentissage d’Hadoop ne va pas se faire solution par solution ou logiciel par logiciel, mais selon ce que nous avons qualifié dans l’ouvrage de profil de métier Hadoop. Le profil de métier Hadoop fait référence aux compétences relatives à un ensemble spécifique d’outils de l’écosystème Hadoop pour répondre aux besoins d’une problématique métier précise. Vous trouverez la suite de ces questions dans la vidéo conférence jointe à l’ebook. 7 – Conclusion Comme vous pouvez le voir, un vrai changement est en cours, le Big Data est bien là et apporte des opportunités qui sont bel et bien réelles. Ceux qui seront proactifs, sortiront de leur zone de confort choisiront leur profil et développeront les compétences que nous avons énoncées dans cet ebook bénéficieront professionnellement, socialement, et financièrement des opportunités que le Big Data a à offrir. Ceux qui ne sortirons pas de leur zone de confort et continuerons à procrastiner ou nier l’évidence du Big Data finirons surpris et frustrés de n’avoir pas réagi suffisamment à temps. Souvenez-vous, 100 000 emplois directs sont prévu par le gouvernement cette année seulement. Nous avons écrit cet ebook pour vous rendre conscient des opportunités qui existent dans le Big Data et pour vous orienter dans vos choix de carrière et d’orientation.
  • 34. Maintenant, notre prière pour vous est que vous prenez les devants et embrassiez le monde fabuleux dans lequel nous vivons actuellement, le monde du Big Data ! Nous avons rédigé l’ouvrage « Hadoop Devenez opérationnel dans le monde du Big Data » pour vous accompagner dans le développement de ces 6 compétences. Plus précisément, l’ouvrage « Hadoop Devenez opérationnel dans le monde du Big Data » va vous munir des compétences de long-terme dont vous aurez besoin pour travailler dans le Big Data. Vous y retrouverez 3 chapitres entièrement consacré au fonctionnement d’Hadoop ; le chapitre 7 vous aidera à développer les compétences nécessaires pour écrire et exécuter du SQL sur Hadoop et le chapitre 11 vous aidera à développer l’état d’esprit d’abondance que vous devez avoir pour détecter les opportunités du Big Data et aider votre entreprise à faire la différence sur son marché. Si vous êtes vraiment déterminés à vous lancer dans le Big Data, alors n’hésitez pas à vous le procurer.
  • 35. Vous pouvez consulter les articles dans lequel est paru l’ouvrage dans les magazines suivants. Vous pouvez également lire les commentaires sur pour voir ce que les lecteurs en pensent : https://commentaires_EIHADto/2V2p
  • 36. Votre avis compte ! Cher lecteur, encore une fois, merci de vous être procuré cet ebook « Travaillez dans le Big Data : les 6 métiers vers lesquels s’orienter ». Nous espérons qu’il a répondu à vos exigences et qu’il a rempli ses 3 promesses à votre endroit à savoir : - vous rendre conscient des opportunités disponibles pour vous dans le Big Data ; - vous orienter dans votre choix de carrière Big Data - vous indiquer les profils métiers et les compétences que vous devez développer pour réussir dans le Big Data. Maintenant que vous avez fini sa lecture, n’hésitez pas à en parler autour de vous, de le recommander à ceux qui peuvent en avoir besoin. N’hésitez pas également à entrer en contact avec nous, nous voulons être connectés avec vous, nous serons ravis de connaitre ce que vous avez apprécié ou pas de l’ebook, de répondre à vos questions et de vous aider à progresser dans l’acquisition de vos nouvelles compétences. Pour entrer en contact avec nous, vous pouvez : - visiter le site web dédié au projet dans lequel fait partie l’ebook : http://www.data-transitionnumerique.com/hadoop - Nous écrire directement sur l’adresse : contact@data-transitionnumerique.com Vous pouvez également nous contacter sur les réseaux sociaux via : - Facebook: https://www.facebook.com/transitionnumerique - Twitter projet : https://twitter.com/DataTransNume/ - Twitter auteur : https://twitter.com/Juvenal_JVC - Linkedn auteur : https://fr.linkedin.com/in/juvenal-chokogoue N’hésitez pas à utiliser ces supports pour tous vos besoins, nous serons ravis d’entrer en contact avec vous et de répondre à toutes vos questions. Nous vous encourageons également à laisser un commentaire sur Amazon ou sur le site où vous avez téléchargé l’ouvrage. Cela nous permet de prendre en compte votre niveau de satisfaction pour les futures éditions de l’ebook et cela rassure les éventuelles personnes dans leur décision d’acquérir ou pas l’ebook. Merci d’avance pour votre collaboration.