De nos jours, même les petites entreprises sont capables de générer d’énormes volumes de données. Heureusement pour elles, la technologie a suivi et, à l’aube de Big Data, nous sommes maintenant en mesure de stocker et d’analyser ces données numériques (lire notre précédent article sur l’Hydre de la cybersécurité et son Big Data Némésis ici). Ce qu’il faut retenir est que, alors que cela peut sembler être une « Big Réponse », nous sommes confrontés à une encore plus « Big Question ».
1. La Big Question du Big Data
De nos jours, même les petites entreprises sont capables de générer d’énormes volumes de données.
Heureusement pour elles, la technologie a suivi et, à l’aube de Big Data, nous sommes maintenant en mesure
de stocker et d’analyser ces données numériques (lire notre précédent article sur l’Hydre de la cybersécurité et
son Big Data Némésis ici). Ce qu’il faut retenir est que, alors que cela peut sembler être une « Big Réponse »,
nous sommes confrontés à une encore plus « Big Question ».
L’objectif du Big Data n‘est pas d’explorer et de trouver de nouvelles sources d’information, mais de collecter et
de dévoiler celles déjà présentes, en utilisant de nouvelles méthodes – un peu comme un archéologue moderne.
Le but est simple : interpréter ces données pour en extraire les informations utiles. Alors qu’en théorie tout cela
semble parfait, nous pouvons nous demander comment les entreprises parviennent à transférer ces tonnes de
données, à l’intérieur et entre les réseaux, de manière sécurisée ?
Il est clair pour nous que les experts en cybersécurité ont du mal à surveiller toutes ces données en transit et,
de fait, les attaques furtives passent facilement inaperçus. Qu’est-ce qu’un Directeur Informatique est censé faire
dans ce cas ? Souvent, il embauche un peu plus de personnel. Est-ce qu’une personne supplémentaire examinant
les faux positifs à un véritable impact ? Il n’est pas certain que cette approche soit la bonne. Alors que les
menaces deviennent de plus en plus sophistiquées et l’environnement organisationnel ayant tendance à évoluer,
sans parler de l’imminente pénurie de talents en cybersécurité, employer plus de personnel peut non seulement
se révéler coûteux, mais également contre productif.
Que le meilleur robot gagne
La logique des solutions de sécurité moderne a depuis longtemps dépassé le simple paradigme « si/alors ».
Aujourd’hui l’apprentissage automatique (en anglais, Machine Learning) est basé sur des algorithmes capables
de juger une situation en analysant si un élément A estsimilaire à un élément B connu. Il en va de même quand
on passe entre les paradigmes de programmation – de fonctionnel à impératif, par exemple. Une approche
fonctionnelle consiste à décomposer le problème en un ensemble de fonctions à exécuter et de définir
soigneusement l’input de chaque fonction (la valeur retournée est donc entièrement dépendante des données
d’entrée). Avec une approche impérative (appelée aussi programmation algorithmique) pour la résolution de
problèmes, un développeur définit une séquence d’étapes / instructions qui se produisent dans le but d’atteindre
l’objectif.
Par définition l’apprentissage automatique est un sous-ensemble d’intelligence artificielle, il peut être supervisé,
non-supervisé ou partialement supervisé. Comme leurs noms l’indiquent, chaque type de supervision implique
un certain degré de participation de la part de l’opérateur et exige un ensemble spécifique d’algorithmes. De
nombreuses voix s’élèvent et affirment qu’étant donné la rareté des professionnels expérimentés en
cybersécurité, l’objectif devrait être de les remplacer complètement par une sorte de super intelligence artificielle,
omnisciente et capable de déraciner toutes les menaces en sécurité. Ceci est le scénario dystopique cliché
« homme contre machine », où l’intelligence artificielle toute-puissante gagne. Passons de la fiction à la réalité
: le monde attend de pied ferme ce parfait système d’apprentissage automatique, un système capable de savoir
ce que nous voulons savoir avant même que nous en soyons conscient. Et c’est là que nous sommes en
désaccord.
2. De plus en plus de robots et intelligences artificielles se révèlent plus performant que les humains dans de
nombreux domaines (voir quels sont les 10 emplois ou les robots sont déjà meilleurs que vous ici), mais la
cybersécurité n’est pas n’importe quel domaine. Bien que le Machine Learning soit génial (il n’y a vraiment pas
d’autre mot) et que des sociétés telles que Facebook et Netflix ait touché le jackpot grâce a ça, la question est
sensiblement différente quand il s’agit du domaine de la sécurité informatique. Ici on ne veut pas mieux tagger
nos photos, ni même recevoir de meilleurs suggestions de films. Dans la cybersécurité, nous devons être en
mesure de détecter les menaces inconnues en dépit des signaux faibles et de réduire ce temps de détection
pour parvenir au quasi temps réel. Le Machine Learning, sans aucune surveillance, n’excelle pas dans ces aspects.
Laisser toutes les décisions à un système ML conduit inexorablement à une fatigue des alertes, une quantité
incommensurable d’alerte de menaces potentielles étant générée – bien au-delà de la capacité d’analyse même
pour les meilleurs d’entre nous. En voyant comment le temps de détection moyen d’une violation peut prendre
des mois, quelque chose doit changer.
Machine Learning : le Jarvis de votre Iron Man
Si ni la machine, ni l’homme ne peut lutter seul contre les cyber-menaces, pourquoi ne pas combiner leurs
forces ? L’objectif ne devrait pas être de remplacer les humains par des IA, ni de laisser tout à l’IA. Si nous
devions chercher l’inspiration ailleurs, disons l’univers Marvel, le meilleur des super-héros sont ceux dont les
pouvoirs sont renforcés par un gadget plus ou moins réaliste. Alors que l’apprentissage de la machine est loin
d’être parfait, il a le potentiel pour être le vrai side-kick de l’analyste expert – l’équivalent de JARVIS, l’intelligence
artificielle de Tony Stark. JARVIS (Just A Rather Very Intelligent System), tout comme le ML, met en garde son
acolyte contre ce qu’il considère être des dangers potentiels et les ignore quand on lui apprend qu’ils n’en sont
pas. Sa capacité de distinction entre les comportements normaux et malveillants s’améliore au fil du temps.
Intégré dans l’armure d’Iron Man et aux défenses de la maison Stark, il est la métaphore parfaite pour illustrer
la symbiose humain / IA à laquelle nous devrions aspirer.
3. Alors, par où commencer ? Eh bien, d’abord, pour un effet plus dramatique, enfilez votre costume d’Iron Man.
Ensuite, essayez de définir clairement votre situation. Avez-vous simplement besoin de détecter les utilisateurs
compromis ou bien craignez vous d’être attaqué ? De toute façon, un cas d’utilisation spécifique doit être
développée. A partir de là, les données nécessaires pour résoudre le problème doivent être identifiées. Si vous
chassez des menaces persistantes avancées il va alors falloir rechercher les informations en ce qui concerne les
infrastructures de sécurité et de réseau existantes. Assurez-vous de combiner plusieurs sources (pas
nécessairement plus, juste diversifiées) pour obtenir une vue à 360 ° de l’activité de vos utilisateurs. Si votre
appareil d’analyse d’apprentissage est multidimensionnel, vous devriez être capable d’attraper des logiciels
malveillants au début de la kill-chain et de repérer des anomalies telles que l’escalade de privilèges, le
mouvement latéral, l’exfiltration de données, etc.
Enfin, soyez patients. La tâche essentielle de l’apprentissage automatique étant de reproduire et de prédire, il
faut du temps. Le système a besoin de recueillir suffisamment de données et de nourrir ses moteurs d’analyse
comportementale afin de parvenir à une classification précise entre les comportements normaux et anormaux.
A partir d’un échantillon de bon code et l’un de mauvais code, la ML est en mesure de les filtres à l’aide
d’algorithmes statistiques et, à travers de multiples itérations, elle apprend lentement à distinguer entre les deux.
Nous disons « lentement », mais il est en fait incroyablement rapide par rapport aux technologies du passé : les
menaces connues sont identifiées presque instantanément à l’aide de bases de connaissances existantes, alors
que dans le cas de menaces inconnues, il est une question de jours (1 semaine avec Reveelium, lire notre
article ici). Mais rappelez-vous – il y a des comportements que nous ne connaissons toujours pas et, en tant que
tel, nous ne pouvons pas les enseigner au système. En outre, alors que les logiciels malveillants peuvent être
prédit de cette façon avec un haut degré de probabilité, c’est toujours l’homme portant le costume d’Iron Man
qui a le dernier mot en la matière.
Liens :
https://www.reveelium.com/fr/big-question-in-cybersecurity/
https://www.itrust.fr/la-big-question-du-big-data/