Article issu de la démonstration technique : « AIRBUS CYBERSECURITY – Malware Detection based on Machine learning »
Les malwares représentent une menace importante pour les entreprises. Leurs formes sont de plus en plus variées et leur nombre en augmentation constante. Pour la seule année 2019, plus d’un milliard de malwares différents ont été détectés.
Devant cette multiplication exponentielle, l’humain et précisément les experts commencent à être dépassés d’avantage en raison du nombre de fichiers à examiner qu’en terme de compétences.
Dès lors, le « machine learning » présente une véritable opportunité, l’automatisation du processus de détection devenant une véritable nécessité. Toutefois, le développement de tels algorithmes de détection est soumis à la résolution d’un grand nombre de contraintes.
La difficulté principale réside dans la détection du type de fichier qu’analyse la machine. En effet, chaque langage possède ses propres spécificités. De fait, un algorithme ne peut pas prendre en compte de manière générale, dans sa programmation, toutes les spécificités de chaque langage. Un analyseur général et des algorithmes spécifiques sont donc nécessaires pour chaque type d’extension de fichier.
Toutefois la distribution n’est pas simple, initialement les algorithmes de détection prenaient en compte ce que l’on appelle les « magic numbers ». Par cette dénomination on désigne une suite de chiffres existant dans chaque type de fichier qui ne diffère pas, peu importe le contenu de celui-ci, lorsque leur extension, « .pdf » par exemple, est identique. Ce « magic number » a donc permis durant un temps de déterminer avec une grande certitude le type de fichier que l’on examinait. Néanmoins cette technique est désormais dépassée. En effet, nombre de malwares sont créés afin d’échapper à ce genre d’analyse. D’une part, les nouveaux malwares dit « polymorphe » ont la capacité de changer leur signature lors de leurs différentes réplications. D’autre part, les malwares sont désormais la plupart du temps camouflés dans des couches successives par la technique de l’encapsulation. Il est donc devenu extrêmement difficile de détecter le véritable type de fichier dans lequel ils sont camouflés. Par ailleurs, il existe également des types de fichiers qui ne comprennent pas d’extension ou de « magic number » strict. Ils étaient dès lors mal identifiés par les algorithmes de détection qui les redistribuaient vers les mauvais analyseurs. Ainsi, durant ses tests, Airbus a notamment remarqué que certains dossiers javascript étaient envoyés dans l’analyseur de fichier texte.
De fait, en raison de ces difficultés, ces nouveaux algorithmes ont désormais été dotés d’une capacité d’analyse supérieure. Ils ne se contentent plus de faire une recherche du « magic number » mais vont examiner le fichier dans son ensemble. Ils en tirent alors, grâce à l’intelligence artificielle et les grandes bases de données dont ils sont dotés, des corrélations qui échappent même aux experts.
Par ailleurs cette capacité d’analyse est également dotée de méthodes d’examen dites par heuristique. En effet, la moindre interrogation de l’analyseur aboutit à la mise en quarantaine du fichier et son ouverture dans un milieu numérique sécurisé. Dans celui-ci, le fichier sera ouvert afin d’en étudier les comportements comme sa duplication, son activité…
Cependant, cette technologie a des limites. En effet, l’analyseur souffre d’un défaut important, la création de faux positifs. On désigne par ce terme, l’ensemble des fichiers qui auront été jugés comme pouvant constituer une menace alors même qu’ils sont conformes. Dans cette hypothèse, l’analyseur va donc informer la personne en charge de la dangerosité du logiciel, de la pièce jointe, … sous forme d’un pourcentage déterminé en raison de l’activité du fichier en question.
Or le véritable problème ici se trouve dans la performance de ces analyseurs. En effet, plus la performance de détection des malwares est augmentée, plus le risque que des faux positifs soient créés est important. Ainsi un paramétrage ayant pour objectif une détection à 100% des malwares aboutirait à une surcharge des personnes désignées pour confirmer ou non le diagnostic des logiciels bloqués. Celle-ci entrainerait avec certitude la validation à l’encontre de l’avis de l’analyseur de fichiers corrompus par manque de temps.
La difficulté réside donc dans l’équilibre entre détection des malwares par l’algorithme et la création d’un taux de faux positifs suffisamment moindre pour ne pas rendre les analyseurs invivables pour les salariés. Airbus estime, selon les chiffres annoncés lors du Forum International de la Cybersécurité, arriver à la détection de plus de 80% des malwares par leurs différents algorithmes de protection tout en ne dépassant pas la création de faux positifs supérieure à 1 %.
De tels algorithmes de détection représentent finalement une véritable opportunité, bien que leur paramétrage ait un impact significatif sur leur utilité. Plus celui-ci sera strict, plus leurs performances en matière de détection des malwares seront importantes mais ces derniers entraineront une création de faux positifs accrue. La première critique que l’on peut émettre est donc que la protection n’est pas absolue et qu’elle peut également entrainer des dysfonctionnements. De plus, on peut s’interroger sur la responsabilité qui reposera sur les salariés, qui après détection, accorderont tout de même l’accès à un fichier pensant que celui-ci est un faux positif. Ils seront alors responsables de la faille de sécurité dans le dispositif de leurs entreprises.
Toutefois, on peut noter la véritable innovation apportée par ces algorithmes et leur faculté d’anticipation. Ils sont capables de détecter des malwares qui ont muté afin de passer outre l’ensemble des radars conventionnels, soit la détection par signature… Ils ont donc une valeur ajoutée inestimable puisqu’ils peuvent détecter des malwares encore inconnus. Ainsi, ils amènent comme perspective, une réduction de l’avantage offensif possédé par les attaquants en matière cyber lorsque ceux-ci souhaitent s’infiltrer au sein d’une entreprise. Or cet avantage offensif présente généralement une de leurs principales armes. Pour finir, on peut regretter que de telles mesures de protection ne soient encore que peu accessibles pour les particuliers.
Intervenants de la démonstration technique :
- Arife BICAR – Data Scientist AIRBUS CYBERSECURITY
Rédigé par : Corentin TILLEUL