Analytique prédictive : pourquoi il s’agit d’un processus évolutif

Les pannes réseau sont une gêne pour tous les utilisateurs et un problème auquel de nombreux professionnels informatiques sont régulièrement confrontés. Récemment encore, l’analytique prédictive appliquée à la sécurité des réseaux relevait, au mieux, d’un jeu de devinettes. Cependant apparaissent des outils plus avancés qui vont apporter une précision accrue aux prévisions de fiabilité des réseaux, mais uniquement à condition d’être employés correctement.

Les bases de l’analytique prédictive

Fondamentalement, l’analytique prédictive opère en partant de données historiques, en extrait des tendances antérieures, puis s’appuie sur ces informations pour établir des projections sur l’avenir. C’est un moyen de déterminer, avec davantage de précision, la probabilité d’un ou plusieurs événements futurs, d’après des tendances dégagées des événements passés. Dans la pratique, l’analytique prédictive continue d’impliquer beaucoup de travail préparatoire : collecte de grandes quantités de données, exploration de ces données avec divers outils et vues, détermination de leurs caractéristiques majeures, puis injection des données dans des algorithmes spécialisés afin d’entraîner un modèle prédictif.

Par exemple, si vous analysez les chiffres récents des prix de l’immobilier, vous pourrez observer une hausse mensuelle de 0,5 % pendant les 24 derniers mois d’affilée. C’est ce qui s’appelle des données historiques. Sur la base de ces données, vous pouvez déterminer que, historiquement, les prix de l’immobilier ont tendance à augmenter de 0,5 % chaque mois. Vous pouvez donc prévoir une nouvelle hausse de 0,5 % pour le mois prochain. Il s’agit là d’une forme extrêmement simple d’analytique prédictive. Le type d’analytique prédictive employé dans le secteur de la sécurité est toutefois bien plus complexe.

Imaginons un opérateur souhaitant découvrir l’activité d’un botnet particulier sur son réseau. Aux côtés du trafic typique et inoffensif observé sur le réseau, il existe du trafic provenant de machines « zombies » connues pour faire partie du botnet en question. L’opérateur se sert alors de ces deux ensembles d’échantillons de trafic pour apprendre au modèle prédictif à faire la distinction entre une activité normale ou malveillante. Cet apprentissage met en corrélation différentes caractéristiques du trafic collecté – protocoles, ports, charge utile, temps de transit, etc. – afin de prédire si la source du trafic est inoffensive ou malveillante, ajustant le modèle en continu en fonction de l’exactitude des prévisions. Dans l’idéal, à la fin de la phase d’apprentissage, l’opérateur réseau dispose d’un modèle capable de prévoir avec un haut degré de confiance si un nouveau trafic détecté sur le réseau est imputable au botnet.

Les obstacles

Aujourd’hui, les outils d’analytique prédictive ont grandement modifié les capacités de traitement des données et constituent désormais un puissant mécanisme pour la surveillance du trafic et des attaques du réseau. Le secteur a été prompt à accorder sa confiance à ces technologies de pointe mais le véritable potentiel de l’analytique prédictive n’a guère été exploité jusqu’à présent. Si une approche plus stratégique de l’analytique Big Data est nécessaire dans la sécurité, il demeure néanmoins quelques obstacles. Les promesses sont évidentes mais nous n’en avons pas encore vraiment recueilli les fruits, le principal problème étant des résultats limités en raison de l’impact que des prévisions inexactes peuvent avoir sur les performances du réseau.

Envisageons un instant le cas d’un modèle analytique offrant une précision de 99,99 % dans le suivi des données, ce qui paraît être un solide pourcentage. Cependant, lorsqu’il s’agit de traiter une très grande quantité de données, les 0,01 % restants représentent un nombre non négligeable d’erreurs pouvant déboucher sur des attaques. Supposons qu’un million de paquets traversent le réseau à chaque seconde. Avec un modèle de détection du trafic malveillant précis à 99,99 %, cela veut dire que 100 paquets sur un million par seconde sont mal classés. Si ne serait-ce que la moitié d’entre eux déclenchent une alerte ou, pire, une modification des règles réseau, les retombées négatives pourraient être désastreuses pour le réseau dans son ensemble. 50 alertes par seconde créent un tel « bruit » qu’un opérateur serait dans l’incapacité de distinguer les faux positifs. Compte tenu des défauts de ce type, le meilleur usage de l’analytique prédictive reste actuellement celui d’une aide destinée à éclairer les règles de sécurité du réseau ou à renforcer la confiance dans les autres outils de détection d’événements.

La proactivité est essentielle

Tandis que les pratiques opérationnelles peuvent varier d’un endroit à l’autre, tout le monde paraît s’accorder sur la nécessité de définir et d’entretenir un pipeline d’acquisition des données, faisant en sorte d’extraire de leur source et de stocker les plus précieuses d’entre elles pour l’entreprise. En l’absence de données et d’un apprentissage continu, l’analytique prédictive est dépourvue de contexte et ne peut pas s’adapter aux évolutions de l’utilisation du réseau. Toutefois, il semble que la plupart des entreprises soient encore dans la réaction en matière de sécurité. Elles ont déployé des outils et processus qui les aident à traiter un incident après sa découverte mais peinent à mettre en œuvre des outils efficaces pour prévenir les futures attaques ou identifier les campagnes malveillantes en cours.

Dans ces conditions, comment appliquer l’analytique prédictive avec succès ? La réponse réside dans un état d’esprit proactif. L’équipe doit être prête à définir les paramètres des données en fonction de différents besoins et avoir conscience que ce qui est efficace aujourd’hui ne le sera peut-être pas demain. Cela dit, il est clair que vous n’obtiendrez pas de résultats parfaits dès les premières tentatives : vous devrez poursuivre vos efforts dans ce sens. La réitération des paramètres sera plus facile si votre équipe adopte une approche « globale » pour que tous ses membres travaillent de concert sur les données qu’ils collectent et les solutions dont l’entreprise a besoin. Par conséquent, la qualité des données analysées est intrinsèquement liée à la qualité de ceux chargés de leur collecte.

Article proposé par : Eric Michonnet, Directeur Régional Europe du Sud, Europe centrale et Afrique du Nord Arbor Networks