Parfois décrite comme l’or noir du XXIe siècle, la data est au centre de toutes les convoitises. Pour les entreprises, la collecte et l’analyse des données deviennent des enjeux prioritaires, mais les obstacles et les risques sont nombreux… Pas si simple, en effet, de recueillir des informations fiables, tout en garantissant la protection de la vie privée des individus.
Toutefois, une data d’un genre nouveau pourrait permettre de s’affranchir de ces contraintes : les données synthétiques. Gilles Nogues, directeur de projets data chez A5sys, nous éclaire sur le sujet.
Qu’entend-on par données synthétiques ?
Les données synthétiques sont des données générées artificiellement par un algorithme d’intelligence artificielle, entraîné pour reproduire les propriétés d’un ensemble de données réelles.
L’objectif de cet apprentissage est de créer des données présentant les mêmes caractéristiques que la data d’origine. Ainsi, les données synthétiques permettent d’aboutir aux mêmes réponses que les données réelles sur lesquelles elles sont basées.
Mais, plus important encore, il est impossible de remonter jusqu’aux données d’origine. La data synthétique n’est donc pas soumise aux contraintes liées à la protection de la vie privée et des données personnelles.
En outre, il existe différentes méthodes pour générer des données synthétiques. Ces dernières peuvent être créées de zéro à l’aide de modèles aléatoires, mais elles sont le plus souvent conçues à partir d’un échantillon de data réelle, via des techniques de perturbation ou d’anonymisation.
Gilles Nogues : “Pour créer des données synthétiques, la manière la plus simple consiste à prendre un échantillon de données réelles et à ajouter ce qu’on appelle du “bruit”. Il s’agit, en quelque sorte, de modifier légèrement la data, sans pour autant abîmer la relation entre les données.
Pour ce faire, on peut utiliser l’intelligence artificielle, et plus précisément des réseaux antagonistes génératifs (aussi appelés GANs, de l’anglais “generative adversarial networks”). Ces modèles génératifs sont composé d’un générateur et d’un discriminateur, qui ont chacun un rôle précis :
- Le générateur crée de nouvelles observations.
- Le discriminateur évalue leur réalisme vis-à-vis de l’échantillon de données réelles, et donc la fiabilité des données synthétiques.”
Il s’agit sans doute du mode de génération de données le plus répandu, mais d’autres approches existent. Par exemple, il est possible de les créer à partir d’une combinaison de données réelles et artificielles, en utilisant des techniques d’augmentation ou d’enrichissement.
Quels sont les avantages des données synthétiques ?
Pourquoi créer de “fausses” données alors que nous disposons d’une multitude d’informations qui ne demandent qu’à être récoltées ? Pour répondre à cette question, qui peut sembler légitime, il nous faut évoquer les avantages (parfois insoupçonnés) des données synthétiques.
Gilles Nogues : “Les données synthétiques sont très fiables, car elles peuvent être parfaitement maîtrisées et étiquetées. On sait d’où elles viennent, on connaît les moyens utilisés pour les créer, on peut les encadrer, les adapter à un contexte particulier…”
En effet, les données issues de la réalité présentent bien souvent des lacunes. L’utilisation de données artificielles permet justement de combler ces manques et d’obtenir une représentation plus fiable et plus précise de la data.
Gilles Nogues : “Il y a aussi des avantages financiers indéniables : les données synthétiques sont peu coûteuses et faciles à produire… Contrairement aux données réelles qui sont très chères à récolter, à nettoyer, à traiter, et parfois difficiles à identifier. Cela prend beaucoup de temps et nécessite un travail important en amont.”
D’autant plus que les données synthétiques peuvent être générées à la demande. Ainsi, les besoins en capacité de stockage sont moindres, ce qui se traduit par une réduction des coûts.
Gilles Nogues : “Un autre avantage est l’anonymisation des données. Concrètement, on peut partir de données réelles et les traiter de manière à ce qu’elles soient complètement anonymes. Pour une utilisation à des fins médicales, par exemple, cela permet d’éviter que l’identité d’un patient soit dévoilée, ou qu’on puisse faire un lien entre une pathologie et une personne.”
Quelles sont les applications des données synthétiques ?
Les données synthétiques sont aujourd’hui largement exploitées pour entraîner des modèles d’intelligence artificielle, qui sont de plus en plus gourmands en données.
Et le phénomène devrait continuer à prendre de l’ampleur : selon le cabinet Gartner, la data synthétique éclipsera complètement les données réelles dans les modèles d’IA d’ici 2030.
Mais qu’en est-il de leurs applications concrètes ? En réalité, les données artificielles sont déjà utilisées dans des domaines divers, de la finance à la biologie, en passant par la santé et les sciences sociales.
Les exemples sont nombreux ;
- La data synthétique permet d’entraîner des algorithmes de détection des fraudes dans un environnement sécurisé et maîtrisé, afin d’identifier plus efficacement des failles de sécurité
- Les véhicules autonomes utilisent des données synthétiques pour gagner en performance et en fiabilité. D’ailleurs, ces données n’existent souvent pas dans la réalité.
- Dans le domaine de la recherche, la data synthétique permet de recréer des expériences en laboratoire avec des données générées artificiellement, avant de traiter des données réelles.
- Au Royaume-Uni, la data synthétique est utilisée pour tester les logiciels utilisés par les organismes publics (caisse de retraite, sécurité sociale, etc.) et les interactions entre ces différentes structures.
La data synthétique joue aussi un rôle de plus en plus important dans le monde du développement logiciel. C’est donc tout logiquement qu’A5sys l’a intégré dans ses méthodes de travail.
Gilles Nogues : “Nous pouvons utiliser les données synthétiques en phase de développement, pour tester les performances d’une application, voir comment elle réagit face à une volumétrie de données importante… Tout cela sans avoir besoin de demander au client de mettre de la data à disposition.
La data artificielle permet aussi de gagner du temps. En temps normal, dans une phase de développement, accéder aux données clients prend beaucoup de temps, notamment pour des raisons de confidentialité. Cela peut avoir un impact important sur le délai de livraison d’une application. Désormais, à partir d’un simple petit échantillon de data, on peut créer des données synthétiques pour avancer beaucoup plus vite.”
Vous l’aurez compris : sans données synthétiques, nos clients doivent souvent mobiliser des ressources humaines et matérielles importantes, pour mettre à disposition des données parfois confidentielles. Il s’agit donc d’un puissant levier pour gagner en efficacité, tout en réduisant les coûts.
Gilles Nogues : “Avec les données synthétiques, on peut aussi créer des cas d’usage et les partager avec notre client, ce qui peut mener au développement d’une application spécifique. Autrement dit, nous pouvons lui montrer des possibilités qu’il n’avait peut-être pas envisagées ou des axes d’amélioration.”
L’avenir des données synthétiques
Bien que leurs applications soient déjà nombreuses, les données synthétiques n’en sont qu’à leurs balbutiements. Elles devraient connaître un véritable essor au cours des prochaines années, avec de nombreux développements possibles.
Gilles Nogues : “Les données synthétiques vont permettre de développer la business intelligence prédictive, qui consiste à donner des prédictions et des projections à partir de données historiques.
À l’heure actuelle, l’analyse prédictive est encore effectuée de manière déductive, à partir de la data existante. Avec les données synthétiques, il devient possible d’entraîner des modèles prédictifs plus performants, qui pourront même être “industrialisés” au sein des entreprises.
En prenant l’exemple de la gestion des stocks, les sociétés pourront mieux anticiper leurs réapprovisionnements en matières premières, en prédisant les variations des achats au cours de l’année.”
Par ailleurs, dans le contexte du développement logiciel, les données synthétiques devraient faciliter la formation des utilisateurs. En effet, elles permettent de créer des cas d’usage et des scénarios favorisant l’adoption d’un outil, sans avoir besoin de les alimenter avec des données réelles.
Mais, malgré ses nombreux atouts, faut-il faire preuve de précaution face à cette technologie qui gagne de plus en plus de terrain ?
Gilles Nogues : “Je ne vois pas de dangers dans l’utilisation des données synthétiques. C’est plutôt le contraire : bien exploitées, elles sont très utiles pour garantir la confidentialité et l’intégrité de la data.”
Le problème n’est donc pas la data synthétique en elle-même, mais plutôt la manière dont elle est conçue. En effet, il est primordial de respecter certains principes pour générer des données fiables, car toutes les données synthétiques ne présentent pas le même niveau de fidélité aux données réelles.
Gilles Nogues : “Il faut une véritable expertise pour garantir la qualité de la donnée, déterminer la cohérence de la corrélation entre les différentes variables, les paramètres de distribution de la data d’un point de vue statistique…”
Gain de temps et de productivité, respect de la confidentialité des données, analyse prédictive… La data synthétique présente des avantages indéniables et possède une multitude d’applications potentielles, ce qui en fera certainement une grande force transformatrice dans les années à venir. Cependant, son impact doit être nuancé…
Gilles Nogues: “Il est important de garder à l’esprit que les données synthétiques ne remplaceront jamais les données réelles. Elles restent des données artificielles : même s’il existe des méthodologies statistiques très poussées, elles ne pourront jamais imiter fidèlement la réalité, qui possède de nombreux aléas très difficiles à reproduire.”