SAS renforce son portefeuille IA avec l’acquisition de Hazy et mise sur la puissance des données synthétiques
Dans un monde où l'intelligence artificielle (IA) transforme tous les secteurs, l'accès à des données de qualité, volumineuses et respectueuses de la vie privée est devenu un enjeu crucial.
C'est dans ce contexte que SAS, acteur majeur de l'analyse de données et de l'IA, a récemment annoncé une acquisition stratégique : celle des actifs logiciels de Hazy, une entreprise pionnière dans le domaine des données synthétiques. Ce mouvement souligne l'importance croissante de cette technologie pour débloquer le potentiel de l'IA tout en naviguant dans un paysage réglementaire de plus en plus strict.
Mais que sont exactement les données synthétiques et pourquoi cette acquisition est-elle si significative ?

SAS acquiert Hazy : Un coup d'accélérateur pour l'IA et la conformité
SAS a officialisé l'acquisition des principaux actifs logiciels de Hazy. L'objectif affiché est clair : intégrer la technologie de pointe de Hazy pour enrichir son propre portefeuille d'outils d'IA et de gestion de données, notamment sa solution SAS Data Maker annoncée début 2024.
Pour les clients de SAS, cette intégration promet des avantages considérables :
- Innovation accélérée : Surmonter les limitations liées à l'accès, à la quantité ou à la sensibilité des données réelles.
- Sécurité et confidentialité renforcées : Utiliser des données qui imitent la réalité sans exposer d'informations personnelles identifiables (PII), facilitant la conformité avec des réglementations comme le RGPD.
- Amélioration des modèles d'IA : Entraîner les algorithmes sur des jeux de données plus vastes, plus variés et potentiellement moins biaisés.
- Réduction des coûts et des délais : Accélérer les phases de test et de développement.
Les solutions intégrant la technologie Hazy devraient être disponibles mondialement, avec un premier aperçu prévu pour le début de l'année 2025. Mais pour bien comprendre la portée de cette acquisition, il faut saisir le fonctionnement et l'intérêt des données synthétiques.
Les données synthétiques : Comment ça marche ?
Imaginez pouvoir disposer de données parfaitement adaptées à vos besoins d'analyse ou d'entraînement d'IA, sans jamais utiliser une seule information réelle appartenant à un individu. C'est la promesse des données synthétiques.
Fondamentalement, les données synthétiques sont des données artificielles, générées par algorithme, conçues pour reproduire les propriétés statistiques et les schémas d'un ensemble de données réelles. Voici les étapes clés de leur création :
- Apprentissage du modèle : Un modèle d'IA (souvent des réseaux antagonistes génératifs - GANs, des auto-encodeurs variationnels - VAEs, ou d'autres approches statistiques) est "entraîné" sur un jeu de données réelles. Il apprend les distributions, les corrélations entre les différentes variables, et la structure globale des données d'origine.
- Génération artificielle : Une fois entraîné, le modèle est capable de générer de nouvelles données, point par point. Ces nouvelles données respectent les motifs statistiques appris mais ne correspondent à aucune observation réelle issue du jeu de données initial. Elles sont donc entièrement artificielles.
- Préservation de l'utilité, protection de la vie privée : Le grand avantage est que ces données synthétiques conservent une grande partie de l'utilité analytique des données originales (elles reflètent les mêmes tendances, relations, etc.) mais sans contenir les informations spécifiques et identifiantes. On peut ainsi les utiliser pour l'analyse, le partage, ou l'entraînement de modèles d'IA en minimisant drastiquement les risques liés à la confidentialité.
Pourquoi les données synthétiques sont essentielles aujourd'hui
L'acquisition de Hazy par SAS illustre parfaitement pourquoi cette technologie gagne en importance :
- Le défi de la confidentialité : Les réglementations comme le RGPD imposent des contraintes fortes sur l'utilisation des données personnelles. Les données synthétiques offrent une alternative viable pour exploiter la valeur des données sans compromettre la conformité.
- Le besoin de données pour l'IA : Les modèles d'IA, en particulier en apprentissage profond, sont gourmands en données. Les données synthétiques permettent de générer les volumes nécessaires, notamment pour simuler des scénarios rares ou difficiles à capturer dans la réalité (ex: détection de fraudes rares, simulation de pannes, etc.).
- Tests et développement agiles : Elles fournissent des jeux de données réalistes et sûrs pour tester des logiciels et des applications sans utiliser de données de production sensibles.
- Lutte contre les biais : En contrôlant le processus de génération, il est possible de créer des jeux de données synthétiques plus équilibrés que les données réelles, aidant ainsi à réduire les biais dans les systèmes d'IA.
L'acquisition de la technologie de Hazy par SAS n'est pas seulement une transaction commerciale ; c'est un indicateur fort de la direction que prend l'écosystème de la donnée et de l'IA.
En intégrant nativement la génération de données synthétiques à ses outils, SAS se positionne pour aider ses clients à innover plus vite et de manière plus responsable.
À l'heure où les données sont plus précieuses mais aussi plus protégées que jamais, les données synthétiques apparaissent comme une technologie clé, permettant de concilier l'inconciliable : exploiter pleinement la valeur des données tout en garantissant la confidentialité et la sécurité.
Si vous souhaitez comprendre de façon simple le fonctionnent des données synthétiques, vous pouvez regarder la vidéo de Parlons IA avec Louis-François Bouchard: Données Synthétiques et LLMs (Nvidia Nemotron-4 340B)