Les données sont cruciales pour l’intelligence artificielle (IA), mais elles constituent également l’une de ses plus grandes limites. Le manque de données de haute qualité et propres empêche les entreprises de tirer pleinement parti des applications d’IA. C’est un problème identifié par Voltron Data, une entreprise qui a récemment introduit un nouveau moteur de requêtes distribué appelé Theseus, conçu pour traiter de grandes quantités de données requises pour les besoins de l’IA. Voltron Data a également récemment acquis une entreprise axée sur l’IA, renforçant ainsi son engagement envers le développement de ce domaine.
Selon Voltron Data, dans un communiqué de presse daté du 1er décembre annonçant l’introduction du nouveau moteur de traitement distribué, Theseus, les entreprises leaders en matière d’IA sont limitées par le traitement des données. L’extraction, l’ingénierie des caractéristiques et les transformations sont des éléments clés de l’IA/ML. Ils ne peuvent pas développer efficacement les capacités d’IA car ils ne peuvent pas se permettre le temps nécessaire pour construire des clusters pour de grandes quantités de données. L’écart de performance entre les GPU et les CPU ne cesse de se creuser ; ce problème devient de plus en plus sérieux.
Cela a conduit Voltron Data, basée à Mountain View en Californie, fondée fin 2021 par Wes McKinney, le créateur de la bibliothèque pandas et co-créateur d’Apache Arrow, et Josh Patterson, ancien directeur de RAPIDS chez Nvidia, à développer Theseus, le premier moteur de données distribué conçu pour fonctionner sur des accélérateurs matériels tels que les GPU, la mémoire à haut débit, le réseau accéléré et le stockage.
Theseus est un « moteur intégré » qui fonctionne sur des systèmes distribués équipés de processeurs standard tels que x86 et ARM, ainsi que sur des matériels accélérés tels que les GPU Nvidia. Les clients peuvent l’intégrer à leurs plateformes de données existantes à l’aide d’outils tels que Arrow, RAPICS, Ibis, Substrait et Velox, et peuvent développer des applications pour Theseus à l’aide de Python, R, Java, Rust ou C++.
Theseus peut traiter les données en parallèle avec d’autres moteurs de requêtes distribués open source que les clients peuvent utiliser, tels que Apache Spark ou Presto. Cependant, grâce au support natif des GPU, Theseus fonctionne 45 fois plus rapidement que Spark et coûte 20 fois moins cher, selon l’entreprise.
L’objectif est d’utiliser le calcul accéléré pour traiter autant de données que possible sans avoir besoin de matériel sur mesure coûteux ou de configurations spécialisées. Il s’agit de surmonter le « Mur », comme le dit Josh Patterson, co-fondateur de Voltron Data.
« Les systèmes d’IA se dirigent droit vers le mur – le point d’inflexion où les systèmes de données volumineuses basés sur les CPU atteignent des performances maximales et ne peuvent pas rivaliser avec les plateformes d’IA alimentées par les GPU », a déclaré Patterson dans le communiqué de presse. « Nous ne pourrons pas répondre aux exigences d’échelle de l’IA tant que le traitement des données lui-même ne changera pas. Les moteurs de traitement des données doivent exploiter le calcul accéléré, la mémoire, le réseau et le stockage. Nous sommes ravis de présenter Theseus au monde – un moteur conçu pour exploiter les dernières innovations matérielles et aider les entreprises à franchir le mur. »
Cette approche présente des avantages, a souligné Hyoun Park, analyste principal chez Amalgam Insights.
« Dans l’ère de l’IA, les entreprises sont confrontées à un nombre croissant de sources de données, d’abstractions linguistiques et d’exigences stratégiques pour lesquelles chaque travailleur doit être plus compétent en matière de données. En même temps, Spark a atteint ses limites en tant que système de traitement analytique pour la génération de Big Data », a déclaré Park dans le communiqué de presse de Voltron Data. « Étant donné que l’entreprise moyenne traite déjà plus d’un millier de sources de données, les entreprises doivent investir dans des capacités de traitement des données pour répondre aux exigences d’analyse et d’IA de l’ordre de grandeur supérieur. Voltron Data a franchi une étape importante en introduisant Theseus pour résoudre tous ces problèmes liés aux données pour l’ère de l’IA. »
La société propose l’accès au moteur Theseus par le biais d’un modèle « de partage des revenus » non conventionnel, permettant aux clients ou aux partenaires d’intégrer le moteur dans leurs propres systèmes. HPE est l’un des premiers partenaires à profiter de cette offre, en intégrant Theseus comme partie intégrante de son logiciel HPE Ezmeral Unified Analytics optimisé.
Mohan Rajagopalan, vice-président et directeur général d’HPE Ezmeral Software, est convaincu que Theseus améliorera le flux de données pour les applications d’IA, de ML et d’analyse.
« Avec Theseus, le moteur de requêtes distribuées de Voltron Data, les entreprises peuvent exploiter pleinement le logiciel HPE Ezmeral Unified Analytics optimisé, qui est optimisé tant pour les GPU que pour les CPU, pour accélérer la préparation des données, le traitement des données et d’autres charges de travail traditionnellement basées sur les CPU », a déclaré Rajagopalan dans le communiqué de presse.
La semaine dernière, Voltron Data est également entrée dans le domaine de l’IA en acquérant Claypot, une startup spécialisée dans l’IA et l’ingénierie logicielle pour l’ingénierie des caractéristiques et les MLOps. Fondée en 2022 par Chip Huyen, auteur du livre « Designing Machine Learning Systems », et Zhenzhong Xu, responsable de l’équipe de plateforme de diffusion de données soutenant plus de 2 000 cas d’utilisation de données chez Netflix, Claypot est la première acquisition de Voltron Data.
« Je suis ravi d’accueillir Chip Huyen, Zhenzhong Xu et toute l’équipe Claypot AI », a déclaré Patterson dans un communiqué de presse. « Ensemble, nous serons en mesure d’accélérer notre chemin vers des produits en temps réel et des MLOps en utilisant des capacités de pointe pour nos clients. »
L’acquisition de Claypot marque la première acquisition d’entreprise de Voltron Data. En février 2022, Voltron a levé 22 millions de dollars lors d’une levée de fonds de démarrage, avec la participation de BlackRock et de Walden Catalyst, et au cours du même mois, ils ont réalisé un tour de financement de série A de 88 millions de dollars avec la participation de Catalyst.
FAQ :
Question 1 : Quelle est la principale limitation pour les entreprises utilisant l’IA ?
Réponse : Le manque de données de haute qualité et propres empêche les entreprises de tirer pleinement parti des applications d’IA.
Question 2 : Qu’est-ce que le moteur de requêtes distribué Theseus ?
Réponse : Theseus est un nouveau moteur de requêtes distribué développé par Voltron Data. Il est conçu pour traiter de grandes quantités de données requises pour les besoins de l’IA.
Question 3 : Quels outils peuvent être utilisés pour connecter Theseus aux plates-formes de données existantes ?
Réponse : Les clients peuvent intégrer Theseus à leurs plates-formes de données existantes à l’aide d’outils tels que Arrow, RAPICS, Ibis, Substrait et Velox. Les applications pour Theseus peuvent être développées en utilisant Python, R, Java, Rust ou C++.
Question 4 : Quels sont les avantages d’utilisation de Theseus ?
Réponse : Selon l’entreprise, grâce à son support natif des GPU, Theseus fonctionne 45 fois plus rapidement que Apache Spark et coûte 20 fois moins cher.
Question 5 : Quels sont les principaux avantages de la mise en œuvre de l’IA pour les entreprises ?
Réponse : La mise en œuvre de l’IA permet aux entreprises d’analyser plus efficacement les données, d’accélérer le traitement des données et de servir de base pour