Wikipédia lance une base de données vectorielle pour démocratiser l'accès à ses connaissances dans l'ère de l'IA

Wikimedia Deutschland dévoile un projet qui pourrait transformer la manière dont les intelligences artificielles accèdent au vaste réservoir de connaissances de Wikipédia. Baptisé Wikidata Embedding Project, le système applique une recherche sémantique basée sur des vecteurs aux données existantes de Wikipédia et de ses plateformes sœurs, représentant près de 120 millions d'entrées.
Cette technologie de vectorisation aide les ordinateurs à comprendre non seulement les mots eux-mêmes, mais aussi leur signification et les relations qu'ils entretiennent entre eux. Combiné avec le support du Model Context Protocol, un standard qui facilite la communication entre les systèmes d'IA et les sources de données, le projet rend l'ensemble de ces informations plus accessible aux requêtes en langage naturel des grands modèles de langage. L'initiative a été menée par la branche allemande de Wikimedia en collaboration avec Jina.AI, une entreprise spécialisée dans la recherche neuronale, et DataStax, une société de données d'entraînement en temps réel appartenant à IBM. Pendant un an, l'équipe basée à Berlin a travaillé d'arrache-pied pour transformer les 19 millions d'entrées de Wikidata, stockées au départ dans des formats structurés assez rigides, en vecteurs capturant le contexte et la signification de chaque entrée.
Jusqu'à présent, Wikidata offrait déjà des données lisibles par machine depuis des années, mais les outils préexistants ne permettaient que des recherches par mots-clés et des requêtes SPARQL, un langage de requête spécialisé plutôt technique. Le nouveau système fonctionnera beaucoup mieux avec les systèmes de génération augmentée par récupération, ces technologies qui permettent aux modèles d'IA d'extraire des informations externes, offrant ainsi aux développeurs la possibilité d'ancrer leurs modèles dans des connaissances vérifiées par les éditeurs de Wikipédia. Pour mieux comprendre la puissance de ce nouveau format, prenons l'exemple de l'écrivain anglais Douglas Adams, célèbre auteur du roman culte “Le guide du voyageur galactique” publié en 1979. Si sa page Wikipédia présente les informations essentielles de sa biographie, Wikidata va beaucoup plus loin. On y trouve des détails comme son signe astrologique ou le code de classification utilisé par les bibliothèques du monde entier pour ranger ses livres. Toutes ces informations sont stockées à la fois sous forme de page web et dans des formats destinés aux machines, comme le JSON.
Dans ce nouveau format vectorisé, l'information peut être imaginée comme un graphe composé de points et de lignes interconnectées. L’auteur serait ainsi relié au concept d'être humain, aux titres de ses livres, et à une multitude d'autres éléments contextuels, explique Lydia Pintscher, responsable du portefeuille Wikidata. Lorsqu'on interroge la base de données sur le mot scientifique par exemple, le système produit des listes de physiciens nucléaires éminents ainsi que de scientifiques ayant travaillé aux laboratoires Bell. Il fournit également les traductions du mot dans différentes langues, des images libres de droits de scientifiques au travail et des extrapolations vers des concepts connexes comme chercheur ou universitaire.

L'expérience utilisateur du site restera identique, et non, Wikipédia ne se transforme pas en chatbot, insistent les responsables du projet. C'est plutôt le backend qui deviendra plus facile d'accès pour les développeurs d'IA souhaitant construire leurs propres applications, comme des chatbots utilisant ces données. Philippe Saadé, responsable du projet IA chez Wikidata, souligne que l'objectif principal est de démocratiser l'accès à des données de haute qualité. Dans une déclaration à la presse, il a insisté sur l'indépendance de son projet vis-à-vis des grands laboratoires d'IA ou des géants de la technologie.
“Ce lancement du projet Embedding montre que l'IA puissante n'a pas besoin d'être contrôlée par une poignée d'entreprises. Elle peut être ouverte, collaborative et conçue pour servir tout le monde.”
Cette initiative arrive à un moment où les développeurs d'IA se démènent pour trouver des sources de données de haute qualité pouvant être utilisées pour affiner leurs modèles. Les systèmes d'entraînement eux-mêmes sont devenus plus sophistiqués, souvent assemblés comme des environnements complexes plutôt que de simples ensembles de données, mais ils en nécessitent toujours, soigneusement organisées pour fonctionner efficacement. Pour les déploiements nécessitant une grande précision, le besoin de données fiables est particulièrement urgent. Bien que certains puissent regarder Wikipédia de haut, ces dernières sont nettement plus factuelles que des ensembles de données fourre-tout comme Common Crawl, cette collection massive de pages web récupérées à travers Internet.
L'équipe espère également que cet accès facilité à Wikidata permettra aux systèmes d'IA de mieux refléter des sujets de niche peu représentés sur Internet. La base de données est désormais accessible publiquement sur Toolforge, et Wikidata organise un webinaire pour les développeurs intéressés le 9 octobre.
