C'est pas mon idée !: Pas d'IA sans sémantique des données

jeudi 21 mai 2026

Pas d'IA sans sémantique des données

Le cabinet Gartner déclare que l'absence de contexte et de sémantique sur les données d'entreprise compromettra les performances des agents IA et entraînera d'immenses gaspillages. Hélas, le problème est profond et s'avèrera extrêmement difficile à résoudre. Pour illustration, je propose d'en décrypter trois raisons.

Aussi magique paraisse-t-elle, l'intelligence artificielle n'est évidemment pas capable de miracle. Qu'il s'agisse de manipuler des contenus, comme le font maintenant des millions de personnes chaque jour avec ChatGPT et ses équivalents, ou de développer des robots capables d'exécuter des actions en totale autonomie dans un environnement professionnel, elle ne peut « raisonner » correctement que si elle possède des indications précises sur la signification de la matière sur laquelle elle s'exerce.

En pratique, cette exigence correspond à une nécessité impérative que tous les artefacts qu'elle est amenée à manipuler – données présentes dans les gisements existants ou exposées à travers des services (API ou interface graphique), notamment – soient décrits en détail et que leurs relations réciproques soient documentées. Les schémas qu'entretiennent les responsables aujourd'hui ne suffisent pas, une couche de contexte est critique dans la gouvernance afin d'éviter erreurs, biais et autres hallucinations.

Le constat est à peu près incontestable. Or mes observations sur le terrain, en particulier autour des référentiels d'information disponibles, m'incitent à penser que la tâche sera ardue dans beaucoup de firmes et que les obstacles prêts à se dresser sur la route de ceux qui veulent profiter au maximum de l'IA agentique seront nombreux.

Il faut d'abord remarquer que, très souvent, les collaborateurs ont perdu le réflexe de la documentation (souvent sous des prétextes absurdes, dont celui de l'agilité). L'agencement des systèmes et leur structure interne n'existent alors que dans la tête de ceux qui les conçoivent et les construisent… et sont donc hors de portée de tout automate. À ce syndrome s'ajoute évidemment la perte de connaissance du patrimoine historique (celui datant de plusieurs décennies), pourtant toujours au cœur de l'activité.

Ce défaut est en outre aggravé par la rapidité avec laquelle se succèdent les générations d'employés dans les organisations modernes. Quand ils changent de poste ou de société (entre autres pour les prestataires) tous les trois ou quatre ans, il est d'autant plus difficile de reconstituer une documentation cohérente et exhaustive. Au mieux, elle est éparpillée et découpée en strates temporelles qu'il faudrait réconcilier afin d'en tirer une description utile pour les besoins des modèles d'intelligence artificielle.

Il reste enfin un dernier sujet, assez délicat, à considérer. Quand bien même des dictionnaires de données sont mis en place et régulièrement alimentés, la qualité de leur contenu est potentiellement douteuse. L'indigence atteint parfois des sommets, par exemple quand l'anglais est imposé et introduit des contresens ou incohérences qui seront catastrophiques pour les tentatives d'automatisation susceptibles de les appréhender sans intégration d'une dimension culturelle propre à chaque auteur.

En conséquence, le chantier de gouvernance de l'information, sous tous ses aspects, devrait constituer une priorité absolue dans les entreprises qui entendent exploiter les opportunités de l'IA et il ne faudra pas lésiner sur les moyens afin de le mener à bien. On pourrait d'ailleurs arguer qu'il serait tout autant indispensable pour une meilleure maîtrise stratégique : comment des dirigeants peuvent-ils gérer sereinement des entités dont les membres ne possèdent pas une vision claire des concepts qu'ils manipulent ?

Aucun commentaire:

Enregistrer un commentaire

Afin de lutter contre le spam, les commentaires ne sont ouverts qu'aux personnes identifiées et sont soumis à modération (je suis sincèrement désolé pour le désagrément causé…)