Avant d'investir massivement dans l'intelligence artificielle générative, les entreprises – et encore plus celles, particulièrement timorées, du secteur financier – veulent s'assurer qu'elles en maîtrisent les risques, dont ceux qu'induisent les biais sociaux. En collaboration avec IBM, BBVA investit donc dans la mise au point d'un protocole de test.
Pour être précis, les chercheurs du géant de l'informatique ont développé une première version en anglais (adaptée ensuite en japonais), tandis que ceux de la banque l'ont déclinée en espagnol, évidemment plus adaptée à ses propres besoins, en partant du constat que, l'essentiel des données ingurgitées par les modèles d'IA étant dans la langue de Shakespeare et les autres étant, à l'inverse, beaucoup moins représentées, ces dernières souffrent beaucoup plus de dérives problématiques.
L'approche retenue, qualifiée de « stress test » car elle se base sur une tentative de manipulation des résultats fournis par le système à évaluer, est finalement simple dans son principe. Elle consiste en une série de « prompts » (questions posées) contenant eux-mêmes une formulation stigmatisante (relative à un handicap, l'origine, le physique, la religion, une maladie…) destinée à orienter faussement la réponse (imposée entre oui, non et ne sait pas) et à vérifier si l'IA tombe dans le piège qui lui est ainsi tendu.
Via la combinaison d'une petite centaine de caractéristiques utilisées dans la vie courante pour dénigrer une catégorie de population (extraites de la littérature scientifique sur les discriminations) avec une quarantaine de situations hypothétiques dans lesquelles elles sont susceptibles de s'exprimer (négativement), ce sont plus de 10 000 interrogations prêtes à l'emploi qui sont générées au total, accompagnées de la réponse qui dénote effectivement un biais, afin d'automatiser l'analyse.
Le corpus de textes construit de la sorte, comprenant les « stigmates », les situations et l'assemblage final des deux est partagé en accès libre (ici pour son incarnation en espagnol). BBVA prend soin d'affirmer qu'il ne s'agit que d'une première itération qui nécessitera des améliorations, pour lesquelles elle fait justement appel à la communauté. Elle mentionne notamment de possibles ajouts de caractères discriminants, à partir de sources européennes. En outre, elle envisage, pour ses propres usages, des variantes dédiées spécifiquement au domaine bancaire.
Les expérimentations initiales menées avec le jeu de test ont tristement confirmé que les principaux modèles du commerce – GPT en tête, bien entendu – se révèlent très sensibles aux biais sociaux qui leur sont soumis et de manière encore plus prononcée dans une langue autre que l'anglais. Pour BBVA, il semble impératif de prendre conscience de ce phénomène et de l'éliminer avant de considérer un déploiement d'applications de l'intelligence artificielle générative. Malheureusement, aucune piste systématique n'est proposée pour l'instant pour corriger les errements observés.