Monzo exploite un grand modèle de langage (LLM) afin de renforcer l'efficacité de son équipe dédiée au support des clients se trouvant dans une situation particulièrement délicate. Incidemment, sa présentation offre l'occasion de découvrir comment elle déploie un tel système, face au grand public, sur un sujet sensible, en toute sécurité.
Le centre d'assistance de la jeune pousse comporte depuis longtemps une équipe spécialement formée pour répondre à des urgences en tout genre, qui prend le relais des téléopérateurs classiques dès que ceux-ci l'estiment nécessaire après leurs premiers échanges (par tchat) avec une personne concernée. Malheureusement la phase d'identification des cas à transférer de la sorte est loin d'être optimale, en raison notamment des différents modes de communication des individus affectés.
Parmi les milliers de conversations qu'ils traitent chaque jour, la plupart sur des questions élémentaires, il n'est pas toujours facile pour les employés de décoder des expressions toutes faites, des périphrases, des euphémismes, des sous-entendus, des hésitations… qui reflètent potentiellement une détresse requérant une attention immédiate. L'idée de mettre en œuvre des capacités d'analyse de données avancée s'est naturellement imposée comme une option permettant d'améliorer la détection.
Une fois le problème posé, les scientifiques des données qui le prennent en charge ne se précipitent pas sur la dernière technologie à la mode, comme on le voit trop souvent. Ils étudient les multiples outils dont ils disposent et déterminent rationnellement les plus adéquats pour la tâche à réaliser. En l'occurrence, ils choisissent un grand modèle de langage, en raison, entre autres, de sa faculté à interpréter le contexte d'un texte (à l'inverse d'une approche par mot-clé) et à appréhender des locutions ambiguës.
Ensuite surgit la difficulté de la constitution d'un jeu de données pertinent pour l'entraînement du modèle, exacerbé par le nombre très faible d'interactions considérées à risque. Trois combinaisons ont été employées pour la contourner : un ensemble artificiel surpondéré en échanges à signaler, pour l'apprentissage des variantes d'énoncés, un autre basé sur une journée normale pour vérifier le comportement en régime de croisière et un dernier pour la mesure des impacts (j'y reviens plus bas).
Après son élaboration, la solution n'est pas déployée directement en production, par crainte, légitime, de dérégler le fonctionnement du service client, crucial pour la satisfaction des clients. Il est donc d'abord exécuté en mode fantôme, c'est-à-dire en parallèle des opérations existantes, sans aucune incidence sur ces dernières. Il est simplement destiné à évaluer, et corriger, le cas échéant, comment il réagit dans un contexte réel, en comparaison des décisions humaines de transfert.
Un des livrables de cette étape est matérialisé par un dispositif de mesure complet dont le rôle est de fournir des éléments d'information précis sur les cas repérés autant manuellement qu'automatiquement. Le tableau de bord résultant devient alors, avec le troisième jeu de données mentionné plus haut, un outil de suivi des performances, indispensable pour prévenir toute dérive, et de prédiction des niveaux de charge pour les experts des situations difficiles, donc des besoins correspondant en personnel.
L'adoption de toutes ces dispositions autorise, au prix, certes, d'un indicustable alourdissement du projet, Monzo à mettre en œuvre (progressivement) en toute sérénité un produit extrêmement utile, aux algorithmes non déterministes, désormais capable de décupler sa réactivité face à ses clients les plus fragiles. Les téléconseillers de première ligne conservent cependant la possibilité d'effectuer des déclarations eux-mêmes, afin de pallier les éventuelles déficiences de la machine…




















