samedi 20 décembre 2014

AXA défie les experts des données

AXA
Alors que sa filiale Direct Assurance doit lancer sous peu une offre d'assurance automobile aux primes modulées selon le comportement du conducteur (ce qu'on appelle « pay how you drive »), AXA organise un concours pour tenter d'affûter ses algorithmes d'analyse de données, avec l'aide des « data scientists » du monde entier.

Première grande initiative visible du « Data Innovation Lab » fondé cette année par la compagnie, la compétition est hébergée sur la plate-forme Kaggle, qui devient incontournable pour ce genre de manifestations (parmi les assureurs, globalement peu nombreux, AllState a régulièrement recours à ses services depuis 3 ans). De la sorte, AXA peut immédiatement capitaliser sur une audience potentielle de plus de 200 000 membres qualifiés, spécialistes de l'analyse de données, issus d'une centaine de pays.

Les modalités pratiques du concours sont relativement classiques. Le problème à résoudre, clair et précis, est accompagné d'un jeu de données de test. Les participants soumettent les résultats de leurs algorithmes et ils obtiennent en retour un score qui en détermine la qualité sur une partie de l'échantillon fourni. Ils peuvent alors re-travailler et affiner leurs modèles, puis recommencer le processus, jusqu'à 5 fois par jour. Après 3 mois, les propositions finales seront mesurées sur l'ensemble des données, afin de désigner les lauréats, qui se partageront 30 000 dollars de récompenses.

Qu'est ce que cette compétition ?

Comme évoqué en introduction, l'objet de la compétition est directement lié à l'analyse des comportements au volant. En conséquence, les données mises à disposition des participants décrivent 200 parcours différents (sérieusement anonymisés) d'un échantillon de 2 500 automobilistes, par l'intermédiaire de la position de leur véhicule seconde par seconde. Il n'est pas difficile d'imaginer – même si rien ne le confirme – que ces informations proviennent de l'application YouDrive de Direct Assurance, dont les conditions d'utilisation précisaient les ambitions expérimentales.

A partir de ces seules caractéristiques de déplacements, la mission assignée aux experts en lice est de concevoir un modèle de « signature » capable de qualifier aussi précisément et infailliblement que possible le comportement habituel de chaque automobiliste. Pour évaluer la performance des algorithmes proposés, quelques trajets « étrangers » ont été introduits parmi les différents profils de l'échantillon fourni et l'enjeu du concours est de permettre la détection de ces « anomalies » par une simple comparaison de « signatures ».


Compétition AXA sur Kaggle

Au-delà des bases de l'assurance « pay how you drive », que la compagnie doit déjà largement maîtriser (notamment en termes de corrélation avec les risques d'accident), il s'agit donc pour AXA d'améliorer la qualité des données qu'elle utilisera dans ce cadre. Elle vise en l'occurrence à identifier les changements de conducteur sur les véhicules équipés de ses futurs capteurs de mesure de comportement. Soit pour repérer les tentatives de tricherie pour l'obtention de tarifs avantageux, soit (et c'est le plus probable) pour gérer plus finement ses contrats…

Seulement 5 jours après le démarrage de la compétition, déjà plus de 160 participants se sont inscrits et ont soumis presque 700 propositions, dont les meilleurs atteignent un score honorable (le premier au classement obtient actuellement un taux de confiance de 86%, en simplifiant un peu). Il ne fait presque aucun doute que les résultats finaux seront impressionnants et valideront sans contestation possible le potentiel du crowdsourcing pour des problématiques complexes, surtout autour de l'analyse de données…

2 commentaires:

  1. Merci. Cela me rappelle le célèbre Netflix prize. Bonne fêtes de fin d'année.

    RépondreSupprimer
  2. Un petit compte-rendu de ma participation (avec une collègue) au challenge AXA est à découvrir ici.

    RépondreSupprimer

Afin de lutter contre le spam, les commentaires ne sont ouverts qu'aux personnes identifiées et sont soumis à modération (je suis sincèrement désolé pour le désagrément causé…)