[DOSSIER] Dossier : #Spécial Fraude 2/9

Arnak Dalalyan (Ensae) : «Les méthodes traditionnelles ne seront plus adaptées au traitement de la fraude»

Arnak Dalalyan (Ensae) : «Les méthodes traditionnelles ne seront plus adaptées au traitement de la fraude»
Arnak Dalalyan, Professeur à l’École nationale de la statistique et de l’administration économique. © LUC PERENOM

Les machines peuvent apprendre par elles-mêmes. Ce professeur de mathématiques et statistiques à l’Ensae en est convaincu. D’autant que les domaines d’application de cette discipline ne manquent pas : robotique, e-commerce et... lutte contre la fraude !

L’apprentissage automatique des machines, dit machine learning, connaît un nouvel essor auprès des entreprises, notamment dans la lutte contre la fraude. Que recouvre ce champ d’étude ?

Le machine learning désigne une branche de l’intelligence artificielle dont le but est de comprendre le monde à partir des exemples des phénomènes que l’on observe. Il consiste à concevoir des algorithmes exécutés par des ordinateurs qui vont transformer des exemples en règles. Pour y parvenir, ces algorithmes s’efforcent de reproduire le comportement de l’être humain en phase d’apprentissage. Lorsqu’on apprend à un enfant à reconnaître un éléphant, on lui soumet plusieurs séries de photos (les exemples). À partir d’un temps d’apprentissage, il finira par déduire qu’un animal présentant des défenses correspond à un éléphant (la règle). C’est le même principe avec l’ordinateur. Les algorithmes permettront à des « machines apprenantes » – ordinateurs, objets connectés, robots – de réagir à partir de l’expérience acquise. Le tout avec une interventionhumaine réduite au minimum. Pour assurer ce modèle d’apprentissage, deux notions importantes sont à prendre en compte : la répétition et les expériences.

SON PARCOURS

Âgé de 36 ans, Arnak Dalalyan est docteur en mathématiques appliquées à l’université du Maine en 2001 et habilité à diriger des recherches à l’université Paris-VI en 2007.
  • 2003 Maître de conférences à Paris-VI (Pierre-et-Marie-Curie).
  • 2006 Professeur invité à l’université de Tokyo.
  • 2008 Directeur de recherches à l’École des Ponts ParisTech.
  • 2011 Professeur de mathématiques et de statistiques à l’Ensae ParisTech et responsable de la voie data science.
  • 2014 Vice-directeur du Center for data science à Paris-Saclay.

Comment peut-on concevoir qu’une machine puisse apprendre ?

Le machine learning a livré des résultats remarquables en matière de reconnaissance de forme au sens large : reconnaissance optique de caractères ou celle des visages, du langage naturel ou traduction automatique… Par exemple, des ordinateurs sont en mesure d’identifier le sexe d’une personne sur la simple analyse d’une photo en four­nissant des résultats supérieurs à celui d’un être humain. Cette approche fait le pari qu’il est possible de construire des systèmes autonomes que l’on pourra « faire apprendre » sur la base d’un corpus d’exemples.

"Le machine learning fait le pari qu’il est possible de construire des systèmes autonomes que l’on pourra faire apprendre sur la base d’un corpus d’exemples."

Quels sont ses principaux domaines d’applications observés à ce jour ?

Historiquement, le machine learning a d’abord fait ses preuves dès la fin des années 70 dans des applications comme la robotique. Des sociétés technologiques comme Google ont ensuite cherché à l’étendre à de nouveaux champs. Ainsi, les moteurs de recherche utilisent les méthodes d’apprentissage automatique des machines. D’autres s’en sont inspirés pour concevoir des systèmes de recommandation. L’illustration la plus récente est le Challenge Netflix, dont le principe repose sur une analyse des goûts cinématographiques de ses utilisateurs à travers les films visionnés, les notes et commentaires postés et une identification d’autres utilisateurs aux profils similaires. L’objectif consiste à suggérer de nouveaux films susceptibles de leur plaire. Enfin, d’autres applications s’inscrivent dans le contexte du e-commerce et de la publicité en ligne. Elles s’efforcent notamment de sélectionner les bannières publicitaires en fonction des requêtes des internautes.

Où se cristallise le cœur de la recherche sur cette discipline au niveau mondial ?

Les États-Unis sont vraiment les leaders. Ils disposent de capacités incomparables pour attirer les meilleurs chercheurs et compétences dans ce domaine, dont certains, parmi les plus connus, se sont formés dans l’Hexagone. Le machine learning est d’ailleurs une branche de l’informatique très proche des sciences mathématiques. C’est un champ disciplinaire où excelle traditionnellement la France qui, grâce à l’Institut national de la recherche en informatique et en automatique (Inria), attire de nombreux chercheurs.

"Le comportement d’un assuré pourra être déduit par la machine en fonction de celui de ses proches et des contacts de son réseau."

Les profils de machine learner suscitent l’intérêt des recruteurs. Dans quelle typologie de sociétés s’insèrent-ils au sortir de leur formation ?

Une centaine d’étudiants se spécialisent chaque année dans le machine learning à l’Ensae. Les sociétés qui les recrutent sont diverses : secteur des fournisseurs de services (EDF, GDF…), start-up spécialisées dans les solutions logicielles, entreprises intervenant dans le marketing (segmentation de clientèle, choix de stratégie promotionnelle, ciblage des clients…) et banque-assurance. Axa recrute de manière soutenue en apprentissage statistique. Dans le secteur de l’assurance, les directions des ressources humaines ne recherchent pas de purs spécialistes en machine learning, mais plutôt des profils d’actuaires qui ont complété leur formation par l’apprentissage automatique.

L’actuaire et le data scientist ne risquent-ils pas d’entrer en concurrence frontale dans l’exploitation des données ?

L’émergence même du métier de data scientist peut être vue comme un défi pour les actuaires. Il maîtrise en effet un domaine d’application et les différentes sources de données qui s’y réfèrent. Son but est de comprendre les données utiles à son domaine d’application et les algorithmes à mobiliser pour agréger des données hétérogènes (combinaison de données textuelles, médicales…). L’actuaire, en revanche, en ce qu’il maîtrise la science du risque et la réglementation, se trouve dans une meilleure position pour exploiter les techniques d’apprentissage automatique des machines.

En quoi le machine learning peut-il améliorer la lutte contre la fraude à l’assurance ?

Une stratégie de machine learning repose sur la possibilité de prédire un phénomène à partir d’observations passées, d’en établir des corrélations pertinentes pour en sortir un algorithme. Appliquée à la lutte antifraude, cette approche consisterait à s’appuyer sur les expériences de fraudes passées pour établir une modélisation de la duperie et identifier les profils à risque au sein d’un portefeuille. Pour y parvenir, le machine learner aura besoin de combiner plusieurs sources de données en dehors de celles déclaratives fournies par l’assuré. La première démarche consistera donc à identifier les plus utiles à la détection des malversations, dont, par exemple, les données des réseaux sociaux. Le comportement d’un assuré pourra être déduit par la machine en fonction de celui de ses proches et des contacts de son réseau.

"Le coût le plus important reste le coût humain, celui de l’expert en machine learning."

Quelle est l’efficacité de cette méthode ?

C’est un domaine d’application où les résultats peuvent être satisfaisants. Toutefois, il n’y aura jamais un algorithme qui pourra détecter parfaitement tous les cas frauduleux. Il commettra toujours des erreurs de deux natures : identifier des cas de fraude alors qu’ils ne l’étaient pas et inversement. Les algo­rithmes d’apprentissage procèdent de manière automatique. Il est donc d’abord conseillé de demander à la machine de prédire la probabilité que le comportement d’un assuré soit frauduleux et solliciter, dans un second temps, un expert pour vérifier. Il ne faut jamais accorder une confiance aveugle aux résultats de l’algorithme. D’autant que dans certains cas très complexes, les statisticiens ne disposent pas d’un recul suffisant pour déterminer l’efficacité d’un algorithme. Un ou deux ans sont nécessaires pour en comprendre les vertus et les failles.

Peut-on imaginer que la lutte contre la fraude à l’assurance passera exclusivement par le machine learning et le big data ?

Dans les cinq ans à venir, ces techniques se seront largement répandues dans la détection de la fraude, tout simplement parce que la masse de données va augmenter. Or, les méthodes traditionnelles ne seront plus adaptées pour les traiter. Dès lors, elles seront intégrées dans les techniques d’apprentissage des machines. Par exemple, dans le cas d’une fausse déclaration, les machines solliciteront l’opinion de plusieurs experts. Au regard de l’expérience passée de chacun, elles rendront leur verdict en pondérant les taux de réussite des experts.

Jusqu’à présent, seuls les majors de l’assurance dommages en France l’explorent. Est-ce à dire que cette solution est coûteuse à déployer ?

Le coût le plus important reste le coût humain, celui de l’expert en machine learning. Dans toute cette effervescence entourant le big data et la data science, les chercheurs proposent des solutions libres et des logiciels gratuits. Dans la plupart des cas, leur coût n’est pas un obstacle pour les compagnies d’assurances pour tester différentes stratégies sur un sous-échantillon de taille raisonnable. Dès lors qu’elles souhaitent l’appliquer à l’ensemble d’un portefeuille, elles peuvent, dans ce cas, investir dans des supports logiciels payants. Même sur ce marché, une forte compétition entre les start-up aura pour effet de faire baisser le prix des licences d’exploitation. Quant à l’équipement, l’augmentation de la puissance computationnelle a contribué à sa démocratisation. Un ordinateur portable avec 4 Go de mémoire vive est souvent suffisant pour faire tourner des algorithmes sophistiqués et établir des classifications pertinentes.

Abonnés

Base des organismes d'assurance

Retrouvez les informations complètes, les risques couverts et les dirigeants de plus de 850 organismes d'assurance

Je consulte la base

Le Magazine

ÉDITION DU 26 novembre 2021

ÉDITION DU 26 novembre 2021 Je consulte

Emploi

CARCO

RESPONSABLE AUDIT INTERNE h/f

Postuler

Natixis Assurances

CONTRÔLEUR DE GESTION EPARGNE (H/F)

Postuler

+ de 10 000 postes
vous attendent

Accéder aux offres d'emploi

Commentaires

Arnak Dalalyan (Ensae) : «Les méthodes traditionnelles ne seront plus adaptées au traitement de la fraude»

Merci de confirmer que vous n’êtes pas un robot

Votre e-mail ne sera pas publié