Data Science Actuariat : L'hybridation du Machine Learning et des GLM pour une tarification de pointe

Visualisation conceptuelle du machine learning en actuariat et science des données

Publié le 18 mai 2024

L’enjeu n’est plus de choisir entre la robustesse des GLM et la puissance du Machine Learning, mais de les orchestrer dans un système hybride pour atteindre un niveau de tarification inégalé.

Les algorithmes de type Gradient Boosting capturent des interactions complexes que les GLM linéaires ne peuvent modéliser, améliorant drastiquement la prédiction de la sinistralité.
Des outils comme SHAP transforment la « boîte noire » du ML en une « boîte de verre », permettant d’expliquer chaque décision tarifaire et de satisfaire les exigences réglementaires.

Recommandation : Intégrez le Machine Learning non pas en remplacement, mais en surcouche d’analyse et d’optimisation de vos modèles GLM existants pour quantifier le delta prédictif et justifier l’investissement.

En tant que directeur technique, votre défi est constant : affiner la segmentation du risque pour construire une tarification à la fois plus juste et plus compétitive. Depuis des décennies, les Modèles Linéaires Généralisés (GLM) sont la pierre angulaire de l’actuariat. Robustes, interprétables et validés par les régulateurs, ils constituent un socle solide. Pourtant, face à l’explosion des volumes de données et à la complexité croissante des comportements, ce standard montre ses limites. On vante souvent la supériorité prédictive des algorithmes de Machine Learning (ML), mais cette vision est simpliste. La véritable révolution ne réside pas dans une substitution brutale, mais dans une hybridation intelligente.

L’idée de remplacer un système éprouvé par une « boîte noire » potentiellement incontrôlable est une perspective effrayante, et à juste titre. Mais si la véritable clé n’était pas de choisir entre GLM et ML, mais de les faire collaborer ? Et si le Machine Learning n’était pas l’ennemi de l’interprétabilité, mais un outil pour révéler des schémas de risque jusqu’ici invisibles, à condition de le maîtriser ? Cet article propose une vision d’actuaire data scientist, non pas pour opposer deux mondes, mais pour construire un pont entre eux. Nous analyserons comment l’intégration de données externes, l’utilisation d’algorithmes avancés comme le Gradient Boosting et les techniques d’explicabilité (XAI) permettent de créer une tarification augmentée, où la puissance du ML vient compléter la sagesse des GLM.

Cet article propose une feuille de route pour tout directeur technique souhaitant moderniser son approche de la tarification. Explorez avec nous les différentes facettes de cette transformation actuarielle.

Sommaire : Orchestrer la convergence entre actuariat traditionnel et data science

Données externes : comment utiliser la météo ou les données Insee pour mieux tarifer ?
Gradient Boosting : pourquoi cet algorithme est-il meilleur pour prédire la sinistralité ?
Tarification comportementale : comment ajuster le prix selon la conduite réelle (Pay how you drive) ?
Explicabilité IA : comment expliquer à l’assuré pourquoi son tarif augmente (boîte noire) ?
Digital Twin : comment créer un jumeau numérique de votre portefeuille pour tester des scénarios ?
Data Lake : comment déverser toutes les données (structurées et non structurées) au même endroit ?
Critères de score : âge, zone, antécédents, qu’est-ce qui prédit vraiment le risque ?
Big Data Assurance : comment transformer vos téraoctets de données en avantages concurrentiels ?

Données externes : comment utiliser la météo ou les données Insee pour mieux tarifer ?

Un modèle, aussi sophistiqué soit-il, n’est que le reflet de la qualité de ses données d’entrée. Les GLM traditionnels se sont historiquement appuyés sur des données internes (profil de l’assuré, historique de sinistralité). L’intégration de données externes ouvre une nouvelle dimension à la segmentation du risque. Il ne s’agit plus seulement de savoir qui est l’assuré, mais dans quel environnement il évolue. L’inclusion de données géolocalisées issues de l’Insee (densité de population, niveau de revenu moyen) ou de données climatiques précises permet de contextualiser le risque avec une granularité inédite.

Prenons l’exemple du risque climatique. Les assureurs subissent directement l’impact de l’intensification des événements météorologiques. En France, l’augmentation des charges de prestations le démontre : une analyse de l’Insee révèle que l’année 2017 a vu une hausse de +11,9% pour l’assurance habitation et de +13% pour les risques de catastrophes naturelles. Intégrer des séries historiques de Météo-France (vitesse des vents, pluviométrie) dans un modèle prédictif permet de passer d’une tarification basée sur une zone postale large à une tarification tenant compte du micro-climat d’une adresse précise.

Étude de Cas : Modélisation du risque tempête avec Météo-France

Une étude actuarielle de l’Institut des Actuaires a validé cette approche. En intégrant des données climatiques payantes de Météo-France, comme les vitesses de vent quotidiennes et leurs écarts-types, les chercheurs ont observé une amélioration significative de la qualité de prédiction de la fréquence des sinistres. Ce gain informationnel a permis de mieux modéliser le risque tempête, un point où les données purement internes des assureurs sont souvent trop limitées pour être pleinement prédictives. Le modèle a ainsi pu différencier le risque entre deux localités proches mais exposées différemment au vent.

Cette démarche transforme le paradigme : le risque n’est plus seulement une caractéristique intrinsèque de l’assuré, mais aussi une fonction de son interaction avec un environnement dynamique. La valeur ajoutée est double : une meilleure mutualisation du risque et une tarification plus équitable, car fondée sur des facteurs objectifs et mesurables.

Gradient Boosting : pourquoi cet algorithme est-il meilleur pour prédire la sinistralité ?

Si les GLM excellent pour modéliser des relations linéaires, leur principale faiblesse réside dans leur incapacité à capturer nativement les interactions complexes et les effets non-linéaires entre les variables. C’est ici que les algorithmes de type « ensemble », et plus particulièrement le Gradient Boosting Machine (GBM), démontrent leur supériorité mathématique. Plutôt que de chercher une seule équation globale, le GBM construit séquentiellement une série de modèles simples (des arbres de décision), où chaque nouvel arbre vient corriger les erreurs de prédiction de l’ensemble des arbres précédents.

Cette approche itérative permet de sculpter la fonction de prédiction avec une précision chirurgicale. Une étude de l’Institut des Actuaires a confirmé que, sur des données de sinistralité, le Gradient Boosting Machine permet de capter les variables explicatives du risque avec une erreur quadratique moyenne (RMSE) significativement inférieure à celle d’un GLM classique. Le modèle GBM peut par exemple découvrir qu’une « jeune conductrice dans une zone urbaine avec un véhicule puissant » représente un risque non pas additif, mais exponentiel, une nuance que le GLM aurait du mal à quantifier.

Les méthodes issues de l’Apprentissage Statistique, ou Machine Learning, offrent un éclairage nouveau sur les risques sous-jacents ainsi qu’un meilleur pouvoir prédictif.

– Mémoire actuariat Université Paris-Dauphine, Construction d’un modèle de Machine Learning interprétable pour la tarification en assurance

Le delta prédictif, c’est-à-dire le gain de performance du GBM par rapport au GLM, devient alors un indicateur clé de performance (KPI) pour le directeur technique. Il ne s’agit pas d’une simple amélioration technique, mais d’un avantage concurrentiel direct : une meilleure prédiction permet une tarification plus fine, attirant les « bons » risques et dissuadant les « mauvais » avec une prime ajustée, tout en améliorant la rentabilité globale du portefeuille.

Tarification comportementale : comment ajuster le prix selon la conduite réelle (Pay how you drive) ?

La tarification comportementale, notamment via les programmes « Pay How You Drive » (PHYD), représente le passage d’une tarification basée sur des proxies de risque (âge, lieu de résidence) à une tarification fondée sur le risque réel et observé. Grâce à la télématique (boîtiers connectés, applications smartphone), les assureurs peuvent collecter des données granulaires sur le comportement de conduite : accélérations et freinages brusques, vitesse moyenne, respect des limitations, horaires de conduite.

Ce flux de données à haute fréquence est l’environnement idéal pour les modèles de Machine Learning. Un GLM peinerait à gérer des milliers de points de données par trajet pour des centaines de milliers d’assurés. Un modèle ML, en revanche, peut analyser ces séries temporelles pour en extraire des « signatures de conduite » et calculer un score de risque dynamique et individualisé. Cet ajustement continu permet de récompenser les conducteurs vertueux avec des primes plus basses, créant un cercle vertueux. En effet, les formules Pay How You Drive permettent jusqu’à 50% de réduction de prime pour les conducteurs les plus prudents, ce qui constitue un puissant levier de fidélisation et d’acquisition.

Ce marché n’est plus une niche. Selon Fortune Business Insights, le marché mondial de la télématique d’assurance, évalué à 6,92 milliards USD en 2023, devrait exploser pour atteindre 24,19 milliards USD d’ici 2030. Ignorer cette tendance, c’est prendre le risque de perdre les conducteurs les moins risqués, qui seront naturellement attirés par des offres qui valorisent leur prudence. La mise en place d’un programme PHYD n’est pas seulement une innovation produit, c’est une décision stratégique pour protéger et améliorer la qualité de son portefeuille.

L’enjeu technique réside dans la capacité à gérer et à modéliser ce volume de données (le Big Data), à garantir la sécurité et la confidentialité, et à créer un score de risque à la fois prédictif, juste et compréhensible pour l’assuré. C’est une incarnation parfaite de la rencontre entre l’actuariat et la data science.

Explicabilité IA : comment expliquer à l’assuré pourquoi son tarif augmente (boîte noire) ?

La puissance prédictive du Machine Learning se heurte à une contrainte fondamentale : le besoin de transparence. C’est le fameux problème de la « boîte noire ». Un GLM est nativement interprétable : on peut isoler le coefficient de chaque variable et expliquer son impact sur la prime. Un modèle GBM, avec ses milliers d’arbres, est beaucoup plus opaque. Or, cette opacité est un frein majeur à l’adoption, tant pour des raisons réglementaires (le RGPD instaure un droit à l’explication) que commerciales (un client a le droit de comprendre pourquoi sa prime augmente).

Dans de nombreux secteurs comme la médecine, la banque ou encore l’assurance, l’emploi d’algorithmes peut avoir lieu si, et seulement si, il est possible de tracer et expliquer les décisions de ces dits algorithmes.

– Ula La Paris, Repousser les limites d’explicabilité — un guide avancé de SHAP

La solution n’est pas de renoncer au ML, mais de lui adjoindre une couche d’interprétabilité. C’est l’objectif de l’IA Explicable (XAI) et de méthodes comme SHAP (SHapley Additive exPlanations). SHAP, issu de la théorie des jeux, permet de calculer la contribution de chaque variable à une prédiction individuelle. On peut ainsi transformer la « boîte noire » en « boîte de verre ». Concrètement, pour un assuré dont la prime augmente, on peut générer un rapport indiquant : « +5€ à cause de votre changement de véhicule, +12€ à cause de l’augmentation du risque dans votre nouvelle zone de résidence, mais -8€ grâce à votre bonus conservé ».

Étude de Cas : Application de SHAP pour l’explicabilité en tarification assurance

Une étude publiée dans la revue Variances a montré comment les valeurs SHAP permettent d’identifier les interactions complexes dans une tarification pour la garantie Dégâts des eaux. L’analyse a par exemple révélé que ce n’est pas seulement la valeur de la maison qui influence le risque, mais l’interaction de cette valeur avec l’âge de l’assuré et l’ancienneté du contrat. Cette approche a permis d’utiliser un modèle complexe tout en conservant une structure analytique transparente, capable de s’intégrer dans les processus de tarification traditionnels et de fournir des explications claires au métier et aux clients.

Votre feuille de route pour une IA explicable : Audit de transparence

Inventaire des modèles : Listez tous les modèles de ML décisionnels impactant les assurés et classez-les par criticité.
Choix des outils : Évaluez et sélectionnez les librairies d’explicabilité adaptées (ex: SHAP, LIME) à vos stacks technologiques et à la nature de vos modèles.
Définition des templates : Concevez des modèles d’explication clairs et standardisés pour le service client, traduisant les valeurs SHAP en langage compréhensible.
Formation des équipes : Formez les actuaires à l’interprétation des résultats SHAP et les conseillers clientèle à la communication de ces explications.
Documentation et gouvernance : Documentez la méthodologie d’explicabilité pour chaque modèle et mettez en place un processus de revue périodique.

L’explicabilité n’est plus une option. C’est la condition sine qua non de l’industrialisation du Machine Learning en assurance, un pont indispensable entre la performance mathématique et la confiance du marché.

Digital Twin : comment créer un jumeau numérique de votre portefeuille pour tester des scénarios ?

L’un des défis majeurs de la stratégie actuarielle est d’anticiper l’impact de décisions tarifaires ou de changements de marché sur le comportement du portefeuille. Comment réagiront les assurés à une nouvelle grille tarifaire ? Quel sera l’impact d’une nouvelle loi sur le taux de rachat des contrats d’épargne ? Le concept de Jumeau Numérique (Digital Twin), appliqué au portefeuille d’assurance, apporte une réponse puissante. Il s’agit de créer une réplique virtuelle et dynamique de votre portefeuille, où chaque contrat et chaque assuré est modélisé comme un agent autonome.

Cette simulation à grande échelle est rendue possible par le Machine Learning. On peut entraîner des modèles (comme CatBoost, une variante de Gradient Boosting) à prédire le comportement de chaque assuré (probabilité de rachat, de sinistre, de versement) en fonction de ses caractéristiques et d’un environnement macroéconomique donné. En modifiant les paramètres de l’environnement virtuel (par exemple, en simulant une hausse des taux d’intérêt ou l’introduction d’une offre concurrente agressive), on peut observer en temps accéléré comment le portefeuille réagit. Cela permet de tester des dizaines de scénarios « what-if » sans prendre de risque sur le portefeuille réel.

Étude de Cas : Prédire l’attrition avec un jumeau numérique de portefeuille

Une application concrète, citée dans une analyse de l’ACPR sur la transformation numérique, a montré comment la Data Science peut améliorer la modélisation du comportement des assurés sur les contrats d’épargne. En utilisant un algorithme CatBoost avec des fonctions de perte adaptées (Tweedie), les actuaires ont pu créer un modèle prédisant les versements libres. Le résultat est une précision stupéfiante, avec un écart de seulement 0,71% entre le montant des versements prédits par le jumeau numérique et le montant réel observé. Ce type de modèle permet de simuler avec une grande fiabilité l’impact d’une nouvelle politique de communication sur les flux de trésorerie.

Le jumeau numérique devient ainsi un véritable laboratoire stratégique pour la direction technique. Il permet de quantifier l’élasticité-prix, d’optimiser les campagnes de fidélisation en ciblant les assurés les plus à risque de départ, et de fonder les décisions stratégiques non plus sur l’intuition, mais sur des simulations multi-agents robustes et validées par la donnée.

Data Lake : comment déverser toutes les données (structurées et non structurées) au même endroit ?

La promesse du Big Data et du Machine Learning repose sur un prérequis technique fondamental : l’accès unifié et fluide à l’ensemble des données de l’entreprise. Or, dans les systèmes d’information traditionnels, les données sont souvent cloisonnées en silos : données de souscription dans un système, données de sinistres dans un autre, données CRM, et une multitude de fichiers Excel et de rapports PDF. Le Data Lake (lac de données) est l’architecture qui vient briser ces silos.

Contrairement à un Data Warehouse qui exige que les données soient nettoyées, structurées et formatées avant d’y être stockées, un Data Lake est conçu pour accueillir les données dans leur format brut et natif. On peut y « déverser » indifféremment des tables SQL structurées, des e-mails, des rapports d’expertise en PDF, des enregistrements de centres d’appels, des données JSON issues de boîtiers télématiques ou encore des images de constats. C’est cette flexibilité qui en fait le réceptacle idéal pour la Data Science.

Les actuaires et data scientists peuvent alors puiser dans ce lac pour explorer de nouvelles corrélations. Par exemple, en appliquant des algorithmes de Traitement du Langage Naturel (NLP) sur les commentaires des rapports d’expertise, on peut identifier de nouvelles causes de sinistres qui n’étaient pas codifiées dans les systèmes classiques. C’est un changement de paradigme : au lieu de n’analyser que ce qui a été prévu et structuré, on explore l’intégralité du patrimoine informationnel de l’entreprise.

Étude de Cas : Analyse de données non structurées via un Data Lake

Des compagnies d’assurance innovantes exploitent déjà ce potentiel. En collaborant avec des startups technologiques, elles mettent en place des architectures Data Lake pour y agréger leurs données internes et des données externes (Open Data). Par exemple, après une catastrophe naturelle, des algorithmes de NLP et de vision par ordinateur peuvent analyser simultanément les déclarations de sinistres (PDF), les photos prises par les drones et les données géorisques publiques pour évaluer quasi-instantanément l’étendue des dégâts et l’exposition du portefeuille, permettant une gestion de crise et une allocation des ressources beaucoup plus réactives.

Le Data Lake n’est pas une simple infrastructure de stockage ; c’est un catalyseur d’innovation qui fournit le carburant nécessaire à tous les modèles de Machine Learning avancés.

Critères de score : âge, zone, antécédents, qu’est-ce qui prédit vraiment le risque ?

Le cœur de la tarification actuarielle est la sélection des bonnes variables prédictives. Historiquement, les GLM ont été construits sur une vingtaine de variables bien connues : âge, sexe (quand la loi le permet), type de véhicule, zone géographique, bonus/malus. Ces critères sont efficaces, mais ils ne sont que des « proxies » du risque. L’âge, par exemple, n’est pas un facteur de risque en soi ; c’est un proxy de l’expérience de conduite, de la maturité et des habitudes de vie. Aujourd’hui, plus de 80% du marché de l’assurance utilise un modèle linéaire généralisé (GLM) pour prédire la prime pure à partir de ces variables.

Le Machine Learning permet de dépasser ces proxies en identifiant des interactions beaucoup plus fines. Un modèle de Gradient Boosting peut analyser des centaines de variables et découvrir des segments de risque très spécifiques et contre-intuitifs. Il peut par exemple révéler que la variable la plus prédictive n’est pas l’âge, mais l’interaction entre l’âge, le nombre de kilomètres parcourus annuellement et l’heure habituelle de conduite. C’est la force du ML : il découvre des patterns que l’intuition humaine ou une analyse linéaire simple ne pourraient pas soupçonner.

L’enjeu devient alors de hiérarchiser ces nouvelles variables. Des techniques comme l’analyse des « feature importances » dans les modèles de type GBM ou l’utilisation des valeurs SHAP globales permettent de classer toutes les variables (internes, externes, comportementales) selon leur contribution réelle à la prédiction du risque. Cela permet de répondre à des questions stratégiques : faut-il investir dans l’acquisition de données météorologiques ou de données sur les temps de trajet ? Quelle est la variable qui, si elle était mieux renseignée, apporterait le plus grand gain de pouvoir prédictif ? Cette approche, pilotée par la donnée, permet de rationaliser et d’optimiser la stratégie de collecte et d’enrichissement de l’information.

Finalement, le ML ne fait pas que prédire ; il nous apprend ce qui prédit. Il transforme la tarification d’un art basé sur des conventions à une science fondée sur la preuve empirique extraite de vastes ensembles de données.

À retenir

La supériorité du ML ne réside pas seulement dans sa performance, mais dans sa capacité à exploiter des données hétérogènes (textes, images, séries temporelles) inaccessibles aux GLM.
L’explicabilité (XAI) n’est pas une contrainte, mais un atout stratégique qui renforce la confiance, facilite l’adoption par le métier et assure la conformité réglementaire.
L’approche hybride GLM + ML est la plus pragmatique : elle permet de conserver la robustesse des modèles existants tout en injectant le « delta prédictif » du ML là où il a le plus d’impact.

Big Data Assurance : comment transformer vos téraoctets de données en avantages concurrentiels ?

Nous avons exploré les différentes briques technologiques et méthodologiques qui dessinent le futur de l’actuariat. De l’architecture Data Lake à l’explicabilité des modèles, chaque élément contribue à un objectif unique : transformer les volumes massifs de données, le Big Data, d’un passif coûteux à stocker en un actif stratégique générateur d’avantages concurrentiels. La question n’est plus « avons-nous assez de données ? », mais « comment extrayons-nous la valeur de chaque téraoctet ? ».

La réponse réside dans une approche systémique. Isoler une de ces briques est insuffisant. Lancer un projet de Machine Learning sans une infrastructure Data Lake solide mène à des expérimentations laborieuses qui ne passent jamais à l’échelle. Déployer un modèle « boîte noire » sans un framework d’explicabilité expose à des risques réglementaires et réputationnels majeurs. L’enjeu pour le directeur technique est d’orchestrer cette transformation en construisant une plateforme de Data Science actuarielle unifiée.

Cette plateforme doit permettre un cycle de vie complet du modèle : de l’exploration des données brutes dans le Data Lake, à la création de modèles hybrides GLM/ML, jusqu’à leur déploiement avec des API d’explicabilité et leur monitoring continu via des jumeaux numériques. C’est cette intégration qui crée un véritable avantage concurrentiel. La capacité à développer, tester et déployer un nouveau tarif affiné en quelques semaines, plutôt qu’en plusieurs trimestres, devient un différenciant clé sur un marché où la réactivité est primordiale.

Pour une vision complète, il est utile de relire comment le Big Data devient un levier de compétitivité pour l’assurance.

La convergence de l’actuariat et de la Data Science est en marche. L’étape suivante pour votre organisation est d’évaluer votre maturité sur chacun de ces axes et de définir une feuille de route claire pour construire votre propre modèle de tarification augmentée. Commencez par identifier le projet pilote qui offrira le meilleur retour sur investissement, que ce soit en améliorant un GLM existant avec des données externes ou en expérimentant un modèle GBM sur un segment de niche.

Rédigé par Marc Vasseur, Marc Vasseur est actuaire certifié IA (Institut des Actuaires) et Data Scientist, cumulant 15 ans d'expérience en R&D assurance. Il fusionne les modèles actuariels traditionnels (GLM) avec le machine learning (Gradient Boosting) pour affiner la segmentation et le scoring. Il est spécialiste de la solvabilité II et des algorithmes de détection de fraude.

Tunnel de vente assurance : comment convertir un visiteur web en assuré sans intervention humaine ?

RPA (Robotic Process Automation) : comment les robots logiciels peuvent-ils faire le travail administratif à la place de vos gestionnaires ?

Actuariat Data Science : comment le machine learning complète-t-il les modèles GLM classiques ?