Système de scoring automatisé pour la souscription en assurance
Publié le 15 mai 2024

En tant que directeur de la souscription, vous êtes au cœur d’une tension permanente : la nécessité d’automatiser le traitement des « petits » risques pour libérer vos équipes, tout en garantissant la profitabilité du portefeuille. La promesse du scoring de souscription automatisé semble répondre à cette équation. Le marché est inondé de discours sur l’intelligence artificielle, le gain de temps et la réduction des erreurs humaines, présentant l’automatisation comme une fin en soi.

Ces solutions standard proposent souvent une vision binaire : accepter ou refuser. Mais cette approche est une simplification dangereuse de votre métier. La véritable performance ne réside pas dans la capacité à dire « non » plus vite, mais dans la finesse de l’analyse pour dire « oui » au bon prix. L’enjeu n’est pas seulement d’éviter les mauvais risques, mais de savoir tarifer précisément chaque profil pour optimiser la marge.

Cet article dépasse l’approche binaire. Nous n’allons pas nous contenter de lister des critères ou de vanter une technologie. Notre angle est celui de l’arbitrage stratégique. Car un scoring de souscription n’est pas une formule magique, mais un ensemble de leviers décisionnels. Chaque choix technique, de l’algorithme au seuil d’acceptation, a un impact direct et quantifiable sur votre ratio combiné. Le véritable objectif n’est pas de refuser, mais de construire un outil de sélection si précis qu’il en devient un levier de rentabilité chirurgical.

Nous allons explorer comment transformer votre scoring d’un simple filtre à un véritable outil de pilotage stratégique. Pour y parvenir, nous analyserons les mécanismes qui permettent de passer d’une décision automatisée à une rentabilité maîtrisée.

Critères de score : âge, zone, antécédents, qu’est-ce qui prédit vraiment le risque ?

Les critères de scoring classiques comme l’âge, la zone géographique ou les antécédents de sinistralité sont des points de départ, mais leur pouvoir prédictif brut est souvent surestimé. Pris isolément, ils décrivent une situation mais ne prédisent pas nécessairement un comportement. La véritable efficacité d’un score réside dans sa capacité à identifier des corrélations non évidentes et à utiliser des critères plus discriminants, souvent liés au cycle de vie du risque lui-même.

Un score performant ne se contente pas de compiler des données déclaratives. Il intègre des filtres basés sur des statistiques de portefeuille robustes. Il ne s’agit plus de savoir si un profil est « jeune », mais si la « jeunesse » de son entreprise ou de son projet le place dans une cohorte à la sinistralité historiquement élevée.

Étude de cas : L’approche d’Axa pour le scoring des PME

Pour affiner sa sélection des risques PME, Axa a dépassé les critères traditionnels en systématisant son processus de scoring. Plutôt que de simplement évaluer le secteur d’activité, la compagnie a mis en place un filtre direct et non-négociable : les entreprises de moins de deux ans sont automatiquement exclues de certains segments. Cette décision n’est pas arbitraire ; elle est fondée sur des statistiques internes démontrant que la probabilité de défaillance et donc de sinistralité est significativement plus élevée durant cette phase précoce du cycle de vie d’une entreprise. Ce critère n’est plus descriptif, il est décisionnel et agit comme un premier rempart efficace pour protéger la rentabilité du portefeuille.

La clé n’est donc pas d’accumuler un maximum de variables, mais d’identifier les quelques critères qui ont un impact disproportionné sur la probabilité de sinistre. Cet exercice demande une analyse continue de votre propre portefeuille pour découvrir ce qui, chez vous, constitue un véritable indicateur avancé du risque.

API Scoring : comment appeler le moteur de score pendant que le client remplit le formulaire ?

L’efficacité du scoring ne réside pas seulement dans la pertinence de son algorithme, mais aussi dans sa capacité à s’intégrer de manière invisible et instantanée dans le parcours de souscription. L’objectif est d’évaluer le risque en temps réel, sans jamais ralentir le client ou le distributeur. C’est ici que l’intégration via API (Application Programming Interface) devient le système nerveux de la souscription moderne.

Concrètement, l’appel au moteur de score ne se fait pas à la fin du formulaire. Il se déclenche de manière dynamique. À chaque fois qu’une information clé est saisie par l’utilisateur (par exemple, le code postal, l’âge, le type de bien à assurer), le front-end du formulaire peut envoyer une requête via API au moteur de scoring. Le moteur renvoie une réponse quasi-instantanée, permettant de pré-calculer un score ou d’ajuster dynamiquement les questions suivantes. Le processus est totalement transparent pour l’utilisateur, qui a l’impression de remplir un simple formulaire web. Cette approche permet une décision instantanée à la seconde où le client clique sur « Valider ».

Cette communication en temps réel entre le formulaire de souscription et le moteur de règles est essentielle. Elle permet non seulement une décision rapide mais ouvre aussi la porte à des parcours intelligents : affichage de garanties optionnelles pertinentes, ajustement des franchises en direct, ou même blocage immédiat du parcours si un critère rédhibitoire est détecté, évitant ainsi de la frustration et un traitement inutile.

Back-testing : comment vérifier si le score a bien prédit la sinistralité réelle ?

Lancer un modèle de scoring sans le tester sur des données historiques, c’est naviguer à vue. Le back-testing est le processus non-négociable qui transforme une hypothèse mathématique en un outil de pilotage fiable. Il s’agit de confronter les prédictions passées du modèle avec la réalité observée. Comme le souligne une analyse, le back-testing est l’acte de comparer les prédictions d’un modèle aux données historiques réelles pour en évaluer la performance.

Le processus est simple en théorie : prenez un portefeuille de contrats souscrits il y a 2 ou 3 ans. Faites tourner votre modèle de scoring sur les données de ces contrats au moment de leur souscription. Le modèle va leur attribuer un score (par exemple, de 1 à 100). Ensuite, comparez ces scores à la sinistralité réelle que ces contrats ont générée depuis. Est-ce que les contrats avec les pires scores ont effectivement été les plus sinistrés ? Est-ce que les « bons élèves » du score sont restés rentables ? Si la réponse est non, votre modèle a un faible pouvoir prédictif et doit être recalibré.

Le back-testing doit être un processus continu, pas un audit ponctuel. Les comportements des assurés évoluent, de nouveaux risques émergent. Un modèle performant aujourd’hui peut devenir obsolète en 18 mois. Ce test régulier permet de détecter la « dérive » du modèle (model drift) et de s’assurer que les décisions automatiques que vous prenez chaque jour reposent toujours sur une base statistique solide et non sur des corrélations dépassées.

Plan d’action : auditer la performance de votre score

  1. Isolation de la cohorte : Sélectionnez tous les contrats souscrits sur une période N-3 à N-2 pour avoir un recul suffisant sur leur sinistralité.
  2. Re-scoring à l’aveugle : Appliquez votre modèle de score actuel sur les données de cette cohorte au moment de leur souscription pour obtenir un score prédictif pour chaque contrat.
  3. Collecte de la sinistralité réelle : Pour chaque contrat de la cohorte, compilez la sinistralité cumulée (fréquence et coût) sur la période écoulée.
  4. Analyse de corrélation : Confrontez le score prédit à la sinistralité réelle. Les contrats les mieux notés sont-ils bien les moins sinistrés ? Calculez le « lift » : de combien la sinistralité augmente-t-elle pour chaque décile de score ?
  5. Identification des erreurs : Analysez les « faux positifs » (bons scores, forte sinistralité) et les « faux négatifs » (mauvais scores, faible sinistralité) pour identifier les failles de votre modèle et les variables à ajuster.

Seuil d’acceptation : comment déplacer le curseur entre volume d’affaires et rentabilité ?

Le score n’est qu’un chiffre. La décision stratégique réside dans le positionnement du seuil d’acceptation. C’est le curseur qui matérialise l’arbitrage fondamental de l’assureur : privilégier le volume d’affaires ou la rentabilité technique ? Placer le seuil trop haut, c’est accepter trop de risques et dégrader son ratio S/P. Le placer trop bas, c’est se priver de parts de marché et frustrer son réseau de distribution.

Il n’existe pas de seuil « parfait ». Le bon seuil est dynamique et dépend de votre stratégie commerciale du moment. En phase de conquête, vous pouvez décider de l’abaisser temporairement pour acquérir de nouveaux clients, en acceptant une marge technique plus faible. En phase de consolidation, vous le remonterez pour vous concentrer sur les profils les plus rentables. Le scoring vous donne la capacité de piloter cette stratégie avec une précision chirurgicale, en sachant exactement quel volume de primes vous « sacrifiez » ou « gagnez » pour chaque point de score.

L’idée de réduire le volume pour augmenter la rentabilité peut sembler contre-intuitive, mais elle est au cœur d’une stratégie de scoring efficace. En concentrant vos efforts sur les prospects les plus qualifiés, vous améliorez drastiquement le taux de transformation et le chiffre d’affaires généré. Par exemple, une campagne menée en 2003 a démontré qu’une réduction de 46% du volume de contacts, grâce à un meilleur ciblage, pouvait entraîner une augmentation du taux de retour de 55% et un chiffre d’affaires additionnel significatif.

Le seuil ne doit pas être unique. Une approche sophistiquée consiste à définir plusieurs seuils : « Vert » pour une acceptation automatique, « Orange » pour une analyse manuelle par un souscripteur expert (le fameux « cas en alerte »), et « Rouge » pour un refus automatique. Le rôle du directeur de la souscription est alors d’ajuster la largeur de chacune de ces bandes en fonction des objectifs de l’entreprise.

Refus de vente : comment justifier légalement le refus basé sur un score ?

Refuser un client est un acte sensible, qui doit être juridiquement et éthiquement fondé. Lorsque ce refus est le résultat d’un algorithme, la question de la justification devient cruciale. Le règlement général sur la protection des données (RGPD) accorde aux individus un droit à obtenir une explication pour une décision prise par un processus entièrement automatisé. Un simple « l’ordinateur a dit non » est inacceptable.

C’est le principal défi des modèles de Machine Learning modernes. Comme le souligne un mémoire de l’Université Paris-Dauphine, leur principal défaut reste leur manque d’interprétabilité. Ce statut de « boîte noire » les rend souvent difficiles à utiliser en production, où chaque décision doit pouvoir être expliquée.

Les modèles de Machine Learning permettent de modéliser la sinistralité dans sa complexité, mais leur principal défaut reste leur manque d’interprétabilité. Ce statut de boîte noire les rend inadaptés aux contraintes opérationnelles de la tarification en assurance.

– Mémoire actuariel, Université Paris-Dauphine

Pour surmonter cet obstacle, des techniques d’explicabilité de l’IA (XAI) ont été développées. L’une des plus efficaces est la méthode SHAP (SHapley Additive exPlanations). En substance, pour chaque prédiction, SHAP décompose le score final et attribue à chaque caractéristique du client (âge, localisation, type de véhicule, etc.) une valeur de contribution. On peut alors dire : « Votre demande a été refusée car votre score global de X est inférieur à notre seuil de Y. Les principaux facteurs ayant contribué négativement à ce score sont [facteur 1] et [facteur 2] ». Cette explication est factuelle, personnalisée et défendable.

Étude de cas : Utilisation de SHAP pour l’explicabilité en assurance

En pratique, l’utilisation de SHAP permet de visualiser la contribution de chaque variable à la prédiction de sinistralité pour un client donné. Par exemple, dans un modèle de fréquence de sinistres XGBoost, si la valeur SHAP associée à la caractéristique « valeur de l’habitation » est négative, cela signifie que cette variable spécifique tire le risque du client en dessous de la moyenne du portefeuille, ce qui est un bon point. Inversement, une valeur SHAP positive pour « jeune conducteur » indiquerait une contribution négative au score global. SHAP peut même isoler la contribution des interactions entre variables, offrant un niveau de granularité indispensable pour une justification précise et légale.

Souscription : comment bloquer automatiquement les profils à risque à l’entrée ?

L’un des bénéfices les plus directs du scoring est sa capacité à agir comme un filtre intelligent à l’entrée du portefeuille. L’objectif n’est pas de « bloquer » aveuglément, mais de segmenter le flux de prospects en temps réel pour allouer les ressources de souscription là où elles ont le plus de valeur. Le système permet d’établir des règles de « knock-out » (KO) claires et immédiates.

Ces règles de KO ne sont pas basées sur le score global, mais sur des critères rédhibitoires, non-négociables, définis en amont. Par exemple : un certain type d’activité professionnelle pour une RC Pro, un véhicule d’un modèle spécifique pour l’assurance auto, ou des antécédents de fraude avérés. Si un prospect coche l’une de ces cases dès le début du formulaire, le parcours est immédiatement stoppé avec un message clair. Cela évite une perte de temps pour le client comme pour l’assureur.

Au-delà du KO binaire, la véritable puissance du scoring réside dans la segmentation en trois flux :

  • Le « Green Channel » : Les profils qui obtiennent un excellent score sont automatiquement acceptés. Le contrat peut être émis en quelques secondes sans aucune intervention humaine. C’est le « straight-through processing » (STP) qui représente l’essentiel du volume.
  • Le « Red Channel » : Les profils avec un score très dégradé ou présentant un critère de KO sont automatiquement refusés.
  • La « Grey Zone » : C’est là que se trouve la valeur des souscripteurs experts. Ce sont les dossiers dont le score est intermédiaire. L’algorithme a détecté une ou plusieurs complexités mais pas assez pour un refus direct. Ces dossiers sont automatiquement routés vers une file d’attente pour une analyse humaine approfondie.

Cette segmentation automatique libère vos équipes des tâches répétitives sur les dossiers « verts » et leur permet de concentrer 100% de leur expertise sur les cas « gris », là où leur jugement et leur expérience peuvent faire la différence pour accepter un bon risque que la machine n’aurait pas compris, ou refuser un mauvais risque qui semblait acceptable en surface.

Gradient Boosting : pourquoi cet algorithme est-il meilleur pour prédire la sinistralité ?

Le choix de l’algorithme est un arbitrage crucial entre pouvoir prédictif et interprétabilité. Pendant des décennies, les modèles linéaires généralisés (GLM) ont été la norme en tarification actuarielle. Leur avantage est leur transparence : on peut facilement comprendre l’impact de chaque variable sur le tarif final. Cependant, ils peinent à capturer les interactions complexes et les effets non-linéaires présents dans les données.

C’est là que les algorithmes de Machine Learning comme le Gradient Boosting (et ses implémentations populaires comme XGBoost ou LightGBM) montrent leur supériorité. Le Gradient Boosting est un algorithme qui construit un modèle prédictif de manière séquentielle, en assemblant une série de modèles simples (des arbres de décision). Chaque nouvel arbre est entraîné pour corriger les erreurs du précédent. Cette approche itérative lui permet de modéliser des relations très complexes et de découvrir des poches de risque que les GLM ne pourraient jamais identifier.

Sur des données tabulaires typiques de l’assurance (mélange de données numériques et catégorielles), le Gradient Boosting offre presque systématiquement un pouvoir prédictif supérieur. Il excelle à détecter que ce n’est pas seulement le critère « jeune » ou « voiture puissante » qui est risqué, mais l’interaction spécifique « jeune ET voiture puissante ET vivant en zone urbaine dense ».

Cependant, cette performance a un coût : la complexité. Un modèle de Gradient Boosting peut être composé de centaines d’arbres, le rendant impossible à interpréter directement, d’où son statut de « boîte noire ». Le choix n’est donc pas « quel est le meilleur algorithme ? » mais « quel est le meilleur compromis pour mon usage ? ».

Comme le résume une analyse comparative de l’Institut des Actuaires, le GLM reste excellent pour une grille tarifaire simple et explicable, tandis que le Gradient Boosting est l’outil de choix pour un scoring de risque fin nécessitant une performance prédictive maximale, à condition de l’associer à des outils d’explicabilité (XAI).

Comparaison GLM vs. Extreme Gradient Boosting (XGB)
Critère GLM (Modèle de référence) Extreme Gradient Boosting (XGB)
Interprétabilité Élevée – Structure multiplicative immédiatement compréhensible Faible – Statut de boîte noire nécessitant des outils XAI (SHAP, LIME)
Pouvoir prédictif Bon – Prédiction simple et efficace Excellent – Capture les interactions et effets non-linéaires
Performance sur données tabulaires Standard Supérieure – Modélisation de la complexité inhérente aux données
Besoin en volume de données Modéré Important pour éviter le surapprentissage
Rapidité de ré-entraînement Rapide Plus lent – Processus séquentiel d’agrégation
Adaptation opérationnelle Excellente – Grille tarifaire directe Nécessite des méthodes d’explicabilité pour usage opérationnel

À retenir

  • L’efficacité du scoring ne se mesure pas au nombre de refus, mais à l’amélioration du ratio combiné qu’il génère.
  • Le choix de l’algorithme (ex: Gradient Boosting) est un arbitrage stratégique entre pouvoir prédictif et interprétabilité.
  • La justification d’un refus automatisé est une obligation légale (RGPD) qui impose l’utilisation d’outils d’explicabilité (XAI) comme SHAP.

Ratio combiné (S/P) : comment le logiciel peut vous aider à passer sous la barre des 100 % ?

L’objectif ultime de toute direction technique est de maintenir le ratio combiné (coût des sinistres + frais de gestion / primes) durablement sous la barre des 100%. Un logiciel de scoring de souscription bien conçu n’est pas une dépense, c’est un investissement direct pour atteindre cet objectif. Il agit sur les deux composantes du ratio.

Premièrement, il impacte directement le numérateur en améliorant la sélection des risques. Un scoring précis, alimenté par un algorithme performant comme le Gradient Boosting et validé par un back-testing rigoureux, permet d’écarter les profils qui dégraderaient statistiquement votre sinistralité (S). En acceptant des risques mieux qualifiés, vous baissez mécaniquement le coût moyen des sinistres de votre portefeuille. Dans un marché où, selon l’ACPR, le ratio combiné net s’élevait à 97,3% fin juin 2024 pour l’assurance non-vie en France, chaque point de sinistralité évité est un gain de marge précieux.

Deuxièmement, le logiciel agit sur la composante « frais de gestion ». L’automatisation du traitement des dossiers simples (« Green Channel ») réduit drastiquement les coûts opérationnels. Chaque contrat souscrit sans intervention humaine est un gain de productivité. L’automatisation du parcours via des API robustes réduit les délais, diminue le besoin en personnel pour les tâches à faible valeur ajoutée et libère vos souscripteurs experts pour qu’ils se concentrent sur les dossiers complexes qui nécessitent leur arbitrage. Cette optimisation des processus internes contribue directement à la baisse des frais généraux, et donc à l’amélioration du ratio combiné.

En somme, le logiciel de scoring transforme la souscription d’un centre de coût largement manuel à un processus optimisé, piloté par la donnée, où chaque décision est pensée pour maximiser la rentabilité technique. C’est le passage d’une logique de volume à une culture de la marge.

Pour aller plus loin, il est crucial de comprendre comment l’intégration de cet outil peut s’inscrire dans une stratégie globale d'amélioration de la performance technique.

L’étape suivante consiste à évaluer comment une solution de scoring peut s’intégrer à votre système existant et quels bénéfices concrets elle pourrait apporter à votre portefeuille spécifique. Évaluez dès maintenant la solution la plus adaptée à vos besoins spécifiques.

Rédigé par Marc Vasseur, Marc Vasseur est actuaire certifié IA (Institut des Actuaires) et Data Scientist, cumulant 15 ans d'expérience en R&D assurance. Il fusionne les modèles actuariels traditionnels (GLM) avec le machine learning (Gradient Boosting) pour affiner la segmentation et le scoring. Il est spécialiste de la solvabilité II et des algorithmes de détection de fraude.