Modélisation du risque de crédit corporate avec l'IA explicable

Une analyse empirique portant sur 80 000 observations annuelles d’entreprises cotées met en évidence le rôle prédominant de la résilience financière accumulée dans la prédiction des défauts, suivie de près par les effets de cycle conjoncturel et l’exposition macro-sectorielle.

La résilience accumulée, le positionnement cyclique et les facteurs macro-sectoriels dominent l’explication du risque de défaut, bien avant la plupart des indicateurs financiers opérationnels.

Introduction : l’explicabilité – une exigence incontournable pour les décisions de crédit et d’investissement

Dans les opérations de fusions-acquisitions, de private equity et de finance d’entreprise, la capacité à anticiper le risque de défaut d’une société cible détermine directement la qualité de la décision. L’analyse de crédit traditionnelle s’appuie sur des ratios financiers standardisés (endettement, couverture des intérêts, liquidité), complétés par une évaluation qualitative du secteur et du contexte macroéconomique.

Le machine learning permet aujourd’hui de quantifier ces intuitions et de prioriser objectivement les facteurs de risque. Cependant, dans un environnement fortement régulé (lignes directrices BCE/EBA sur les modèles internes de risque) et avec de multiples parties prenantes (conseils d’administration, comités d’investissement, régulateurs), l’explicabilité est non négociable : un modèle « boîte noire » n’est ni auditable ni utilisable en pratique.

Cette étude applique des techniques de machine learning explicable à un vaste ensemble de 80 000 observations annuelles d’entreprises afin d’identifier les véritables déterminants du risque de défaut corporate.

Méthodologie : jeu de données, modèles et métriques d’évaluation

Périmètre du jeu de données

Le jeu de données regroupe 80 000 observations « firme-année » d’entreprises cotées sur Nasdaq et NYSE entre 2000 et 2018. Chaque observation inclut :

Plus de 20 indicateurs financiers : dette à long terme, EBITDA, EBIT, chiffre d’affaires net, marge brute, actif total, créances clients, capitaux propres, flux de trésorerie d’exploitation, bénéfices non répartis, etc.

Classifications sectorielles détaillées : division (macro-secteur), groupe majeur (micro-secteur), permettant une analyse fine de l’exposition sectorielle.

Variable cible : statut de défaut (binaire), avec un fort déséquilibre de classes typique des données de crédit réelles (défauts < 5 % des observations).

Modèles employés

Plusieurs familles de modèles ont été testées et comparées :

Clustering (K-Means, DBSCAN) pour identifier des profils de risque homogènes et révéler la structure latente des données.

Random Forest, méthode d’ensemble robuste gérant les interactions complexes entre variables et fournissant des mesures natives d’importance des features.

LightGBM, algorithme de gradient boosting optimisé pour les grands jeux de données et performant sur classes déséquilibrées grâce aux techniques de pondération.

Réseaux de neurones (perceptron multicouche) pour capturer des relations non linéaires subtiles et évaluer l’apport de modèles plus complexes.

SMOTE (Synthetic Minority Over-sampling Technique) pour corriger le déséquilibre de classes en générant synthétiquement des observations minoritaires (défauts), évitant ainsi un biais vers la classe majoritaire.

Métriques d’évaluation : AUC et Precision-Recall

Dans des contextes très déséquilibrés, la précision globale est trompeuse. Un modèle naïf prédisant systématiquement « pas de défaut » atteindrait 95 % de précision si les défauts ne représentent que 5 % des cas, tout en étant totalement inutile.

Deux métriques ont été privilégiées :

AUC-ROC (Aire sous la courbe ROC) : mesure la capacité du modèle à discriminer entre entreprises saines et risquées indépendamment du seuil de décision. Une AUC ≥ 0,85 indique une forte puissance discriminative.

Courbe Precision-Recall : centrée sur la détection efficace des défauts. La précision mesure la part de vrais positifs parmi toutes les alertes ; le rappel mesure la proportion de défauts réels détectés. En screening M&A, manquer un défaut (faux négatif) coûte bien plus cher qu’une fausse alerte (faux positif).

Explicabilité via SHAP (SHapley Additive exPlanations)

SHAP, fondé sur la théorie des jeux, attribue à chaque caractéristique une contribution marginale à la prédiction pour chaque observation individuelle. Il décompose de manière transparente les sorties du modèle, montrant quels facteurs augmentent ou diminuent le risque et dans quelle mesure.

Cette transparence répond à trois exigences critiques :

Conformité réglementaire : les lignes directrices BCE/EBA exigent que les modèles internes de risque de crédit soient validables et interprétables.

Confiance des décideurs : les conseils et comités d’investissement doivent comprendre pourquoi une cible est jugée risquée, au-delà d’un simple score de probabilité.

Actionnabilité : identifier des leviers concrets de réduction du risque (restructuration financière, diversification sectorielle, timing cyclique).

Résultats empiriques : hiérarchie des facteurs de risque

L’analyse SHAP, agrégée sur l’ensemble du jeu de données et issue du meilleur modèle (Random Forest, AUC = 0,86), révèle le classement suivant des dix principaux facteurs de risque de défaut (ordonnés par valeur absolue moyenne SHAP) :

1. Bénéfices non répartis accumulés
2. Année fiscale
3. EBIT
4. Classification macro-sectorielle
5. Dette totale à long terme
6. EBITDA
7. Chiffre d’affaires net
8. Résultat net
9. Actifs courants
10. Stocks

corporate credit risk, shap, modeling, bankruptcy risk, default, artificial intelligence, machine learning

Interprétation : résilience accumulée, cycle conjoncturel et macro-secteur avant la plupart des indicateurs financiers

Cette découverte remet en question les pratiques conventionnelles d’analyse de crédit qui privilégient les ratios opérationnels (endettement, rentabilité, liquidité). Les données montrent une autre réalité : la résilience financière accumulée (bénéfices non répartis), le positionnement cyclique (année fiscale) et l’exposition macro-sectorielle (division) sont les principaux moteurs du risque de défaut, devant la plupart des indicateurs de santé financière intrinsèque.

1. Bénéfices non répartis : indicateur clé de la résilience financière accumulée

Dans ce jeu de données, où les bénéfices non répartis négatifs sont absents ou extrêmement rares, cette métrique émerge comme le facteur explicatif le plus puissant. Elle constitue un proxy robuste de la résilience financière à long terme : les entreprises avec des bénéfices non répartis faibles (même positifs mais proches de zéro) présentent une probabilité de défaut significativement plus élevée, même sans endettement excessif ni exposition sectorielle particulièrement risquée.

Implication M&A : la due diligence doit prioriser l’historique de génération et de rétention des bénéfices. Une cible à bénéfices non répartis faibles – même dans un secteur stable – mérite un examen approfondi de la politique de dividendes et de la trajectoire de rentabilité passée.

2. Année fiscale (fyear) : effet persistant du cycle conjoncturel

L’année fiscale arrive en deuxième position, capturant les effets du cycle macroéconomique sur 2000–2018 (crise financière 2008–2009, expansion post-2010). Même avec une forte résilience accumulée, une entreprise devient vulnérable lorsqu’elle opère dans une phase cyclique défavorable.

3. EBIT : signal central de rentabilité opérationnelle

L’EBIT se classe troisième, confirmant que la rentabilité opérationnelle courante reste un indicateur clé de la qualité de la gestion et du positionnement concurrentiel. Son pouvoir prédictif est toutefois modulé par la résilience accumulée et le contexte macro-sectoriel.

4. Classification macro-sectorielle (division) : l’exposition sectorielle structure le risque

Certains secteurs sont structurellement plus risqués indépendamment de la qualité de gestion individuelle. Les données confirment cette intuition :

Secteurs à haut risque : industries où le défaut menace

Extraction de charbon : probabilité moyenne ~0,55. Forte dépendance aux prix des matières premières, fluctuants avec la demande mondiale et la transition énergétique. Réglementations environnementales strictes (normes d’émissions) et coûts élevés de santé des retraités créent un mélange toxique pour les faillites, comme observé chez plusieurs entreprises américaines entre 2010 et 2020.

Transport local de passagers : probabilité moyenne ~0,50. Concurrence intense des VTC et véhicules personnels, marges faibles dues aux coûts fixes (entretien de flotte), demande très sensible aux crises (ex. : effondrement post-COVID). Subventions publiques insuffisantes et inflation du carburant entraînent des faillites en cascade dans les transports urbains.

Services de transport par eau : probabilité moyenne ~0,45. Aléas météorologiques (tempêtes, inondations) perturbent l’exploitation ; chaînes d’approvisionnement mondiales exposent à des dépassements de coûts (carburant impayé, ex. Hanjin 2016). Surcapacité de flotte et dépendance au commerce international amplifient les risques en période de ralentissement économique.

Extraction de pétrole et de gaz : probabilité moyenne ~0,40. Dépendance extrême aux prix volatils du pétrole (géopolitique, transition énergétique). Risques opérationnels (accidents, coûts d’exploration) et endettement infrastructurel élevé conduisent fréquemment à des restructurations, comme lors du krach des prix en 2020.

Produits de filature textile : probabilité moyenne ~0,35. Concurrence mondiale acharnée (Asie à bas coûts), chaînes d’approvisionnement volatiles en matières premières (coton), pressions croissantes en matière de durabilité (ex. : faillite Renewcell en 2024 due aux coûts élevés de recyclage). Variations de la demande mode et inflation des matières premières déclenchent des défaillances.

Secteurs résilients : industries plus résistantes aux crises

Institutions de crédit non dépositaire : probabilité moyenne ~0,20. Forte résilience grâce à une régulation fédérale stricte limitant les expositions excessives et adaptabilité aux cycles via des produits de prêt alternatifs. Moins touchées par les crises bancaires traditionnelles, elles bénéficient d’une politique monétaire favorable.

Produits en cuir : probabilité moyenne ~0,18. Innovation en durabilité (finitions éco-responsables) et chaînes d’approvisionnement localisées réduisent les vulnérabilités. Demande de niche (luxe, artisanat) et réglementations axées sur la qualité limitent les faillites malgré la concurrence internationale.

Transport ferroviaire : probabilité moyenne ~0,15. Infrastructures fortement subventionnées (ex. : 23 milliards $ annuels aux États-Unis) et déréglementation de 1980 boostant l’efficacité. Logistique fret essentielle assure une résilience face aux chocs, contrairement à des modes plus volatils.

Services juridiques : probabilité moyenne ~0,12. Demande stable voire accrue en récession (insolvabilités, restructurations, contentieux). Barrières à l’entrée élevées (qualifications professionnelles) et adaptation rapide aux crises (boom des pratiques d’insolvabilité en période de ralentissement) assurent une forte stabilité.

Pêche et chasse : probabilité moyenne ~0,10. Réglementation stable (quotas, aide Chapter 12 pour agriculteurs/pêcheurs), saisonnalité gérable, niches locales. Malgré les risques environnementaux, subventions et demande alimentaire constante limitent fortement les défaillances massives.

Le modèle met en lumière l’influence de la volatilité des prix et du soutien public sur le risque de faillite.

Implication pour le screening des cibles : avant d’analyser les états financiers, l’exposition macro-sectorielle doit être qualifiée. Une cible à fort EBIT dans un secteur structurellement en déclin présente un risque plus élevé qu’une cible à EBIT modéré dans un secteur résilient.

3. Indicateurs financiers conditionnés par la résilience et le contexte

Dette à long terme, EBIT, EBITDA, chiffre d’affaires net et actifs courants figurent dans le top 10 des valeurs SHAP, mais seulement après la résilience accumulée, le cycle conjoncturel et l’exposition macro-sectorielle. Ces indicateurs restent importants, mais leur pouvoir prédictif est fortement modulé par les bénéfices non répartis historiques et l’environnement macro-sectoriel plus large.

Implications pour la pratique M&A

1. Due diligence : prioriser l’évaluation de la résilience accumulée et de l’exposition macro-sectorielle

Les résultats suggèrent une séquence d’analyse révisée :

Étape 1 – Évaluation de la résilience accumulée : examen de l’historique des bénéfices non répartis et de la politique de dividendes.

Étape 2 – Qualification macro-sectorielle : identification de l’exposition cyclique et du positionnement sectoriel.

Étape 3 – Analyse financière conditionnelle : interprétation des ratios à la lumière de la résilience, du cycle et du contexte macro-sectoriel.

2. Valorisation : intégrer résilience et exposition macro-sectorielle dans le WACC

Une cible à faibles bénéfices non répartis ou à forte exposition macro-sectorielle doit porter un taux d’actualisation (WACC) majoré – même avec des ratios opérationnels solides – reflétant une vulnérabilité structurelle accrue aux chocs externes.

3. Structuration de la transaction

Lorsque l’analyse SHAP révèle une exposition macro-sectorielle significative, renforcer les mécanismes protecteurs :

Clauses d’ajustement de prix : prix final indexé sur des indicateurs macro-sectoriels (indice sectoriel, croissance du PIB, prix des matières premières).

Earn-out conditionnel : paiement différé lié à la performance, ajusté des effets macro-sectoriels (normalisation EBITDA vs moyenne sectorielle).

Garanties & indemnités : garanties renforcées sur les hypothèses macro-sectorielles sous-tendant le business plan.

Performance des modèles : Random Forest en tête

Sur l’échantillon de test, les performances discriminantes (AUC-ROC) sont les suivantes :

Random Forest : AUC = 0,86 | Grande robustesse, interprétabilité SHAP native.

LightGBM : AUC ≈ 0,81 | Performance moindre dans cette configuration.

Réseaux de neurones : AUC = 0,80 | Performance comparable mais complexité supérieure et interprétabilité moindre.

Clustering + règles : AUC = 0,79 | Segmentation descriptive utile, mais pouvoir prédictif plus faible.

Limites méthodologiques et perspectives d’enrichissement

Limites méthodologiques

Périmètre temporel : jeu de données s’arrête en 2018, avant COVID-19, l’inflation post-2021, les tensions géopolitiques récentes et l’accélération de la transition énergétique. Les patterns macro-sectoriels ont depuis évolué.

Périmètre géographique : uniquement Nasdaq et NYSE. Les dynamiques de risque diffèrent fortement en Europe (réglementation et structures de financement différentes), en Asie ou sur les marchés émergents.

Variables manquantes : facteurs qualitatifs critiques non capturés dans les données financières structurées : qualité de la direction, gouvernance, litiges en cours, exposition ESG, brevets & R&D, concentration clients-fournisseurs.

Perspectives d’enrichissement

Données alternatives : intégration de données textuelles (NLP sur rapports annuels, transcriptions de conference calls, presse sectorielle) pour capter le sentiment de marché et les signaux précoces de dégradation.

Données ESG : les scores ESG émergent comme prédicteurs de résilience (gouvernance solide, gestion du risque climatique). Leur inclusion améliorerait les prédictions dans les secteurs en transition (énergie, automobile).

Modèles dynamiques : prévision des trajectoires de risque (évolution temporelle du score) plutôt que des instantanés annuels – particulièrement utile pour anticiper les dégradations graduelles.

Spécialisation sectorielle : entraînement de modèles spécifiques par division pour capturer les logiques propres à chaque industrie (ex. : risque aérien très dépendant des prix du kérosène et du trafic passager – variables absentes du modèle générique).

Conclusion : vers une due diligence augmentée par une IA explicable

Cette étude empirique sur 80 000 observations démontre que, dans ce périmètre, la résilience financière accumulée (via les bénéfices non répartis), le positionnement cyclique (année fiscale) et l’exposition macro-sectorielle (division) constituent les déterminants principaux du risque de défaut corporate, devant la plupart des indicateurs financiers opérationnels. Cette constatation remet en cause les approches traditionnelles qui priorisent souvent d’abord rentabilité et ratios d’endettement.

Pour les transactions M&A et private equity, l’implication stratégique est claire : l’évaluation de la capacité de rétention des bénéfices à long terme et du positionnement macro-sectoriel doit précéder l’analyse détaillée des ratios financiers.

L’explicabilité basée sur SHAP transforme les prédictions probabilistes en insights actionnables, renforçant la confiance des décideurs et la conformité réglementaire dans des environnements complexes et régulés.

L’IA explicable ne remplace pas l’expertise métier : elle l’enrichit. Elle quantifie l’intuition, révèle des patterns invisibles à l’œil nu et offre un cadre rigoureux pour la prise de décision dans des contextes exigeants et régulés.

Ce projet est l’antithèse d’une boîte noire. Le code source est librement disponible sur GitHub.

À propos de LJ Advisory
Cabinet de conseil en fusions-acquisitions et finance d’entreprise spécialisé dans la recherche de cibles, la due diligence transfrontalière, l’évaluation d’entreprises et les opérations de transmission. Plus de 20 ans d’expertise au service des fonds de private equity, acquéreurs stratégiques et institutions financières.