Ingénieur généraliste : quand l'automobile et l'aéronautique éclairent l'IT

Le jour où un moteur n'a pas explosé

En 2009, un ingénieur qualité chez un équipementier automobile de rang 1 a bloqué la mise en production d'un turbocompresseur. Le composant passait tous les tests fonctionnels. Mais l'analyse AMDEC avait révélé un mode de défaillance silencieux : une fatigue thermique du joint d'étanchéité au-delà de 150 000 cycles, soit environ trois ans d'utilisation normale. Sans cette analyse, des milliers de véhicules auraient été rappelés. Coût évité : plusieurs dizaines de millions d'euros.

En IT, ce scénario se joue chaque semaine. Sauf que personne ne bloque la mise en production. On déploie, on croise les doigts, et quand l'incident survient, panne de service, fuite de données, dégradation de performance, on mobilise une cellule de crise à deux heures du matin.

La fiabilité ne s'espère pas. Elle se conçoit.

C'est la première leçon que l'automobile et l'aéronautique peuvent offrir à nos organisations IT. Et c'est une leçon que, vingt ans après mes études d'ingénieur généraliste, je continue d'appliquer avec une conviction intacte.

Pourquoi l'IT reste scotchée au mode réactif

Dans l'aéronautique, rien ne vole sans certification DO-178C. Dans l'automobile, rien ne roule sans IATF 16949 et son AMDEC obligatoire. Ces industries ont appris, souvent dans le sang, qu'un défaut en production coûte cent fois plus cher qu'un défaut détecté en conception.

L'IT, elle, continue de fonctionner selon un paradigme inverse. On valorise la vitesse de livraison. On célèbre le hotfix héroïque. On décore le pompier, jamais l'architecte qui a empêché l'incendie.

Les chiffres sont pourtant clairs :

Le coût moyen d'un incident majeur en production se situe entre 100 000 et 500 000 euros pour une entreprise de taille intermédiaire, selon Gartner.
60 à 70 % des incidents sont liés à des changements récents, c'est-à-dire à des mises en production insuffisamment analysées.
Le ratio de correction est de 1:10:100 : corriger un défaut en conception coûte 1, en test 10, en production 100.

Le problème n'est pas technique. Il est culturel. L'IT n'a jamais eu son "moment aviation", ce crash suffisamment douloureux pour imposer un changement systémique de méthode. Alors on continue de réagir. Et on appelle ça de l'agilité.

L'AMDEC : la méthode que l'IT refuse de voir

L'AMDEC, Analyse des Modes de Défaillance, de leurs Effets et de leur Criticité, n'est pas un concept obscur réservé aux ingénieurs mécaniciens. C'est un cadre d'analyse systématique, né dans les années 1940 chez l'armée américaine, perfectionné par la NASA, puis adopté massivement par l'automobile (Ford, Toyota) et l'aéronautique (Airbus, Safran).

Son principe est d'une simplicité désarmante : avant de mettre quoi que ce soit en production, on identifie tout ce qui peut mal tourner, on évalue la gravité, et on agit en conséquence.

En automobile, un AMDEC processus couvre chaque étape de fabrication. En aéronautique, un AMDEC système couvre chaque composant critique. En IT ? On fait un "risk assessment" vague dans un tableur Excel que personne ne relit.

La différence fondamentale est là : dans les industries matures, l'analyse de risque n'est pas une formalité administrative. C'est un acte d'ingénierie qui conditionne le droit de produire.

Ma méthode en 5 actes : transférer l'AMDEC vers l'IT

Après avoir pratiqué cette approche dans des contextes industriels, puis l'avoir adaptée à des transformations IT de plusieurs millions d'euros, j'ai formalisé une méthode en cinq actes. Elle n'est pas théorique. Elle a été éprouvée sur le terrain, dans des contextes où l'échec n'était pas une option.

Acte 1 : Décomposer, cartographier le système et ses dépendances

Avant de chercher les pannes, il faut comprendre ce qu'on protège. On cartographie le système, ses composants, ses interfaces et surtout ses dépendances. En IT, cela signifie aller au-delà du diagramme d'architecture applicative. Il faut intégrer les flux de données, les dépendances vers des services tiers, les points de couplage avec l'infrastructure, et les processus humains qui entourent le système.

Livrable : une carte de dépendances à jour, pas un schéma PowerPoint de l'année dernière.

Acte 2 : Lister, identifier les modes de défaillance potentiels

Pour chaque composant identifié, on pose la question : "Comment peut-il tomber en panne ?" On ne cherche pas les scénarios catastrophe hollywoodiens. On cherche les défaillances banales, celles qui arrivent un mardi matin quand un certificat expire, quand un pool de connexions sature, quand un cronjob échoue silencieusement depuis trois semaines.

Principe clé : la créativité de l'ingénieur compte autant que son expérience. Les meilleurs AMDEC sont réalisés en équipe pluridisciplinaire, devs, ops, architectes, métier, parce que chacun voit des angles morts différents.

Acte 3 : Évaluer, scorer occurrence, sévérité, détectabilité

C'est le cœur quantitatif de la méthode. Pour chaque mode de défaillance, on évalue trois dimensions sur une échelle de 1 à 10 :

Occurrence (O) : quelle est la probabilité que ce défaut se produise ?
Sévérité (S) : quel est l'impact si cela arrive ?
Détectabilité (D) : sommes-nous capables de le détecter avant que l'utilisateur le subisse ?

Le produit O x S x D donne l'Indice de Priorité de Risque (IPR). Un IPR supérieur à 100 (sur 1000) mérite une action corrective. Un IPR supérieur à 200 est un signal d'alarme.

L'intérêt de cette approche : elle objectivise la criticité. Fini les débats interminables en comité où chacun défend son territoire. Les chiffres tranchent.

Acte 4 : Prioriser, investir l'euro là où il crée le plus de valeur

L'AMDEC ne dit pas "corrigez tout". Elle dit "corrigez en priorité ce qui a l'IPR le plus élevé". C'est un outil d'allocation de ressources, pas une liste de vœux pieux.

En pratique, on constate souvent que 20 % des composants concentrent 80 % du risque. C'est sur ces 20 % qu'il faut investir en priorité : renforcement de l'architecture, ajout de monitoring, automatisation des tests, plan de reprise.

Acte 5 : Verrouiller, poka-yoke, tests continus et revues périodiques

Le terme japonais "poka-yoke" désigne un dispositif anti-erreur. En automobile, c'est un détrompeur qui empêche physiquement un assemblage incorrect. En IT, c'est un guardrail architectural : un pipeline CI/CD qui refuse de déployer si les tests de sécurité échouent, un schéma de base de données qui interdit les états incohérents, un circuit breaker qui isole un service défaillant.

L'AMDEC n'est pas un exercice ponctuel. Elle vit avec le système. Chaque incident en production est une opportunité de revisiter l'analyse, d'ajouter un mode de défaillance qui n'avait pas été anticipé, et de renforcer le dispositif.

Ce que l'IT gagne concrètement

Les organisations qui adoptent cette rigueur, et j'en ai accompagné plusieurs, observent des résultats mesurables :

Culture d'anticipation : les équipes passent du firefighting à la prévention. Les risques sont visibles, chiffrés et priorisés avant chaque mise en production. Le stress diminue. La rétention des talents s'améliore.
Efficience opérationnelle : moins d'incidents, meilleures SLA, vélocité de delivery stabilisée. On ne livre pas plus vite en brûlant les étapes. On livre plus vite en éliminant les retours en arrière.
Conformité intégrée : l'approche Secure-by-Design et l'auditabilité continue s'intègrent naturellement dans le cadre AMDEC. ISO 27001, RGPD, NIS-2 : toutes ces exigences deviennent des modes de défaillance à scorer, pas des cases à cocher.

Le pont méthodologique que personne ne construit

La beauté de l'ingénierie généraliste, c'est qu'elle révèle des invariants. Les problèmes changent de vocabulaire selon les industries, mais les structures sous-jacentes sont identiques. Un mode de défaillance en mécanique et un bug en production, c'est la même chose : un écart entre le comportement attendu et le comportement réel, avec des conséquences mesurables.

L'automobile a mis trente ans pour industrialiser l'AMDEC. L'aéronautique l'a fait sous la pression de la certification. L'IT n'a ni l'un ni l'autre. Pas de régulateur qui impose la méthode. Pas de culture industrielle qui la porte.

Mais les organisations qui font le choix délibéré d'importer ces pratiques, pas comme une formalité, mais comme un acte d'ingénierie, prennent un avantage structurel. Elles ne sont pas seulement plus fiables. Elles sont plus rapides, parce qu'elles passent moins de temps à éteindre des feux et plus de temps à construire.

La question n'est pas de savoir si l'IT finira par adopter ces méthodes. La question est de savoir si votre organisation sera parmi les premières à le faire, ou parmi celles qui continueront de payer le prix du réactif.