Valid XHTML     Valid CSS2    

Comment les statistiques aident les médecins à guérir les malades

                     gilles.hunault "at" univ-angers.fr

(cours/conférence pour lycéens, avril 2012)

 

Table des matières

1. Du problème au modèle

2. Du modèle à la réalisation

3. Et si on changeait de domaine ?

4. Conclusions

 

Ne vous inquiétez pas si vous ne comprenez pas tous les mots de cet exposé, moi non plus !

J'ai essayé de mettre des liens avec des définitions, des cours, afin que vous puissiez approfondir tout cela...

Pour retrouver cette page, cherchez  Gilles HUNAULT  avec Google.

 

1. Du problème au modèle

1.1. Comment traiter la fibrose hépatique (maladie du foie) ?

Lorsqu'on va chez le médecin pour une maladie classique comme un rhume, une grippe ou une otite, il est assez facile pour le médecin de faire un diagnostic car il y a en général de nombreux symptomes visibles ou en tous cas relativement faciles à obtenir. Ainsi, suivant qu'il y a de la fièvre ou pas, que le conduit auditif externe est rouge irrité ou pas, si le nez coule, si le patient tousse... on peut déterminer la maladie et en déduire ce qu'il faut utiliser comme médicaments.

antibio1.jpg

L'expertise du médecin et sa connaissance des traitements associés aux pathologies permet d'adapter les doses, et d'être efficace en vue d'une guérison rapide. Le choix des médicaments et de leur posologie (quantité, mode d'administration...) est à peu près standardisé et les médecins, quand ils ne font pas simplement appel à leur mémoire, utilisent le [dictionnaire] Vidal pour fournir le meilleur traitement pour le patient. Et comme vous vous en rappelez, les antibiotiques ne sont efficaces que contre les bactéries, pas les virus :

antibio2.gif

Les choses se compliquent lorsque les symptomes ne sont pas visibles, lorsque la maladie touche un organe interne et lorsque la maladie est dite malicieusement silencieuse : lorsqu'on ressent quelque chose, c'est déjà grave et peut-être déjà trop tard. Comment faire, alors, s'il n'y a aucun moyen direct de diagnostiquer et donc sans doute encore moins d'établir un pronostic ?

C'est là qu'interviennent les marqueurs, principalement sériques et sanguins. Un marqueur sanguin est un composant du sang qui varie nettement en fonction des pathologies et permet donc de marquer la présence d'une maladie. Le grand intérêt des marqueurs sanguins est qu'avec une simple prise de sang et la feuille d'analyses qui en résulte on peut évaluer, décider, orienter le traitement. Et une prise de sang ne coute pas très cher, n'oblige pas à recourir à l'anesthésie générale ni à l'hospitalisation.

 

 

FibroMètre

 

 

fleche

 

 

FibroMètre

Nota Bene : il s'agit ici de calculs de FibroMètres, réalisés par la société angevine BioLiveScale à partir des idées et travaux du Professeur  Paul CALES , directeur du laboratoire HIFI ((Hémodynamique, Interaction, Fibrose, Invasivité tumorale Hépatique et Digestive, UPRES EA 3859, IFR 132) du CHU d'Angers.

Paul Calès

 

Mais comment en arrive-t-on jusque là ?

 

1.2. Modélisation

En fait, tout commence avec des études de recherche clinique, qui est, avec la recherche fondamentale, l'une des deux composantes de la recherche médicale. Les professeurs et chercheurs de médecine effectuent des études cliniques, à l'aide de protocoles rigoureux dans des conditions fiables et reproductibles. Pour notre exemple, celui des maladies du foie, il faut donc trouver comment coupler les marqueurs sanguins et l'état du foie.

Heureusement, depuis de nombreuses années, lorsqu'un foie est malade, on pratique une opération nommée ponction biopsie hépatique (en sigle, PBH). Puisque cette conférence a lieu juste après le déjeuner, nous passerons sur les détails de cette action invasive qui consiste à prélever, au moyen d'une aiguille, un tout petit morceau de foie le plus souvent sous anesthésie locale. On dépose alors sur une lame de microscope une coupe de ce morceau de foie et un médecin spécialisé en anatomo-pathologie analyse l'état des cellules et exprime son diagnostic sous forme d'un score de fibrose nommé score Metavir F, qui va de  F0  (non malade) à  F4  (très malade).

FibroMètre

fleche.png

F0 sans fibrose
F1 fibrose portale sans septa
F2 fibrose portale et quelques septa
F3 fibrose septale pré-cirrhose
F4 cirrhose

A la suite de recherches sur des souris ou des rats (dont la physiologie est proche de celles des humains), les chercheurs ont fini par trouver quels marqueurs sanguins pouvaient indiquer une dégradation du foie. En voici une liste non exhaustive (cela veut dire non complète) dont le but est juste de montrer qu'il n'y en a en qu'une bonne dizaine dont les plus importants sont listés ci-dessous :

Sigle Nom Sigle Nom
A2M Alpha2Macroglobuline (mg/dl) TP Taux de Prothrombine (%)
PLQ Plaquettes (G/l) AH Acide hyaluronique (μg/l)
UREE Urée ( mmol/l) GLY Glycémie (mmol/l)
ASAT Aspartate amino transférase (UI/l) ALAT Alanine amino transférase (UI/l)
BIL Bilirubine (μmol/l) FERI Ferritine (μg/l)

Nous avons donc d'un coté des images de foie, avec un score sur l'état de la maladie et de l'autre coté, des valeurs de marqueurs sanguins. Pour ceux et celles qui veulent des chiffres, voici un exemple de stockage de ces informations :


     #ID    |     PLQ  AST    UREE   AH      TP     A2M     AGE     SEXE   |  (simulation)
     C001   |     275   14    6.5     4.85  100     136     33.5    1      |     F0
     C002   |     350   17    6.6    25     101     189     37.0    1      |     F0
     C003   |     216   20    7.7    12     115     146     36.4    0      |     F1
     C004   |     349   18    5.8    25     114     190     26 0    0      |     F2
     C005   |     424   19    5.5    34.0    89     130     61.46   1      |     F0
     C006   |     412   28    4.8    14.8   110     212     30.2    0      |     F4
     C007   |     392   44    7.5    32     120     159     51.61   0      |     F2
     C008   |     415   18   19.9    32      93     306     52.1    1      |     F1
     C009   |     415   18   19.9    32     115     306     52.1    0      |     F0
     C010   |     415   18   19.9    32     130     306     52.1    1      |     F3
     C011   |     170   33    6      26     108     250     36.9    0      |     F0
     C012   |     295   56    5.7    55     120     172     41.7    1      |     F3
     C013   |     341   36    1.7    25     105     248     27.3    0      |     F1
     C014   |     256   30    9.4    33      86     268     31.7    1      |     F2
     C015   |     405   81    4.0    24.0   120     140     32      0      |     F1
     C016   |     415   70   19.9    32      93     306     52.1    1      |     F4
     C017   |     132   22    6.3    40     107     346     37.3    0      |     F2
     C018   |     329  103    2.6    12      98     258     31.3    1      |     F0
     

Pour aider les médecins à diagnostiquer l'état du foie, il suffit de modéliser la relation entre les marqueurs et les scores. Et hop ! Voici donc un grand secret enfin révélé :

 

oui, les mathématiques peuvent servir à quelque chose !

 

Si on arrive à construire une formule mathématique qui fournit le score en fonction des marqueurs, c'est gagné. Hélas, les choses ne sont pas si simples... Dans les cours de troisième, les équations ont toujours des solutions. En terminale, on apprend même à utiliser des nombres dont le carré est négatif... Mais les modéles mathématiques pour notre problème, qu'on nomme du terme «barbare» de régression logistique ordinale ne sont pas simples à calculer, ni faciles à réutiliser. Pour preuve, regardez deux expressions équivalentes (hum !) des équations sous-jacentes, comme on dit :

rlb1.png

rlb2.png

C'est là où les statistiques et l'informatique entrent en jeu. Avec les mathématiques, on dispose de formules. Avec l'informatique, on dispose d'ordinateurs et de programmes de calculs. Les statistiques permettent de construire et d'appliquer les modèles, c'est-à-dire de trouvers les coefficients des équations et de tester si ce qu'on calcule est valide, robuste, fiable avec des sens statistiques très précis pour ces adjectifs. Comme il n'est pas possible de résoudre les équations, on utilise des programmes qui donnent des approximations des valeurs cherchées puisqu'on ne peut pas connaitre les valeurs exactes, un peu comme la méthode de Newton-Raphson que vous devez sans doute connaitre, la méthode des moindres carrés ou le principe du maximum de vraisemblance.

Voici un exemple de résultat de l'application des calculs pour un modèle lié aux données précédentes :


     IDEN  |   prob0 prob1 prob2 prob3 prob4   |  metavir prediction discordance
     P008  |   0.006 0.610 0.374 0.010 0.000   |     2        2         0
     P012  |   0.003 0.485 0.495 0.016 0.000   |     1        1         0
     P016  |   0.001 0.410 0.587 0.003 0.000   |     1        1         0
     P018  |   0.167 0.808 0.026 0.000 0.000   |     0        1         1
     P021  |   0.000 0.000 0.010 0.147 0.843   |     3        3         0
     P027  |   0.000 0.000 0.014 0.376 0.610   |     3        3         0
     P028  |   0.000 0.278 0.634 0.086 0.001   |     1        1         0
     P032  |   0.019 0.573 0.384 0.025 0.000   |     2        2         0
     P051  |   0.010 0.678 0.304 0.008 0.000   |     2        2         0
     P054  |   0.000 0.000 0.024 0.655 0.321   |     4        3         1
     P056  |   0.004 0.638 0.347 0.010 0.000   |     2        2         0
     P061  |   0.000 0.001 0.039 0.196 0.765   |     3        4         0
     P066  |   0.000 0.007 0.263 0.563 0.167   |     2        2         0
     P069  |   0.001 0.456 0.531 0.011 0.000   |     3        3         0
     P080  |   0.000 0.005 0.362 0.423 0.210   |     4        4         0
     P084  |   0.000 0.292 0.660 0.047 0.000   |     1        1         0
     P010  |   0.000 0.226 0.649 0.124 0.001   |     3        3         0
     

Encore faut-il être capable de lire ces chifres et de savoir interpréter les résultats, en supposant qu'ils sont justes !

 

2. Du modèle à la réalisation

2.1. Validation

Une fois le ou les modèles mathématiques établis par les statisticiens sur des données réelles, les médecins les valident en les confrontant aux vrais résultats, c'est-à-dire qu'on compare le score connu du malade avec le score prédit. Par exemple on peut construire un tableau à quatre cases qui indique les bons résultats et les mauvais résultats pour les malades et les non-malades :

4cases.png

On dispose aussi de critères pour comparer plusieurs modèles, pour savoir quelle confiance on doit accorder à chaque marqueur... En fonction de la qualité des résultats, on peut avoir recours à plusieurs modèles, à une méthode plus compliquée qu'un simple calcul. Par exemple on peut utiliser une procédure hiérarchique, avoir des systèmes de règles pour orienter la décision...

se

Cette étape de validation est souvent longue : il faut beaucoup de données pour construire le modèle. Il faut bien penser à tester ici des personnes des deux sexes, de tout age. Il faut éventuellement faire des modèles différents suivant l'étiologie car un foie malade à cause d'un virus (hépatite) ne réagit pas de la même façon qu'un foie malade à cause de l'alcool (cirrhose) ou à cause d'une alimentation trop riche (stéatopathie). Mais au bout du compte avec du temps, de la méthode et de la rigueur, on finit par avoir un bon modèle, fiable, robuste, vérifié...

Il faut aussi essayer de comprendre pourquoi les modèles ne sont pas parfaits (le taux de «bien classés» est rarement de 100 %), ce qui permet d'améliorer le modèle, ce qui oblige parfois à ajouter de nouvelles variables, à refaire toute une série de tests...

2.2. Mise en oeuvre dans le monde «réel»

Disposer d'un modèle, c'est bien, mais comment s'en servir ? Un médecin ne va pas faire des calculs compliqués pendant une consultation. De plus, une valeur de score doit être accompagnée d'un commentaire, d'explications car il ne s'agit que d'une aide à la décision. Il faut donc ajouter au calcul tout un environnement pour en faire un vrai document utilisable. C'est pourquoi à l'aide d'informaticiens (qui sont parfois aussi statisticiens, à moins que ce ne soit l'inverse), il y a une phase de mise en production qui consiste à transformer un modèle en outil d'aide au diagnostic avec production automatique d'un compte rendu directement exploitable.

Voici un exemple de coopération entre mathématiques, informatique et médecine pour arriver à un résultat compréhensible. Il faut souvent, pour exploiter les résultats de régression logistique binaire, déterminer un seuil ou cut off. En effet, la modélisation fournir une fonction qui va de 0=non malade à 1=malade. Mais entre les deux ?

rlb3

Mettre en oeuvre, cela veut aussi dire s'occuper de commercialisation, s'intéresser aux coûts. Les statistiques médico-économiques, grâce à des calculs qu'on appelle estimations sont capables de tester si un nouveau traitement est intéressant à la fois du point de vue médical et du point de vue financier. Un exemple angevin d'un tel résultat est ici (en anglais, mais ce n'est pas le plus important) qui traite de l'évaluation d'un dépistage pré-thérapeutique des toxicités du 5-fluorouracile dans le cadre d'une étude sur le cancer colorectal au Centre Paul Papin, et qui a débouché sur une thèse puis sur une embauche en CDI pour Sory TRAORE.

 

3. Et si on changeait de domaine ?

3.1. De la médecine des humains aux maladies des plantes

Il n'y a pas que les humains qui peuvent être malades. Les plantes, les cultures aussi. En particulier, les bactéries phytopathogènes de quarantaine sont très «dangereuses» car elles peuvent contaminer tout un champ, essaimer. Elles sont présentes dans les végétaux car elles pénétrent dans les cellules végétales. Il faut les détecter rapidement, notamment quand un bateau arrive avec une cargaison de graines d'un pays éloigné... Là encore, on peut modéliser la réponse pathogène ou non pathogène mais en fonction d'informations dites binaires en 0 ou 1 qui se situent au niveau cellulaire : on met 1 si un certain gène est présent dans l'ADN de la plante, 0 sinon. Sans entrer dans les détails, on peut montrer qu'on peut calculer des formules qui permettent de détecter pratiquement à 100 % la présence des «méchantes» bactéries dans les graines si les données sont spécialisées...

bphyto.jpg          phytob

La mise au point des modèles, leur validation et leur mise en oeuvre sont ici plus difficiles car les graines sont parfois acheminées d'un pays à l'autre, les bactéries mutent rapidement, on doit traiter de gros volumes de données (et non pas des personnes), il faut utiliser des machines sophistiquées qu'on nomme puces à ADN... mais au bout du compte, il s'agit de la même démarche : si on arrive à modéliser mathématiquement les relations entre ce qu'on a et ce qu'on cherche, il sera ensuite possible de programmer, c'est-à-dire d'écrire des programmes informatiques pour calculer numériquement les coefficients du modèle. Et ensuite, ça décolle !

fusée

Là encore la mise au point, l'exploitation de tout cela ne peut se faire qu'à l'aide d'une étroite collaboration entre biologistes, statisticiens, informaticiens. Et en bout de chaine, on dispose d'une interface pour calculer et afficher les résultats, comme ici pour des données relatives principalement à des Xanthomonas, dans une étude menée pour l'INRA d'Angers avec Tristan BOUREAU :

cs1          cs2          cs3

3.2. Des maladies des plantes aux propriétés des plantes

Vous le savez sans doute, mais les graines, lorsqu'elles sont privées d'eau, se mettent en dormance et, une fois réhydratées, se remettent à vivre... On a ainsi vu «ressusciter» des graines d'Egypte vieilles de plus de trois mille ans. Si on cherche à comprendre ce phénomène, on découvre que certaines protéines nommées LEA semblent jouer un rôle important lors de la dessication. Il y a encore beaucoup de travail à faire dessus. Si cela vous intéresse, vous pourriez nous aider nous modéliser leurs fonctions. Avec un collègue biochimiste, Emmanuel JASPARD, nous avons stocké des informations relatives à plusieurs centaines de protéines LEA typiques dans une base de données. Pour l'instant nous n'avons pas encore de modèle, mais cela viendra...

leadb1.png

alfa.gif

leafigs.png

3.3. Analyser les «productions sociales»

Pourquoi s'arrêter en si bon chemin ? Il est sans doute possible, sans a priori, d'analyser des relations plus générales que des relations pathologiques. Par exemple, est-on capable de passer en revue les discours politiques, ou les textes littéraires ? Ou même, pourquoi pas, les images de publicité ? En fait, la réponse est oui, et même plutôt deux fois qu'une, selon l'équation fondamentale :

oui

ouioui

Avec de la méthode, de la rigueur, les probabilités et les statistiques que l'on apprend en terminale puis à l'université comme ici en faculté des sciences, permettent de mettre en oeuvre les outils et méthodes existants ou d'en inventer d'autres, suivant le domaine d'étude, parfois en collaboration avec des chercheurs et spécialistes d'autres domaines. Par exemple, le lien ci-dessous permet une analyse assez élémentaire dite analyse statistique lexicale textuelle c'est-à-dire sur le lexique, donc portant sur les mots et leur environnement. Nous sommes donc passés de la bioinformatique aux sciences humaines.

analexies

En cliquant sur Analexies - analyses en ligne puis sur création de dictionnaires en ligne, il vous sera possible d'analyser par exemple le deuxième discours inaugural de G. W. Bush et découvrir que les trois «vrais» mots qui reviennent le plus souvent sont (et dans cet ordre) freedom, america, liberty, tout un programme ! De même, si vous demandez à la machine d'analyser les deux premiers chapitres de la bête humaine, ce fameux roman d'Emile ZOLA, vous verrez qu'un simple comptage statistique indique qu'il s'agit d'un... train !

Pour la «petite histoire», nous avons écrit ce logiciel pour des étudiants de la Sorbonne il y a quelques années. L'enseignante qui l'utilise est une linguiste et sémiologue qui a passé une thèse intitulée Sémiologie des indices et imaginaire linguistique [...] à partir d'images de magazines de cuisine.

magazines de cuisine

Vous l'avez sans doute reconnue, c'est Laurence BRUNET-HUNAULT, mon épouse !

cosmonaute

Compter, analyser les mots, les expressions, les mouvements peut permettre de découvrir des standards, des normes ou juste des usages, d'appréhender «LA» vérité, un peu comme les spécialistes de la série Lie to me...

Qui sait, avec beaucoup d'informatique et de mathématique, on pourrait peut-être enfin avoir des machines qui parlent comme nous, ce vieux rêve de l'Intelligence Artificielle, considéré comme évident en science-fiction mais qui n'est toujours pas une réalité aujourd'hui, en 2012.

robots

On pourrait même inventer des machines pour des tâches de la vie de tous les jours...

robots

 

4. Conclusions

Au terme de cette petite heure de cours/conférence, nous avons vu comment on peut passer d'une maladie, la fibrose, à un outil de diagnostic de cette maladie utilisé en pratique courante (en «routine»). Il a fallu une collaboration forte entre médecins et mathématiciens pour établir et valider une modélisation réaliste et efficace, puis entre statisticiens et informaticiens pour passer des formules mathématiques et des suites de coefficients numériques à une simple consultation de page Web avec un formulaire pour obtenir des résultats utilisables directement par les médecins.

Nous avons aussi vu qu'avec un certain nombre de connaissances et de compétences, on peut appliquer les mêmes idées et méthodes à d'autres domaines proches comme les maladies des plantes ou plus éloignés comme les discours politiques, les images publicitaires... Des études de science (mathématique, biologie, informatique) mènent à ces métiers et c'est à l'université que l'on peut effectuer de telles études, comme par exemple ici, à la faculté des sciences.

Qui sait, vous serez peut-être mes étudiants dans quelques années, voire... mes collègues à plus long terme. Je vous souhaite un brillant avenir et beaucoup de plaisir dans votre vie future de travail.

Et vive les statistiques !

eda7

 

 

Codes-sources de la page : php ; js .

 

 

retour gH    Retour à la page principale de   (gH)