Partie 2: apprentissage automatique, neurones artificiels, paramètres et fonctionnement des modèles comme ChatGPT ou OpenEvidence. Un guide simple pour comprendre comment l’IA apprend à partir des données et pourquoi elle peut se tromper.

Comprendre l’IA : neurones, apprentissage et premiers concepts techniques

Dans le précédent article, nous avons mélangé théorie et pratique.
Nous allons continuer dans cette voie, mais en allant un peu plus en profondeur sur certains concepts importants.

Ces notions sont essentielles, car elles permettent de comprendre pourquoi l’IA réagit d’une certaine manière, pourquoi elle fait des erreurs, et comment elle apprend.

Qu’est-ce que l’IA, concrètement ?

Le terme « IA » est devenu un mot-valise. On l’utilise pour désigner énormément de choses différentes, parfois sans distinction claire.

Dans cet article, on va se concentrer sur la partie aujourd’hui la plus importante : l’apprentissage automatique (machine learning).

L’idée de départ est relativement simple :

Si on veut créer un système capable de gérer des situations complexes, il est impossible d’écrire manuellement toutes les règles possibles.

Prenons un exemple médical :

Le médecin va-t-il écrire « prise en charge » ou « PEC » ?
Va-t-il faire une faute d’orthographe ?
Va-t-il utiliser des abréviations ?
Va-t-il écrire rapidement ou de manière structurée ?

Il est impossible de prévoir tous les cas à l’avance avec des règles classiques.

C’est précisément pour cela que l’apprentissage automatique existe.

Le principe de l’apprentissage automatique

Au lieu de programmer explicitement chaque situation, on va créer un modèle qui apprend à partir d’exemples. Le principe est le suivant :

On fournit énormément de données au modèle.
Le modèle produit une réponse.
On compare cette réponse avec la bonne réponse.
S’il se trompe, on modifie légèrement son fonctionnement.
On recommence des millions, voire des milliards de fois. Petit à petit, le modèle apprend des régularités.

Le neurone artificiel

Un terme revient souvent quand on parle d’IA : le neurone.

Qu’est-ce qu’un neurone ?

Le concept est inspiré du cerveau biologique. Un neurone artificiel reçoit une information en entrée et décide, selon certaines conditions, de transmettre ou non un signal. En informatique, on peut simplifier cela ainsi :

le neurone reçoit une valeur,
il compare cette valeur à un seuil,
s’il dépasse ce seuil, il s’active.

Exemple simple

Imaginons un neurone qui ne s’active qu’à partir d’une intensité de 10. S’il reçoit :

Entrée	Sortie
2	0
7	0
9	0
10	10
25	25
66	66

En dessous du seuil : rien ne se passe.
Au-dessus du seuil : le neurone transmet le signal.

Exemple médical : détecter une hypertension

Prenons maintenant un exemple plus concret. Imaginons un neurone chargé de détecter une hypertension artérielle à partir d’une pression artérielle systolique (PAS). Le neurone pourrait fonctionner ainsi :

PAS reçue	Sortie
100	0
130	0
169	169

Le neurone ne s’active qu’au-dessus d’un certain seuil. Évidemment, un vrai modèle médical est infiniment plus complexe, mais le principe de base reste similaire.

Comment le modèle apprend-il ?

La question importante est maintenant :

Comment décide-t-on du seuil d’activation ?

La réponse :
on entraîne le modèle avec des exemples. Imaginons un modèle extrêmement simple, composé d’un seul neurone. On veut qu’il s’active uniquement chez les patients hypertendus. On lui fournit alors des données d’entraînement :

Signal reçu	Signal attendu
110	0
114	0
165	165
147	147

Au début, le neurone se trompe souvent. Par exemple :

Signal reçu	Réponse du modèle
110	0
114	114 ❌
165	165 ✅
147	147 ✅

Le modèle a fait une erreur pour 114. Notre algorithme d'apprentissage automatique modifie alors légèrement les paramètres du neurone pour réduire cette erreur. C’est ainsi qu’on entraîne un modèle d’intelligence artificielle.

Les paramètres : la “taille” du modèle

Dans les modèles modernes, il ne s’agit évidemment pas d’un seul neurone. Les IA actuelles utilisent :

des milliards de données,
des milliards de neurones artificiels,
et des quantités gigantesques de paramètres.

Les paramètres correspondent aux valeurs internes du modèle qui sont ajustées pendant l’entraînement.

Plus un modèle possède de paramètres :

plus il peut représenter des relations complexes,
mais plus il nécessite de ressources. À titre d’exemple :
certains modèles personnels peuvent contenir quelques milliards de paramètres,
les plus grands modèles actuels sont estimés à plusieurs centaines de milliards, voire davantage.

Comment ChatGPT (ou le modèle OpenEvidence) apprend-il ?

Le principe de ChatGPT repose sur la prédiction du mot suivant. Pendant l’entraînement, on donne au modèle des morceaux de texte. Exemple :

« Le patient présente une douleur… » Le modèle doit prédire la suite la plus probable. À chaque erreur :

certains paramètres sont modifiés,
certains neurones changent leur comportement,
les seuils d’activation sont ajustés.

Après des milliards d’exemples, le modèle apprend progressivement :

les structures grammaticales,
les relations entre concepts,
les styles d’écriture,
certaines formes de raisonnement.

Une notion importante : le modèle n’apprend plus après l’entraînement

Contrairement à ce que beaucoup imaginent, les grands modèles actuels ne continuent généralement pas à apprendre en permanence après leur mise en production. Une fois l’entraînement terminé :

les paramètres sont gelés,
le modèle devient stable,
il n’apprend plus directement de nouvelles connaissances pendant vos conversations.

Pourquoi ?

Parce qu’un apprentissage continu non contrôlé pourrait entraîner des dérives :

apprentissage de fausses informations,
comportements incohérents,
dégradation progressive du modèle.

Pendant l’entraînement, les données sont sélectionnées et contrôlées précisément afin d’éviter ces problèmes. Cependant il existe d'autres approches afin d'actualiser les informations, mais c'est plus au niveau du système.

Il y a des approches avancées qu'on peut retrouver chez Horizon, OpenEvidence, MedGPT, VeraHealth etc...

Le principe consiste à fournir, dans le prompt invisible (que l’utilisateur ne voit pas), des sources fiables et actualisées afin que le modèle les prenne en compte dans sa réponse.

Et ensuite ?

Dans le prochain article, nous aborderons les modèles de langage (LLM) et un concept fondamental :

La tokenization

Une IA ne comprend pas directement le texte.

Elle ne manipule que des nombres.

Nous verrons donc :

comment le langage est transformé en données numériques,
ce qu’est un token,
pourquoi certains mots « coûtent » plus cher que d’autres,
et comment les modèles découpent réellement le texte.

Partie 2: Introduction pratique à l’IA générative pour médecins