Vous êtes en pleine conversation avec votre IA. Vous lui avez expliqué votre situation en détail, posé plusieurs questions, obtenu des réponses pertinentes. Puis, une heure plus tard, vous revenez sur un point abordé au début — et le modèle répond à côté, comme s'il n'en avait jamais entendu parler.
Il ne fait pas semblant. Il a simplement oublié.
Un bureau, pas une bibliothèque
Un grand modèle de langage possède deux types de « savoir » qu'il faut soigneusement distinguer.
Le premier, c'est sa connaissance générale — tout ce qu'il a appris pendant son entraînement. C'est vaste, relativement stable, et nous en avons parlé dans « Souvenirs ».
Le second, c'est ce qu'il peut traiter en ce moment même, dans cette conversation. C'est la fenêtre de contexte — et elle est bornée.
Imaginez un bureau de travail. Vous pouvez y étaler des documents, les consulter, les croiser. Mais la surface est limitée. Quand elle est pleine, pour ajouter un nouveau document, il faut en faire glisser un autre hors du bureau. Ce qui sort de la surface cesse d'exister pour le modèle — même si vous l'avez posé là il y a vingt minutes.
Des chiffres qui impressionnent, des limites qui surprennent
La fenêtre de contexte se mesure en tokens — des fragments de mots, approximativement trois quarts de mot en français. Les modèles modernes affichent des fenêtres de 128 000, 200 000, voire 256 000 tokens. Cela semble énorme.
Et pourtant. Un long document professionnel, un échange nourri de plusieurs heures, un roman — tout cela se consomme vite. Et plus la fenêtre se remplit, plus les éléments anciens risquent d'être mal traités, repoussés vers les bords de l'attention du modèle.
Car il y a plus subtil encore : ce n'est pas parce qu'un élément est techniquement dans la fenêtre qu'il est effectivement pris en compte. Les modèles ont tendance à mieux traiter ce qui est récent et ce qui est en tout début de conversation. Ce qui se trouve au milieu d'un long échange est souvent sous-pondéré — sans que rien ne vous le signale.
Ce que cela change en pratique
Première conséquence : dans une longue conversation, rappeler le contexte important. Ne supposez pas que le modèle « s'en souvient » parce que vous l'avez dit. Si c'était il y a longtemps dans l'échange, reformulez, résumez, réancrez.
Deuxième conséquence : pour des tâches complexes sur de longs documents, découpez. Mieux vaut plusieurs conversations ciblées qu'une seule conversation surchargée où le modèle perd le fil.
Troisième conséquence : ce que vous placez en début de conversation a un poids particulier. Les instructions, le contexte, les contraintes — donnez-les d'emblée, avant que la fenêtre ne se remplisse. (Nous y reviendrons dans « Le prompt ».)
Deux oublis, une même lucidité
« Avatar » vous a dit que le modèle ne se souvient pas d'une conversation à l'autre. « Mémoire » vous dit qu'il peut oublier à l'intérieur même d'une conversation.
Ce sont deux formes d'absence différentes. Ensemble, elles dessinent les contours réels de ce à quoi vous avez affaire — non pas un interlocuteur continu et attentif, mais un outil puissant, présent, et fondamentalement limité dans le temps.
Le connaître, c'est mieux l'utiliser.