Modèles prédictifs

Pierre Jourlin

Ressources

Pierre Jourlin, La boîte translucide
Yann LeCun, séminaire "Apprendre les langues aux machines" (Collège de France, 9 février 2024)
Stephen Wolfram, "What Is ChatGPT Doing … and Why Does It Work?" (14 février 2023)
Introduction pratique aux grands modèles de langage / LLM (journal Linuxfr)

Info

You are confusing intelligence and knowledge. LLMs have a lot of accumulated knowledge, but very little intelligence. An elephant or a 4 year old are way smarter than any LLM.

Notes de cours

Moodle : https://e-uapv2023.univ-avignon.fr/course/view.php?id=3973

"le QI c'est de la connerie, c'est pas une notion scientifique"
"y'a eu les tests de Binet mais c'était pour un objectif précis : c'était un test d'aptitude, surtout pas un test d'intelligence, et Binet l'avait averti" (Stephen J. Gould, "La mal-mesure de l'homme")
"l'intelligence c'est peut-être un truc qui existe, mais on ne sait pas le définir", "je vous conseille un podcast France Inter, Sur les épaules de Darwin"

"l'IA des années 80 n'est plus considérée comme de l'IA aujourd'hui"

machine universelle de Church-Turing, "c'est une machine abstraite, imaginaire, mais elle peut résoudre n'importe quel problème formalisé"
"l'informatique quantique, c'est pas une machine universelle, on peut résoudre certains problèmes mais pas tous"

modèle d'IA symbolique = mécanisation du raisonnement
"l'informaticien va formaliser les connaissances pour les transmettre à une machine, en Prolog par exemple"
"mon collègue devait faire une thèse sur la reconnaissance des phonèmes, il va voir les phonéticiens pour formaliser leurs connaissances, mais les connaissances ne sont pas assez précises, il n'y arrive pas"

"avec un modèle de probabilité, je peux constituer un corpus et estimer les chances qu'un son accompagne un autre"
"j'ai un modèle qui me dit ce qui est le plus probable, j'ai des données qui représentent la réalité : j'associe les deux, et je fais de l'apprentissage automatique" = modèle probabiliste

Turing : "au lieu d'écrire un programme qui imite un cerveau d'adulte, on écrit un programme qui apprend comme un enfant"
"l'idée d'un algo qui apprend tout seul, c'est les années 50, vous voyez que ça date pas d'hier"

dans la vraie vie, les modèles probabilistes s'éloignent de la réalité de façon considérable
"voyez les sondages, les statisticiens vont sans cesse corriger les modèles, ça n'a plus rien à voir de la vérité", "mais au moins on garde un modèle mathématique fondé sur des faits"

modèles neuronaux/connexionnistes : "j'ai des collègues qui disent que c'est aussi probabiliste, je ne suis pas convaincu"
"voyez le neurone comme une unité de décision : c'est lui qui décide de transmettre"

"pendant des années, plus personne ne travaillait sur les réseaux de neurones, parce qu'on leur disait que Papert et Minsky avaient démontré qu'il manquait l'opérateur XOR nécessaire à la machine universelle", "c'est ce qui a donné la fameuse hibernation de l'IA"

Invention des SIMD : la machine peut désormais travailler en parallèle, les temps de calcul sont divisés par 16

algorithme de rétropropagation par gradient : "quand on vous parle de deep learning, c'est parce qu'on passe d'une couche profonde à une autre"
"c'est pas de la probabilité, c'est pas du formalisme, c'est de la réduction d'erreur : j'entraîne mon modèle à me satisfaire"
"le problème c'est que si j'ai fait ça, j'aurai un modèle qui a tout appris par cœur, et qui va se casser la gueule avec de nouvelles données : il n'aura pas fait d'inférence, il ne pourra pas faire face à l'inconnu" (surapprentissage)

"si je découpe mon corpus de données en 3 : apprentissage/dev/test, comme pour reconnaître les tumeurs cancéreuses sur les radios"
on entraîne le modèle sur les données d'apprentissage, on le teste sur les données de dev, et là-dessus on s'autorise à modifier des hyperparamètres, comme le nombre de neurones, de couches, etc.
"et en théorie, les données de test, elles ne servent qu'une seule fois, sinon y'a un biais"

"TensorFlow est plutôt passé de mode, c'est plutôt Pytorch et l'approche Meta qui gagnent"
"vous voyez que par rapport à la théorie symbolique ou probabiliste, c'est très arbitraire, de l'empirisme total"
"et aussi c'est inexplicable, de la même façon que les linguistes ne savent pas expliquer ce que c'est un mot"
"et surtout c'est très gourmand, en termes de production de carbone c'est pas comparable"

conséquences :

l'étiquetage a priori fait gagner du temps
risque de biais dans la sélection des données : "il vaut mieux une petite base bien diverse qu'une grosse base trop homogène"

utiliser https://huggingface.co/almanach/camembert-base
"attention, le score n'est pas une probabilité"

Paris est la capitale de la <mask>. <- "c'est normal qu'il ne remonte pas France, tout le monde le sait déjà"
Les œufs de vache sont <mask>. <- "il ne sait pas ce que sont des œufs, ni ce qu'est une vache"
Toutes les femmes sont <mask>./ <mask> ministre de l'éducation <- "le modèle n'est pas sexiste, il l'a appris à l'être"

les grands modèles de langage s'appuient sur des réseaux de neurones artificiels, basés sur la réduction d'erreur, "je vous ai expliqué tout ça"
"il ne faut pas d'erreur zéro sinon ça veut dire que le modèle a appris par cœur ; si vous avez appris des poèmes par cœur, vous n'allez pas forcément être capable d'en écrire"

masque d'attention : "c'est un dispositif assez moderne qui a permis de faire des avancées"
au lieu de prédire des mots en se basant sur le contexte, on va chercher la bonne pondération = sur quel mot ("enfin sur quel token") se focaliser pour prédire

"les hallucinations, c'est ça : pour le LLM, l'important est que le texte soit bien formé, il ne sait pas ce qui est vrai ou faux, ça n'a pas de sens pour lui"

"prenez une heure pour explorer Hugging Face, le but du jeu c'est de mettre en évidence des biais, quels qu'ils soient"

https://huggingface.co/google-t5/t5-small :

jdlkqsjdlksqjdsq

extraction d'entité nommée (camambert-ner)
analyse de sentiments (distilbert)

"pour les LLM, dès le départ, on a accepté qu'on ne pouvait pas avoir un système de ce type-là, car on n'arriverait pas à se rapprocher de la réalité"

"les biais c'est un problème, mais on peut les résoudre (par ex. via renforcement) : le vrai gros problème des modèles prédictifs, c'est qu'ils sont très difficiles à expliquer"
"et c'est similaire à notre cerveau de ce point de vue-là"