Algorithmes de croisement des données

Pierre Jourlin

"on va aller sur le domaine juridique"
"en attendant que le Moodle soit réparé, je vais vous demander d'aller sur le site du ministère"
"on est toujours sur les deux directives [sic] européennes, le RGPD et Open Data, il y a un peu une contradiction entre les deux, vu qu'une administration doit mettre en ligne les données mais en faisant gaffe aux données personnelles"
"la Cour de cassation doit mettre ses décisions à disposition de tout le monde : évidemment, elle ne peut pas y laisser des données personnelles, elle doit anonymiser et elle le fait, mais on peut trouver des failles, moi j'en ai trouvé"
"c'est marqué "madame X, madame X", et d'un coup, hop le nom apparaît en clair"

"vous aller chercher le corpus JADE et prendre le maximum d'informations dessus"
"vous voyez qu'il y a 3 fichiers principaux"

DTD : "contrairement au HTML, on met ce qu'on veut dans la balise XML, mais si on met ce qu'on veut, on peut mettre n'importe quoi" : "pour résoudre ça, on met dans une DTD quelles sont les balises autorisées"
"une décision de justice, c'est du texte, mais aussi des métadonnées : la date, le tribunal, etc."

"si vous cliquez sur télécharger le XML, vous voyez la taille de chaque fichier, mais attention : vous voyez l'extension en .tar.gz, c'est un fichier compressé"

"on va charger un grand modèle de langue avec spacy : aujourd'hui c'est un modèle léger, mais à l'époque c'était considéré comme un des plus gros"
"normalement, avec ça, on va pouvoir vérifier que les données sont bien anonymisées"

"le RNE c'est un des rares cas où le RGPD et l'open data ne rentrent pas en conflit, c'est représentatif, ça donne une grosse base de noms et prénoms"

"il faut bien comprendre que CamemBERT, c'est un modèle prédictif à base de masques", "on lui donne des news, il doit deviner le bon mot dans le contexte donné, et quand il renvoie une erreur on réévalue les poids", "vous vous rappelez, c'était "Paris est la capitale de [masque]""
"c'est du supervisé, parce que le sentiment n'est pas écrit"
"comment ils ont réussi à faire de l'analyse de sentiments ? ils ont utilisé IMDb et ils ont eu du travail humain gratuit", "ça va permettre de faire de l'apprentissage par renforcement"
"mais là on n'a pas ça, ça va être entièrement prédictif, tout ce qu'on a c'est le masque"
"ce système n'est capable que de prédire le mot manquant : comment on va faire pour lui faire prédire le début, la fin et la catégorie d'une entité nommée ?", "pour faire ça, il va falloir faire du fine tuning, le ré-entraîner sur des problématiques qu'il n'a pas vu pendant l'apprentissage"
"je vais rajouter dans mon texte deux nouveaux tokens, sous forme de balise pour les distinguer des autres mots, un pour le début et un pour la fin de l'entité nommée, et le modèle pourra les détecter quand il les masque"
"il peut très bien détecter un début d'entité sans rajouter la fin : il faudra des algorithmes derrière pour corriger la structure, ça rajoute un peu de complexité"
"pour détecter les catégories, il faudra des tokens plus compliqués, comme "début d'entité de type X", "fin d'entité de type X"", "et il se trouve que dans Wikipédia il y a un langage de balises, dans les biographies par exemple"
"dans ChatGPT il y a GPT, le modèle, qui ne sait que prédire, et il y a "Chat", c'est tout l'enrobage de fine-tuning autour"

Transformers : "au début des réseaux de neurones, on avait un problème : ils pouvaient apprendre, mais ils ne pouvaient pas oublier"
"on a donc inventé des masques d'attention" : "c'est ça les Transformers, maintenant tous les systèmes dominants de l'IA prédictives sont des transformers"
"si le modèle qui doit distinguer les chars des avions s'est basé sur la luminosité du ciel plutôt que la forme des véhicules, c'est parce qu'il va toujours au plus simple, c'est un principe fondamental du machine learning" "pour les noms de famille, qu'est-ce qui est le plus simple ? la majuscule"

"toutes les questions que je pose dans le Moodle, vous devrez y répondre dans votre rapport"

"quand ils ont annoncé DeepSeek les bourses américaines ont plongé, je rigole mais ça montre bien l'absurdité du système"
avec Spacy on est en-dessous du milliard de paramètres, "on parle d'un modèle léger, même si à l'époque c'était vu comme un LLM"
"on garde la main sur chaque étape" : tokenisation, mais aussi étapes intermédiaires comme générer des étiquettes morpho-syntaxiques (= article, déterminant, nom propre, nom commun, verbe...), "ce n'est pas obligatoire, on peut faire directement de la prédiction mais ça aide"
"évidemment il y aura des erreurs à toutes les étapes, mais c'est une grosse boîte à outils qui nous permet d'aller un peu plus dans les détails qu'une réponse basique de LLM"

"pour le fine-tuning je vous ai expliqué, fixer les débuts et fins d'entité nommée ça coûte très cher, donc soit on s'appelle OpenAI et on va dans les pays où les gens ont besoin de bosser pas cher, soit triche et on va chercher du travail gratuit là où il existe déjà, dans Wikipédia par exemple : les parenthèses de désambiguïsation, c'est du pain béni"

"quand on demande à un LLM de prédire un code, il peut se tromper, et comme vous n'êtes pas bac+5 en informatique, vous ne pouvez pas savoir si ce code est bien écrit", "mais par contre, si vous demandez à la LLM de générer les commentaires pour un code que vous avez écrit et qui est correct, c'est facile à vérifier, donc ça peut vous faire gagner énormément de temps", "mais attention à la confidentialité"

"vous avez bien compris l'antagonisme entre la directive "je dois publier toutes les décisions de justice" et celle qui protège les données personnelles"
"attention, retirer juste le nom ce n'est pas anonymiser, c'est désidentifier : s'il reste d'autres informations dans le texte, on peut retrouver le nom, c'est un risque que prend la Cour de cassation"
"est-ce qu'il y a des faux positifs, négatifs, de quel ordre ? ça c'est votre travail, ça fera partie de votre rapport", "je demande pas de faire un benchmark, juste quelques tests et quelques observations", "ça doit faire au moins une ou deux pages dans votre rapport"
"est-ce que se baser sur les entités nommées suffit ou non à faire un système d'anonymisation de décisions de justice ? si non, pour quelles raisons ?"
"rappelez-vous qu'il n'y a que deux type d'erreurs : les FP, vous allez souvent voir ça sur les noms d'entreprise qui portent le nom de leur fondateur, et les FN"
"avec les FP je vais caviarder, je vais perdre de l'information ; avec les FN, la conséquence est beaucoup plus grave, c'est quelqu'un dont l'identité va être révélée"

précision = pourcentage de VP sur les résultats
rappel = pourcentage de VN

"y'a aucun système d'exploitation qui gère correctement un répertoire avec 500 000 fichiers dedans, donc la DILA ils ont fait une arborescence et ils ont eu bien raison"

"on peut avoir des évaluations partielles : on considère que s'il a trouvé qu'une partie d'entité nommée, c'est OK", "et ce qui est compliqué, c'est de rajouter la catégorie : si c'est un VP mais que la catégorie n'est pas bonne, c'est un autre problème", "tout dépend de ce qu'on veut évaluer, on ne se contente pas toujours de la f-mesure"
"donc si on vous dit que la détection d'entités nommées c'est un problème résolu, ne le croyez pas, c'est loin d'être le cas"
"on va quand même s'appuyer là-dessus pour identifier les mentions de personne, c'est vraiment une première étape, parce que si c'est le nom d'un juge ou d'un greffier, il ne faut pas le caviarder"
"attention, pour anonymiser il ne suffit pas d'enlever le nom et tout ce qui peut permettre d'identifier la personne, on peut retrouver la personne par croisement de données"

"en comptant les nommages uniques, je vais pouvoir identifier les noms qui apparaissent les moins souvent, y'a quand même plus de chances que ce soit des prévenus ou des témoins que des auxiliaires de justice"
"et les entités les plus rares, c'est des faux positifs, logiquement"
"quand vous avez des hypothèses, je vous encourage à aller les vérifier, donnez-moi au moins un exemple"

"un particulier qui donne son nom à son entreprise, il doit réaliser que ça va être impossible de l'anonymiser"

"dans la réalité, aucun mot n'est pas ambigu, tous prennent leur sens dans un contexte"
"on a un système qui sait détecter des débuts d’entité nommée, des fins d'entité nommée et des catégories d'entité nommée ; il peut se tromper, tout ça c'est de la cuisine"
"le mot "pierre", ça peut être un objet ou un prénom, il faut regarder la structure superficielle", "mais mettons qu'on ait la phrase "un chien a mordu Pierre", comment savoir qui a mordu qui ? il faut analyser la structure profonde, la superficielle ne suffit pas, ça aussi on peut le faire avec spaCy"