Audit de sources de données massives - Apprentissage incrémental
Pascal Martinez et Éric Sanjuan
"vous pouvez choisir entre 2 projets" : prud'hommes Marseille (accidents de travail, maladies professionnelles) / tickets de caisse de grande surface INRAE
audit : à l'aide de RAG
apprentissage : réduction des risques avec Ollama via Open WebUI (prud'hommes) / calcul du Nutri-Score, "beaucoup de classification à faire" (tickets de caisse)
les sessions 2 et 3 seront dédiées à la mise en œuvre
à la 4e session, un groupe va représenter "le donneur d'ordres" qui définira un cahier des charges, et un autre sera le "prestataire de services" qui devra répondre à ce cahier des charges
Sanjuan : "ici c'est plus prospectif, Pascal veut plus aller sur le côté entrepreneur"
Martinez : "ce qui a été déterminant pour moi, ça a été ma carrière d'ancien athlète", "jusqu'à très tard, je n'ai jamais été salarié"
"le terme de justice prédictive est galvaudé, il n'existe plus aujourd'hui"
"mais on avait la prétention de dire qu'à partir de décisions anciennes sur un même contentieux, on pouvait prédire le positionnement des magistrats sur de futures décisions portant sur le même contentieux" : "j'ai alors commencé à réfléchir à une solution d'analyse de jurisprudence pour pouvoir renseigner les professionnels du droit sur des possibilités d'orientation des décisions des magistrats"
"j'ai donc créé une legal tech, Juri'Predis, qui appartient maintenant à la profession d'avocat, j'en suis toujours associé mais je n'ai plus de rôle à l'intérieur de la société", "c'est le concurrent direct de Doctrine"
"votre travail va porter sur l'analyse des décisions de justice qui ont été rendues par les juridictions sociales"
"demain, vous pouvez très bien être assesseur à un CPH"
le CPH a été créé en 1810 par Napoléon 1er "ça remonte"
5 sections :
bureau des conciliations
mise en état
"la particularité du CPH, c'est que comme il y a 4 personnes, dont 2 de chaque côté il peut y avoir des blocages", "à ce moment-là, on va vers le bureau des départages, et là c'est un juge professionnel qui va rendre la décision"
"à ma connaissance, cette particularité n'existe qu'avec le conseil des prud'hommes"
décision du CPH :
"on va essayer de lister les sources pour retrouver les jurisprudences des juridictions sociales"
Nom | Avantages | Inconvénients | |
---|---|---|---|
Sources officielles | CCass Légifrance (open data) |
- gratuit - "y'en a pas beaucoup" |
- absence de traitement - manque d'exhaustivité |
Éditeurs juridiques | Dallos LexisNexis Lamyline Lexbase |
- doctrine | |
Legal tech | Doctrine JuriPredis Pappers |
- exhaustivité |
qu'ont apporté les legal tech à la recherche de l'information juridique ? "elles l'ont rendu accessible de manière beaucoup plus conviviale et vulgarisée que les sources conventionnelles"
"je vais vous dire ce que je disais pour décrire Juripredis" : une plateforme d'information juridique ("et non seulement jurisprudentielle") "augmentée par l'IA"
"dans les sources officielles, on doit tout pseudonymiser et garder cette pseudonymisation tout au long de la décision, vous imaginez le travail à faire, par exemple pour les héritiers dans une affaire de succession", "c'est pour ça que les fonds ministériels sont moins volumineux, ils n'ont pas la capacité de pseudonymiser toutes les juridictions"
"l'outil de la CCass peut traiter 15 000 décisions par mois, alors qu'on rend 600 000 décisions par jour"
"Doctrine est arrivé avec des camions remplis de groupes électrogènes et des scanners, ils ont débarqué chez Infogreffe, ils ont tout scanné en 48h"
"leur relation avec la CCass ça relève de l'arnaque"
1er apport : mettre le maximum de décisions à portée de l'utilisateur
"le fonds documentaire de Legifrance, c'est un million de décisions ; celui de Juripredis, c'est 30 millions, et ce n'est pas le plus riche"
2e apport : la convivialité
"vous pouvez lancer une recherche en langage naturel sur Juripredis"
https://guacamole.univ-avignon.fr/jplab/
"Un SMS peut-il être admis comme preuve ?"https://guacamole.univ-avignon.fr/jpvir_test?corpus=${corpus}&phrase=${phrase}&length=${length}
https://guacamole.univ-avignon.fr/phppgadmin/
"quand vous allez travailler sur les bases, demandez-vous toujours pour quel objectif"
"travaillez sur une finalité accessible à tout le monde : demandez-vous si les données à votre disposition, grâce à votre travail, peuvent répondre à ces questions"
"il ne faut pas raisonner en tant que juriste, il faut raisonner en tant qu'utilisateur"
Sanjuan : "vous vous rappelez bien de ce qu'est un RAG ?" "R pour rechercher, A pour augmenter, G pour le génératif"
Pour l'audit des données ("c'est surtout le R"), quelles sources pour nourrir le système de génération des réponses ?
Pour l'apprentissage incrémental ("ça concerne le G pour cette édition du master, maintenant qu'on a les bons outils") : à partir des sources, est-ce qu'on arrive à générer une réponse satisfaisante ? à quelle cible s'adresse t-on ?
en audit : évaluation du contenu des sources vis-à-vis des cibles (requêtes sémantiques)
en apprentissage : évaluation des LLM "à froid"
synthèse : évaluation (assistée) de "pseudo-RAG"
"on vous attend moins sur la partie technique, de mise en route du RAG, et plus sur la découverte de documents pertinents"
"et si vous donnez un document pertinent à un LLM, est-ce qu'il arrive à le ressortir dans sa réponse ou est-ce qu'il se base sur son premier apprentissage ?"
"donc dans l'ordre je vous demande 5 évaluations" :
"pour cet après-midi, commencez à tester des cibles dans llama3.2, sans aucune donnée"
["winning by design" ???]
"vous le vivez au quotidien, les entreprises travaillent en silo" : chaque département fonctionne de manière autonome (le produit, le marketing, les ventes), "mais ça ne peut pus fonctionner avec des produits innovants"
"vous avez une dualité de philosophie entre ceux qui veulent vendre à tout prix et les développeurs, et quand vous serez au cœur des ces équipes vous allez ne pas vous rendre compte que ça grince"
"alors qu'on voudrait voir une approche GoToMarket horizontale et cohérente"
"on est sur une relecture globale du management"
"il faut faire sa propre recette, il ne faut pas être dogmatique"
paramètres des chatbots : "vous pouvez jouer sur la température et la longueur du contexte"
"partez d'une question, cherchez une ressource pertinente, et testez différents modèles pour qu'ils répondent à votre question en lui fournissant la ressource que vous lui avez demandée"
"demain, vous allez devoir diriger des équipes", "autrefois elles fonctionnaient en silos, elles n'arrivaient pas à bien communiquer, mais avec le winning by design on est arrivé à les faire travailler en GoToMarket plutôt qu'en compétences" : "quelle est la solution qui apporte le plus de satisfaction à l'utilisateur"
"aujourd'hui on va voir la méthode SPICED : les équipes sont systématiquement toutes en lien avec le client à un moment donné, vous vous en souvenez on avait vu le nœud papillon"
"pour avoir de la croissance, il faut de la satisfaction client, sans ça vous serez condamné à faire du no business [?], c'est cher et c'est ingrat"
"ce ne sont pas les mêmes compétences qui interviennent selon le moment", "à telle position sur le nœud papillon, les commerciaux ne sont plus compétents par exemple" :
3 risques d'attrition : à l'onboarding, abandon s'il n'y a pas d'impact