ASDN 51 - Les données de la démocratie (Samuel Goëta)

8 février 2024
Rencontre organisée par Renaissance Numérique à l'occasion du lancement de "Les données de la démocratie - open data, pouvoirs et contre-pouvoirs" (Samuel Goëta, 2024)

Nicolas Vanbremeersch, président de Renaissance Numérique : "Renaissance Numérique est un think tank de la société numérique"
"on en est au 51e intervenant, mais Samuel Goëta c'est notre intervenant-type", "à la fois acteur très réfléchi et en même temps qui propose et donne du pouvoir d'agir, on n'est pas juste spectateur quand on a fini de lire son livre"
Agate Bougon, secrétaire générale adjointe CNNum : "je n'ai rien à ajouter"

"je suis un vieux briscard de l'open data"
"je pourrais vous parler de Pokémon Go qui utilise OSM, de mon père qui utilise Plantnet en randonnée, de ma compagne chez MeilleursAgents, de Yuka et OpenFoodFacts"
"y'a une massification des usages, et quand j'en entends à la radio je dis souvent : ah c'est de l'open data ça !"

"on a un peu tendance à scolariser sur les usages pratiques, en négligeant le caractère politique de l'open data et son rôle dans la démocratie"
"ya eu des bouquins, mais dans les rapports publiés on voit ça souvent ça sous l'angle de l'efficacité : la question de l'utilité n'est pas posée, et c'est ce que j'ai voulu faire dans mon livre"

données = "base de l'information et du savoir", "la pointe du triangle"
"y'a aussi du savoir qui ne s'appuie pas sur des données, bien sûr"

"avant on avait de l'information prémâchée, maintenant on a les données brutes au plus haut niveau de précision : ça permet de refaire des calculs, de donner du pouvoir d'agir, de renforcer les contre-pouvoirs"

open data = données librement utilisables, à la fois par des machines et au sens juridique
"généralement dans les projets open data en France y'a pas de données à caractère personnel, mais aux USA c'est un contexte très différent"

"je me suis pas mal inspiré de NTM dans la conclusion du livre, je vous laisserai la découvrir"

le livre est un essai didactique : "j'essaie de le faire accessible, sans trop de jargon, qui permet de poser les termes"

  • les fondements et les origines, "toutes les facettes de l'open data", "c'est un peu un Rubik's Cube"
  • bilan critique de l'open data en France, "c'est un peu la tour de Pise, tout le monde l'admire mais elle penche car ses fondations sont instables", "y'a eu des promesses démesurées, notamment en terme de création d'emploi, d'entreprises, et de modernisation des administrations"
  • pistes alternatives et solutions : quand on n'a pas de données ouvertes, qu'est-ce qu'on fait ? (scraping, crowdsourcing...)

l'open data sans action de médiation des données, ça risque juste d'"empower the empowered", "la data literacy c'est un sujet fort qu'on essaie de développer chez Datactivist"

pourquoi une abeille ? "pour montrer la fragilité de l'écosystème de l'open data, mais aussi son caractère essentiel"

Bougon : blablabla avec l'IA ?
Goëta : "Axelle Lemaire (qui a écrit la préface) a relu le livre, elle m'a dit : tu peux pas mettre l'IA en conclusion en 2023"
"Mozilla Research vient de publier un article sur CommonCrawl, qui a surtout servi à ChatGPT version 3"
"que les données d'entraînement soient ouvertes, pourquoi pas, mais que toutes les données soient pillées sans qu'on prenne en compte leur qualité, les biais etc. ça nous amène à nous questionner sur : quand c'est ouvert, est-ce que c'est forcément bien ?"
"ce que Kate Crawford appelle le pillage d'internet"
"un modèle ouvert, personne ne comprend comment ça fonctionne, c'est tout aussi opaque qu'un modèle fermé"
"ça nous amène à reconsidérer certains de nos postulats de base, mais il ne faudrait pas jeter le bébé avec l'eau du bain"
"on doit repenser notamment la distinction fondamentale entre données et contenu : on a eu un client une fois qui s'obstinait à désigner certains contenus comme "non-data", alors que ces corpus pourraient être mis à disposition"
"y'a une boîte qui s'appelle Délibia (?), c'est toutes les délibérations, et aujourd'hui les modèles savent analyser ces textes"

Bougon : comment on accompagne les agents de l'administration dans cette transformation ?
Goëta : "je pense qu'il y a des choses toutes simples" : faire rentrer l'open data dans les fiches de mission
"faudrait que sur les portails d'open data il y ait une sorte de générique, comme dans les films" ("mais la recherche montre que ça a parfois des effets pervers de rendre visible un travail invisible, enfin c'est une piste de réflexion", "j'ai bien conscience que ça remet plein de choses en question dans le fonctionnement de l'admin")
acculturer leur hiérarchie : "j'ai vu trop d'élus qui ne savent pas ce que c'est que le droit d'accès aux documents administratifs"

Vanbremeersch : data literacy ?
Goëta : "effectivement si on devait suivre tous les représentants d'intérêt qui vous disent qu'il faut faire rentrer le numérique dans les programmes scolaires, on y serait toute notre vie ; perso, je pense qu'il faut d'abord apprendre aux enfants à cuisiner"
"mais par exemple, si vous faites récupérer les découpages électoraux à des lycéens, vous avez de la géographie, de l'histoire, de la sociologie du territoire ; le processus est très intéressant, on va partir du réel, et aborder la question de la granularité des données, d'être au plus proche de soi"
"j'étais à Auxerre, moi à l'école on me parlait jamais d'Auxerre"

avis perso

c'est l'effet que m'avait fait Google Earth en VR quand Naomi Roth nous l'avait fait tester à "thecamp" en 2018 : elle suggérait que les écoliers fassent visiter leur quartier à leurs camarades

exemples de vulgarisation : Data Gueule, Rap Miners

"et j'ai remarqué que les abeilles, on ne sait pas bien qui c'est", "tous les usagers de la data ne sont pas Guillaume Rozier, et j'entendais souvent des trucs comme "il faut se préparer à l'arrivée du nouveau Guillaume Rozier dans le monde de l'énergie", ça me faisait bondir"
"les interfaces, les portails d'open data ne sont pas du tout pensés pour un usage "pêche à la ligne", du style : retrouver une ligne dans un CSV qui indique à qui on a attribué une subvention"
"et vous devez changer le séparateur en point virgule parce qu'en France on utilise le point virgule pour séparer les CSV"

"je parle beaucoup dans le livre de la 3e vague de l'open data : la 1ère c'est le droit d'accès, la 2e c'est l'opendata par défaut, la 3e c'est travailler avec des acteurs, former des coalitions, comme par exemple les assos de cyclistes"

Vanbremeersch : "Rozier était du côté des contre-pouvoirs, il était tourné vers la société, il est maintenant à l'Élysée et il produit des données pour le pouvoir, pour la surveillance", "il y a un scénario un peu dystopique de fermeture, des intérêts économiques avec l'IA extrêmement prégnants, il y a un peu un retour en arrière qui semble possible"
"ton livre navigue bien dans cette ambiance, mais ne pourrait-on pas avoir un regard plus sombre ?"
Goëta : "oui, tout cela est très fragile, après les sujets reviennent sur la pile, je suis assez optimiste"
"y'a plein de questions sur lesquelles on va s'appuyer sur des coalitions"

"je préfère une ville qui répond à ces demandes d'accès dans les temps, ce qui est rare, qu'une ville qui fait un open data pourri où il n'y a rien, c'est juste faire les choses à l'envers"

question d'un "juriste" : "dans la blockchain on a les smart contracts, avec une justice parallèle qui espère reprendre le pouvoir sur les institutions avec des DAO", "évidemment la blockchain elle a beaucoup déçu, je ne sais pas comment vous vous positionnez"
Goëta : "c'est un sujet que je ne maîtrise pas super bien désolé"

question d'un "consultant" : "est-ce qu'il n'y a pas un risque de produire une connaissance qui perd en fiabilité ?", "je pense aux données de sécurité routière, et sans le contexte de production de la donnée, on peut donner une fausse interprétation"
Goëta : les datasheets
Vanbremeersch : "c'est intéressant la symétrie entre la sécurité routière, qui est quelque chose de très structuré, et des phénomènes émergents comme le vélo"
Goëta : "l'asso 40 millions d'automobilistes a repris les données de la limitation à 80 à l'heure, ils ont remarqué que l'accidentologie n'avait pas baissé, que la décision n'était pas objective", "et puis y'a eu une contre-expertise du Cerema qui a montré que l'accidentologie a bien baissé, car ils ont isolé les routes départementales"
"faut qu'on arrête de nous balancer des chiffres comme des arguments d'autorité"

Vanbremeersch : "l'open data se met-il une limite environnementale ?"
Goëta : "ce n'est pas le téléchargement qui consomme le plus, c'est surtout l'entraînement des données, mais y'a des travaux qui ont été faits", "je n'ai pas l'impression que ce soit une consommation monstrueuse, mais j'imagine qu'il y a des usages sobres à imaginer, la personne qui ne veut qu'une ligne n'a pas besoin de télécharger tout le CSV"
Jean-Marc Lazard de OpenDataSoft : "on peut mesurer par rapport aux anciens usages d'échanges de données, et là je ne pense pas qu'on est dans une hausse de consommation, au contraire"