Smart cities et données spatiales

François Ganz

Notes de cours

"je travaille à la mairie d'Avignon depuis une vingtaine d'années" (chargé de mission SIG et open data), "j'exerce depuis 38 ans"
"au début j'étais à la Défense, je travaillais sur des imageries satellitaires, puis on a codé sur des données en two-line"
"j'ai travaillé sur de la normalisation pour rendre les systèmes interopérables, plutôt que d'envoyer les données aux industriels pour qu'ils nous renvoient les bibliothèques de lecture/écriture, on les a développées nous-même et on les a données gratuitement pour dédouaner l'utilisateur de l'interprétation de la norme"
"à l'époque il n'y avait pas de postes ouverts dans ce domaine, je suis rentré à la ville d'Avignon comme chef de projet informatique en 2004", "et plus tard, en 2011 j'ai pu revenir à l'information géographique, il n'y avait même pas de logiciel SIG, juste un monoposte, pas du tout une approche structurée et mutualisée", "j'ai construit toute l'infra open source de la collectivité, ça a pris 2 ans, le système perdure", "en 2015 j'ai rajouté la dimension open data en m'appuyant sur l'infrastructure de la Région"

4 interventions de 3 heures
"3 petites évaluations de 20 minutes à chaque séance, soit en début soit en fin, la prochaine ce sera en début", "dès la semaine prochaine, vous ferez deux analyses thématiques"
30% de théorie et 70% d'exercices dirigés : "l'objectif c'est de manipuler les données spatiales pour les comprendre ; pas de faire de vous des spécialistes de la donnée géographique, mais de vous faire toucher du doigt leur potentiel pour pouvoir échanger avec les spécialistes"

"dans le terme "donnée géographique", le premier mot c'est "donnée", quand on sait traiter de la donnée géo on sait traiter de la donnée"

"vous devrez télécharger QGIS LTR"
"je vous présenterai un ETL qui s'appelle FME, édité par Safe, c'est le couteau suisse de la donnée géo, vous pouvez tout faire avec"
"pour moi, ETL et ELT, c'est la même chose"

Avignon fait partie de l'EPCI Grand Avignon
la ville seule a 92 000 habitants, 65km², 1 600 rues, 28 000 plaques d'adresse, "je vous dis ça pour que vous ayez une idée de la volumétrie"
"savoir où sont les compétences permet de savoir où sont les producteurs de données, quelle est la donnée la plus juste", "c'est important de savoir comment se combinent toutes ces strates" :

  • la compétence scolaire est gérée par les communes pour l'élémentaire, le département pour les collèges, la Région pour les lycées
  • l'agglo gère les transports urbains, mais les transports entre EPCI sont gérés par les régions
  • "la compétence route est assez complexe" : voiries communales, intercommunales, routes départementales, gérées par l'État

géocodage : donner des aspects géographiques (coordonnées X/Y) à des données non géographiques (adresses, noms de ville...), en les envoyant à un géocodeur

"moi, j'ai organisé le SIG en services" : vers les utilisateurs, les citoyens...
"je ne suis pas positionné à la DSI : je suis à côté, dans une direction métier rattachée directement à la direction générale", "pour moi c'est une position intéressante, quand on explore des données on doit être orienté métier, on ne doit pas être limité par la technique"
"ce qu'on se rend compte sur la gouvernance des données, c'est que nos structures n'ont pas encore la bonne maturité", "j'en suis convaincu depuis un bon bout de temps, à un moment donné il faut dépasser les usages et aller sur le cap du pilotage et de la stratégie"
"la donnée c'est comme un liquide, elle doit être fluide, et ça c'est passionnant"

5 briques dans l'infrastructure :

  • la base de données est externalisée, "j'ai demandé à la DSI, ils étaient d'accord"
    elle a un effet centralisateur, "c'est comme avoir plein de tableaux Excel au même endroit"
    "ce n'est pas la brique de production, c'est la brique de mon système d'information : elle est alimentée par les fichiers DAO, les fichiers raster, les données métier, les API..."
  • QGIS Server, "ça vous oubliez"
  • l'interface Lizmap, "avec les boutons zoomer-dézoomer"
  • la dataviz avec Superset, "je vous la présenterai"
  • Qfield Cloud, se branche directement sur la BDD pour la "saisie nomade" (mobile/mode déconnecté)

"à la mairie comme dans d'autres organisations, tout est siloté par problématique : les RH, les finances, l'information géographique..."
"pour moi, chacun de ces systèmes est découpé en 3 parties : l'acquisition de données, le stockage et l'analyse", "sauf qu'une structure, on a besoin de la piloter de la manière plus large : par exemple si je veux connaître le coût d'une association, j'ai des éléments de coût à 3 endroits différents"
"ce que j'ai fait pour la géo, je l'étends à toutes les données pour les besoins de pilotage", "mes outils, ils ont une vision désilotée des données", "et je n'interfère pas avec leurs modes de production, je les laisse dans leurs silos"

SIG d'Avignon : https://cartes.mairie-avignon.com/
"c'est aussi l'avantage d'externaliser, je peux ouvrir facilement à l'usager"
"le principe c'est le même que Google Maps", "on a des applis métier, c'est des API en HTTP REST", "je garde toujours toutes les séries de données, l'axe temporel est toujours très important pour les analyses"

Superset : "les données IGN et OpenStreetMaps sont en PostgreSQL, tout ça c'est de l'open source"
"j'ai besoin de l'adresse de naissance pour les secteurs scolaires, mais effectivement on peut retrouver un nom depuis une adresse ; mais moi après j'anonymise, et j'agrège les données sur 3 niveaux, donc si j'ai une seule maison avec une seule naissance sur un carré de 200x200 mètres, je la vire parce que ce n'est pas significatif"
"dès lors que la donnée est sensible, je la transmets au DPO"

"la composante la plus importante d'un SIG, c'est les ressources humaines"

les objets de métiers différents sont représentés sous un axe unique : l'axe coordonnées, ou axe géographique
ce afin de répondre à 5 questions fondamentales : où / quoi / comment / quand / et si ?
"60% du territoire de la ville est en zone inondable : si j'ai une rupture de digue, comment va se passer l'écoulement d'eau ?"

"un arbre, ce qui est intéressant, c'est la date à laquelle il a été planté, et l'âge qu'il avait à ce moment-là, comme ça on peut simuler la taille qu'il fera demain"

les données géographiques ont 3 composantes : graphique/attributaire/métadonnées
modes de représentation :

  • données vecteur : 3 types de géométrie (point, ligne, polygone) pour représenter l'intégralité du monde réel
    chaque type est composé de nœuds, "donc dans notre table attributaire, une ligne va être représentée par une série de points, le stockage va donc être très léger"
  • données grilles : raster ou mnt
    raster = chaque pixel ne contient qu'une seule information : la couleur "ou la radiométrie"
    les métadonnées vont indiquer les coordonnées du pixel d'origine et la précision
    mnt = le pixel contient l'élévation

systèmes de coordonnées : "la planète c'est une sphère, il nous faut 3 axes" = origine/angle/élévation

  • premier niveau d'abstraction = géoïde (latitude/longitude/altitude)
  • 2e niveau = projection à plat (métrique)
    "dans un souci d'interopérabilité, on ost obligés d'échanger nos données dans le système Lambert93, c'est un système métrique"
    "par contre, les traces produites par vos GPS sont des données géographiques"
    "les cartes Google et OSM sont en 3857, c'est un système métrique"

bases de données : les données sont typées, "mais leur force c'est la relation entre les tableaux", "j'évite toute duplication de façon à ce que la donnée soit unique, ce qui me permet de la mettre à jour qu'une seule fois"

"on va faire un petit focus sur l'open data"

  • donnée = plus petit élément isolable, par ex. la température remontée par un capteur, ou le contenu saisi dans un champ de formulaire
  • information = interprétation de la donnée dans un contexte par une personne, "dire qu'l fait beau au Groenland ce n'est pas la même chose de dire qu'il faut beau ici"
  • document = combine les informations de façon pérenne, "un PDF en carte c'est un document"
    "mes informations, il faut qu'elles soient connues" : "on voit l'open data comme un levier de la transformation publique"

"les identifiants uniques mondiaux, ça on les trouve sur Wikidata essentiellement"
"il n'y a pas que les collectivités qui ont obligation de publier en open data" : toutes les délégations de service public depuis 2018
"on peut toujours agréger les données pour les rendre anonymisables"

l'ODbl est une licence copyleft, tandis que la LO est plus permissive

hors cours

Cf. Shulz 2021, cité dans le cours de Depoorter :

Open Database Licence (ODbL) – Cette licence issue du projet opendatacommons.org de l’Open Knowledge Foundation est largement utilisée dans le monde de l’open data. Elle autorise tout type d’utilisation (consultation, téléchargement, services commerciaux, etc.) à condition de maintenir la base de données (même modifiée) toujours ouverte et explicitement sous licence OdbL. C’est la raison pour laquelle on dit qu’elle est « contaminante ». Elle permet ainsi d’éviter tout type d’« enclosure » sur une base de données constituée ainsi en bien commun accessible à tous.
[...]
Licence Ouverte – Cette licence est la plus permissive de toutes puisqu’elle autorise n’importe quel usage des données, même la possibilité de les enclore et de les vendre, à la seule condition pour l’utilisateur d’en mentionner la paternité.

"le traitement jetable, il ne m'est jamais vraiment, quand on vous demande quelque chose on vous le redemande toujours plus tard, donc j'automatise"

"on va attaquer l'analyse thématique : ce à quoi sert un SIG"
"on fera les journées du patrimoines, les manifestations, les polluants de la région Sud"
"la doc est très bien faite"

TP

"on va d'abord changer les paramètres et l'ergonomie de QGIS"

  • paramétrer le SCR par défaut (pour les projets et les couches) sur EPSG:2154 (Lambert-93)
  • dans l'onglet Réseau, cocher "Utiliser un proxy pour l'accès Internet (DefaultProxy)"
  • dans l'onglet Général, cocher "Projet QGS enregistré en clair", "c'est facultatif mais c'est toujours intéressant de pouvoir regarder"
  • rajouter la barre d'outils "Gestion des couches"

encoding="UTF-8", "c'est la valeur système du langage"
le format shp sont multi-fichiers, "c'est un peu un standard de fait, c'est pas open source, il y a 2 limitations techniques : les noms de colonne ne peuvent pas dépasser 8 caractères, et les champs de texte 256"

reprojection à la volée : "il a recalculé les points pour les faire correspondre à notre système de projection"
catégorisation depuis une couche GeoJSON : "là on commence à faire parler nos données", "je pourrais rajouter un picto pour les écoles, un pour les gymnases..."
"par contre les taux de pollution, c'est pas intéressant de le faire sur une analyse catégorisante, surtout si vos données sont vivantes"
"ça peut être plus pertinent de baser l'indicateur de pollution sur la surface plutôt que le poids, ou d'utiliser une couleur plus neutre que le rouge qui a une connotation négative, tout ça c'est des choix"

jointure entre deux tables à l'aide d'une clé : "vous savez ce que c'est"
les données du CSV de l'INSEE sont mal typées, "toutes les colonnes sont des string"

les cartes, "toutes les cartes", contiennent toujours 6 informations :

  • la carte proprement dite
  • l'échelle, "plutôt graphique que numérique, sinon ça va sauter à l'impression"
  • le nord
  • "le logo de votre collectivité"
  • la date, "très important pour contextualiser"
  • la légende

"l'avantage du webservice c'est que c'est toujours à jour, c'est du streaming"
"mais il faut internaliser la donnée pour ne pas être dépendant du réseau, vous devez donc gérer la synchronisation avec le producteur"

"le WMS vous renvoie du raster, vous ne pourrez pas faire de symbologie dessus"

2 briques techniques pour le géocodage :

  • référentiel des adresses = base de données qui contient les coordonnées x/y de chaque adresse ("c'est un tableau excel"), l'adressage est une compétence communale
    BAN (base adresse nationale) = fusionne toutes les bases adresses des communes
  • algorithme de géocodage, "ça va influencer sur la qualité"