Analyse en ligne (OLAP) et visualisation

Noé Cécillon

Moodle : https://e-uapv2023.univ-avignon.fr/course/view.php?id=5322

"je vais vous montrer comment visualiser des choses intéressantes à partir des données"
"cette séance je vais parler moi, les suivantes ce sera à vous d'appliquer"

analyse en ligne : "c'est vraiment pas la partie principale du cours"

OLAP = Online Analytical Processing, "bien orienté commercial"
en général, les organismes commerciaux sont capables de collecter énormément de données -> une fois ces données collectées, il faut pouvoir "en tirer des choses bénéfiques" (tendances, informations...)

l'OLAP est orienté analyse multidimensionnelle : données numériques, textuelles, spatiales... "souvent on les représente sous la forme d'un cube"
"c'est plutôt complexe à traiter" : l'objectif des systèmes d'OLAP est d'optimiser leur stockage ("beaucoup plus que les bases relationnelles"), leur exploration...

étapes :

  • collecte de données : à partir d'une ou plusieurs sources
  • stockage : dans un data warehouse
  • rassembler et organiser : sous forme de cube OLAP afin de privilégier la vitesse de traitement
    "les deux premières étapes, on ne va pas trop s'y intéresser ici"

en formatant les données en cube, on va pouvoir les découper et ne garder que certains éléments, "mettre des filtres en quelque sorte"
un cube est composé de couches ajoutant chacune des dimensions supplémentaires

techniques d'analyse : "je vous cite les 3 plus populaires"

  • drill-down : partir d'un élément général et affiner vers un élément spécifique (pays -> ville)
  • roll-up : remonter dans les couches en agrégeant les données pour former l'élément au-dessus (jour -> semaine)
  • slicing : découper une tranche du cube pour mettre une sous-dimension en évidence

Elastic Stack (ELK) : Beats, Logstash, Elasticsearch, Kibana
"on va principalement se concentrer sur Kibana" :

  • greffon d'Elasticsearch, "ce n'est pas un standalone"
  • "on va avoir tout un tas de graphiques" (camemberts, histogrammes, cartes géographiques...)
  • fonctionnalités : rapports, tableaux de bord interactifs, temps réel, agrégation, filtres
TP 1
TP 2
  • "vous allez analyser ces données et tirer les conclusion que vous pouvez tirer là-dedans"
  • un rapport écrit par groupe