Data Fair

Version 3.88.7

Technical architecture

19 février 2024

1 - Introduction

L'architecture technique retenue est une plateforme composée de différents services web. La plupart de ces services sont open source et décrits ici, mais certaines extensions peuvent être disponibles sous la forme de services distants propriétaires :

Data Fair, le coeur de la solution : indexer, « APIfier », enrichir et partager facilement ses données ;
Simple Directory : se connecter au portail et gérer les comptes ;
Data Fair Portal : créer facilement plusieurs portails de données, pour du partage en open data ou en interne ;
Les connecteurs de catalogues : se synchroniser avec d'autres catalogues de données, dans les deux sens ;
Data Fair Processings : programmer des traitements périodiques pour mettre à jour les données et récolter les données issues de l’IOT ;
Notify : gérer les alertes et les notifications ;
Les analytics : peuvent être gérés directement dans la plateforme à l'aide de Matomo ;
Capture : créer les miniatures et les captures d’images des visualisations ;
Thumbor : permet les traitement des images des jeux de données ;
Backup : gérer les sauvegardes de la plateforme ;
Les services distants ne sont pas développés dans ce projet : ce sont des applications web développées et déployées de manière autonome qui respectent les règles d’interopérabilité d’OpenAPI 3.0 avec Data Fair. Ils sont disponibles sous forme d'extensions ;
Les visualisations de données : certaines sont open source, d'autres propriétaires (extensions en libre accès ou nécessitant un abonnement). Chaque application de base peut être utilisée autant de fois que désiré pour valoriser différents jeux de données. Data Fair permet de stocker et éditer les différents paramètres d'une même application de base.

Architecture technique complète

Catalogue de données

Authentification

Le mécanisme d'authentification utilisé pour sécuriser les API des différents service est le JWT (JSON Web Token). La sécurité repose sur des mécanismes de cryptograhie asymétrique (RSA). La session utilisateur est maintenue côté client, ce qui permet d'avoir un back-end sans état, et donc scalable. Le back-end n'émet pas de JWT : il doit donc être relié à un annuaire Simple Directory qui en émet. Le lien vers cet annuaire permet de télécharger sa clé publique pour ensuite vérifier que les JWT reçus sont valides.

Déploiement

Les différents services sont livrés avec Docker. Nous recommandons de les déployer et de les opérer dans un environnement tel que Kubernetes.

Il est possible de déployer ces différents services à l'aide de Docker Compose également. Cela permet de démarrer plus rapidement et est particulièrement adapté pour un déploiement en local pour tester la plateforme ou développer des extensions pour celle-ci.

Pour plus de détails, vous pouvez consulter la documentation d'installation.

Licences

Les différents services sont open source, avec comme licence l'AGPL v3, qui est une licence copyleft : tous ceux mettant le service à disposition d'autres utilisateurs doivent partager les éventuelles améliorations qu'ils y apporteraient. Nous avons choisi de rendre ces services open source pour deux raisons : pour partager des données open data, il nous paraît naturel d'utiliser un service open source, et quel que soit le type de données, l'ouverture du code offre des garanties de sécurité et de pérennité qui permet aux organisations de déployer ces services sur leurs propres serveurs en toute sérénité.

2 - Data Fair

Data Fair permet d'exposer facilement ses données via une API web, contractualisée et documentée, ce qui permet aux développeurs de les réutiliser facilement dans leurs applications. De plus les données peuvent être sémantisées, ce qui permet ensuite de les enrichir avec d'autres données sémantisées. Ainsi, des données qui ont une adresse peuvent par exemple être complétées par des coordonnées GPS, ce qui permet ensuite de les afficher sur une carte.

Le coeur de la solution permet

d’indexer des données
d’Apifier des données
d’enrichir des données
de partager des données
de configurer les visualisations
de gérer les droits d’accès aux données et aux visualisations (publication)

Cette page présente brièvement les langages de programmation, services et outils utilisés pour réaliser ce projet. Pour les développeurs vous pouvez consulter directement le README et le code source sur github.

Backend

Le backend sert l'application cliente (frontend) et l'API. Le frontend est une application Web dynamique avec un rendu côté serveur partiel et un rendu final côté client en Javascript.

Persistance

Ce service utilise 3 types de persistance : fichier, base de données et moteur de recherche.

La persistance fichier est utilisée pour stocker les jeux de données des utilisateurs : les fichiers sont stockés tels quels sur le système de fichier et sont ensuite analysés puis indexés.

Les informations sur les jeux de données, les services distants et les configurations d'applications sont stockées dans une base de données MongoDB, qui est une base NoSQL open source orientée documents. Les jeux de données incrémentaux sont également stockés dans cette base.

Les datasets sont indexés dans un moteur de recherche open source ElasticSearch. Très performant et puissant il permet de faire des recherches textuelles et des agrégations pour des temps de réponse irréprochables.

Front end

L'interface du service est une applications Web (HTML/CSS/JS).

Le framework Javascript utilisé est VueJS 2 complété principalement par Nuxt et Vuetify. Le tout forme un environnement très complet pour développer des interfaces graphiques dynamiques et claires. La documentation sur cet écosystème est bien fournie et de qualité. Ce n'est pas pour rien que VueJS fait partie des projets Github les plus populaires.

Code source

Le code du backend est écrit en NodeJS, en respectant la syntaxe ES7. Le code utilise donc massivement les promesses, cachées derrières des mots clés comme async ou await. Cela permet d'avoir du code clair, concis et facilement compréhensible, tout en étant très performant grâce à une gestion non bloquante des opérations asynchrones.

Un autre aspect de NodeJS est très utilisé dans ce projet : la gestion d'opérations en flux (streams). Cela permet de réaliser des traitements sur des volumes importants sans abuser des ressources de la machine. Ce service demande donc peu de mémoire vive pour fonctionner (mais il en faudra par contre une bonne quantité pour ElasticSearch).

Le serveur web et l'API sont écrits avec le framework express 4 qui est utilisé dans de nombreux projets Web NodeJS. Les briques fonctionnelles sont séparées dans des router Express, qui permettent par exemple de définir les opérations autour d'un certain concept.

Data Fair

Version 3.88.7

Technical architecture

19 février 2024

Table of contents

1 - Introduction

Architecture technique complète

Authentification

Déploiement

Licences

2 - Data Fair

Backend

Persistance

Front end

Code source

3 - Simple Directory

Gestion de session décentralisée

Connection des utilisateurs

Stack technique

4 - Data Fair Portal

Stack technique

5 - Connecteurs de catalogues

6 - Data Fair Processings

Stack technique

7 - Notify

Stack technique

8 - Analytics

Matomo

9 - Capture

Stack technique

10 - Thumbor

11 - Backup

Stack technique

12 - Statistiques d'API