You are currently viewing Data lake – Gouvernance

Data lake – Gouvernance

Cet article se veut pragmatique sur les questions essentielles au démarrage de la gouvernance de son datalake.

Rappel sur la gouvernance

l s’agit de la capacité à organiser, gérer et maîtriser la compréhension des données afin de les valoriser.

• quel est le parcours de la donnée ?
• quels processus de transformation sont en jeu ?
• quels sont leurs usages ?
• comment retrouver et accéder aux données ?
• comment évaluer leur qualité ?


Que se passe t-il si on ne gouverne pas ses données et ses traitements, ou comment éviter le marécage ?

• Au fil du temps, sont accumulées, modifiées et déplacées des données qui de part leur désorganisation latente les rendent non pertinentes et obsolètes

• La gouvernance apporte la fonctionnalité d’audit. Si on ne dispose pas de statistiques sur l’usage des données, on s’expose à un manque de contrôle sur des aspects tels que:◦ qui sont les utilisateurs (technique ou humain) manipulant les données ?

◦ quelles sont les opérations réalisées ainsi que leur fréquence ?
◦ quelles sont les données entrantes et sortantes ?

• Les calculs deviennent erronés: l’exactitude ou la précision des résultats sont remis en cause

• La consommation de l’espace disque du datalake s’accroît de manière exponentielle:

◦ on duplique plusieurs fois la donnée par rejoue d’une injection par exemple,
◦ par exécution de batch de calcul,
◦ par rattrapage
◦ par méconnaissance du patrimoine informationnel (il n’y a pas, nativement, de fonction de recherche performante dans le datalake)

• La consommation cpu et mémoire du datalake n’est pas optimisée:

◦ les demandes de traitements ne sont pas sous contrôle,
◦ les traitements ne sont pas ordonnancés ou orchestrés de manière appropriée,
◦ les calculs en mode interactifs et batch n’utilisent pas de ressources réservée

• La démotivation des équipes s’installe:

◦ métiers: le « Return Of Investment » n’est plus démontré et la qualité du service est dégradée: erreur, imprécision des résultats et indisponibilité du datalake
◦ run: les coûts des opérations partent à la hausse: support, maintenance, nettoyage et réorganisation des données deviennent récurrents
◦ build: l’équipe se trouve de moins en moins doter de budget pour moderniser les outils

• L’abandon du datalake et son financement sont à terme prononcés
Réponse à l’initialisation de la gouvernance du datalake.


Quand déclencher la gouvernance ?

• Lorsque le cycle de vie de la donnée devient quotidien sur l’une des opérations suivantes :

◦ Extract: injection des données depuis des sources diverses et variées
◦ Transform and Load
◦ Compute: batch, interactif et temps réel
◦ Export

• Lorsque les utilisateurs sont de différentes natures :

◦ l’usage intéractif: requêtes à la demande
◦ le mode batch: ordonnancement de traitement
◦ le temps réel: traitement sur un flux de données continu


Quelles sont les premières mesures à adopter ?

• Identifier et nommer un Chief Data Officer

◦ Se doter d’un chief data officer à plein temps ou pas selon le nombre de projet à suivre
◦ Obtenir son sponsoring par la DSI
◦ Impliquer ce CDO dans les meeting Agile

• Utiliser les outils appropriés

◦ Dans un premier temps, un dictionnaire des meta données dans une feuille Excel peut suffire
◦ Activer les fonctions de supervision et de métrologie
◦ Initier les politiques d’identification, d’autorisation et de permission
◦ Etablir un capacity planning

• Normaliser l’usage du datalake ; définir, partager et adopter une convention de nommage

◦ sur le cloisonnement des traitements: l’attribution et l’usage de file de ressource
◦ sur le cloisonnement ou le partage de certains jeu de données
◦ sur l’emplacement des données entrantes et sortantes
◦ sur l’emplacement des données temporaires
◦ sur l’emplacement des données brutes d’origine
◦ sur l’emplacement des fichiers exécutables des applications
◦ sur les permissions pour l’accès aux données

F. DORLEANS