Cet article se veut pragmatique sur les questions essentielles au démarrage de la gouvernance de son datalake.
Rappel sur la gouvernance
l s’agit de la capacité à organiser, gérer et maîtriser la compréhension des données afin de les valoriser.
• quel est le parcours de la donnée ?
• quels processus de transformation sont en jeu ?
• quels sont leurs usages ?
• comment retrouver et accéder aux données ?
• comment évaluer leur qualité ?
Que se passe t-il si on ne gouverne pas ses données et ses traitements, ou comment éviter le marécage ?
• Au fil du temps, sont accumulées, modifiées et déplacées des données qui de part leur désorganisation latente les rendent non pertinentes et obsolètes
• La gouvernance apporte la fonctionnalité d’audit. Si on ne dispose pas de statistiques sur l’usage des données, on s’expose à un manque de contrôle sur des aspects tels que:◦ qui sont les utilisateurs (technique ou humain) manipulant les données ?
◦ quelles sont les opérations réalisées ainsi que leur fréquence ?
◦ quelles sont les données entrantes et sortantes ?
• Les calculs deviennent erronés: l’exactitude ou la précision des résultats sont remis en cause
• La consommation de l’espace disque du datalake s’accroît de manière exponentielle:
◦ on duplique plusieurs fois la donnée par rejoue d’une injection par exemple,
◦ par exécution de batch de calcul,
◦ par rattrapage
◦ par méconnaissance du patrimoine informationnel (il n’y a pas, nativement, de fonction de recherche performante dans le datalake)
• La consommation cpu et mémoire du datalake n’est pas optimisée:
◦ les demandes de traitements ne sont pas sous contrôle,
◦ les traitements ne sont pas ordonnancés ou orchestrés de manière appropriée,
◦ les calculs en mode interactifs et batch n’utilisent pas de ressources réservée
• La démotivation des équipes s’installe:
◦ métiers: le « Return Of Investment » n’est plus démontré et la qualité du service est dégradée: erreur, imprécision des résultats et indisponibilité du datalake
◦ run: les coûts des opérations partent à la hausse: support, maintenance, nettoyage et réorganisation des données deviennent récurrents
◦ build: l’équipe se trouve de moins en moins doter de budget pour moderniser les outils
• L’abandon du datalake et son financement sont à terme prononcés
Réponse à l’initialisation de la gouvernance du datalake.
Quand déclencher la gouvernance ?
• Lorsque le cycle de vie de la donnée devient quotidien sur l’une des opérations suivantes :
◦ Extract: injection des données depuis des sources diverses et variées
◦ Transform and Load
◦ Compute: batch, interactif et temps réel
◦ Export
• Lorsque les utilisateurs sont de différentes natures :
◦ l’usage intéractif: requêtes à la demande
◦ le mode batch: ordonnancement de traitement
◦ le temps réel: traitement sur un flux de données continu
Quelles sont les premières mesures à adopter ?
• Identifier et nommer un Chief Data Officer
◦ Se doter d’un chief data officer à plein temps ou pas selon le nombre de projet à suivre
◦ Obtenir son sponsoring par la DSI
◦ Impliquer ce CDO dans les meeting Agile
• Utiliser les outils appropriés
◦ Dans un premier temps, un dictionnaire des meta données dans une feuille Excel peut suffire
◦ Activer les fonctions de supervision et de métrologie
◦ Initier les politiques d’identification, d’autorisation et de permission
◦ Etablir un capacity planning
• Normaliser l’usage du datalake ; définir, partager et adopter une convention de nommage
◦ sur le cloisonnement des traitements: l’attribution et l’usage de file de ressource
◦ sur le cloisonnement ou le partage de certains jeu de données
◦ sur l’emplacement des données entrantes et sortantes
◦ sur l’emplacement des données temporaires
◦ sur l’emplacement des données brutes d’origine
◦ sur l’emplacement des fichiers exécutables des applications
◦ sur les permissions pour l’accès aux données
F. DORLEANS