Avant toute analyse de données en vue de créer un modèle prédictif, il faut s’assurer de la qualité des données disponibles. Cette étape primordiale est malheureusement le plus souvent reléguée en second plan, car jugée trop longue à mettre en place, trop coûteuse. Or les conséquences des prises de décisions reposant sur des études et modèles basés sur des données de mauvaises qualités peuvent être désastreuses.
Dans ce billet, nous allons décrire ce que signifie la qualité des données et la mise en place de cette chaîne de traitement spécifique.
1. Théorie
La qualité d’un jeu de données peut être représentée par différentes notions, dépendant fortement du besoin métier.
Toutefois 5 grandes notions sont communes à de nombreux jeux de données et besoins :
• La complétude : la quantité de données recueillie doit correspondre à la quantité théorique attendue
• L’unicité : la donnée recueillie doit être unique (inexistence de doublons)
• L’exactitude : la valeur de la donnée doit être correcte
• La cohérence : les données recueillies doivent suivre les règles définies par les besoins métiers (inexistence de données farfelues, contradictoires entre deux bases de données …)
• La fraicheur : les données recueillies doivent être les plus à jour possible
Ces notions sont interdépendantes. En effet, un problème de complétude ou d’exactitude peut provenir d’un problème de fraicheur ou lorsqu’on résout un problème de fraicheur cela peut altérer l’unicité ou la cohérence du jeu de données.
2. Stratégie sur la qualité
Une stratégie sur la qualité des données doit être définie avec les experts métiers afin de correspondre aux besoins métiers et répondre aux questions impliquées par les notions présentées précédemment : quel niveau de complétude a-t-on besoin ? Quelle est l’intervalle de confiance autour de l’exactitude de la valeur ? Quelle fraicheur de la donnée est nécessaire ?
Afin d’aider à définir cette stratégie, une exploration des données est nécessaire, accompagnée d’une analyse statistique minimale : calcul des valeurs extrêmes, moyennes, écart-type, occurrence…. De cette exploration, un rapport détaillé sur l’état du jeu de données est transmis aux experts métiers.
Une fois les règles de qualité définie en accord avec les experts métiers et leurs besoins, une automatisation du contrôle qualité est mise en place dans le but de ne conserver et de ne travailler qu’avec les données qui auront respecté les règles de qualité mises en place.
3. Suivi de la qualité
Les contrôles automatiques présentent également l’avantage de pouvoir faire un suivi de la qualité générale des jeux de données et de pouvoir remonter facilement sur un certain type de faille. Ce suivi des chaînes de contrôles qualité est aussi important, car, au fil du temps, les règles définies précédemment peuvent être amenées à évoluer selon les besoins métiers ou l’évolution de la donnée.
Conclusion
A l’heure du Big Data, l’existence de données de médiocres devient un enjeu, car elles sont de plus en plus difficiles à détecter dans le flux conséquent de données. Un contrôle des données, minimal soit-il, doit être effectué au plus tôt, juste après la collecte des données. Une fois la stratégie qualité et le contrôle automatique mis en place, les bénéfices sont indéniables sur les études et modèles prédictifs.
E. LORANT