Le déploiement d’une stratégie de qualité des données
Avec l’essor de l’IA GénérativeQu'est-ce que l'IA générative ? L'IA générative (intelligence artificielle générative) est une sous-branche de l'intelligence artificielle qui se concentre sur la création de nouveaux contenus, que ce soit des textes, des images, des vidéos ou d'autres formats, à partir des données d'entra... More, la gouvernance des données, suscite un regain d’intérêt significatif chez les entreprises.
En permettant de garantir de manière durable l’intégrité, la fiabilité et la pertinence des informations utilisées dans la prise de décision et le pilotage data de la performance, la qualité des données est devenue un des piliers centraux de la gouvernance des données.
Les fondations d’une qualité durable
Pour toute entreprise, instaurer une culture axée sur le suivi de la qualité des données est un élément fondamental. Cela implique la mise en place de standards, d’une structure organisationnelle, de procédures et de règles de contrôle des données, le tout soutenu par une ou plusieurs solutions techniques spécifiques, validées par les équipes Data (incluant la Data GouvernanceQu’est-ce la Gouvernance Data (Data Governance) ? La Gouvernance Data, également appelée Gouvernance des données, définit l'ensemble des normes et processus internes mises en œuvre pour assurer l’organisation, la disponibilité, la qualité, la mesure, l’exploitation, l’accessibilité, ... More) et IT.
Parmi les thèmes importants à considérer, on peut citer :
- Le périmètre : Définir et établir une feuille de route des actifs de données (domaines de données partiels et/ou complets) à couvrir par ordre de priorité en matière de qualité des données, en fonction de leur criticité fonctionnelle et technique (continuité de service et sécurité).
- Les équipes et responsabilités : Identifier les acteurs techniques, Data et Business impliqués, avec leurs rôles et responsabilités respectifs sur le déploiement et le maintien de la politique de qualité des données, en accord avec les exigences stratégiques et business de l’entreprise.
- Les sponsors : Obtenir le soutien de sponsors au niveau de la direction (CODIR) pour appuyer la stratégie de qualité des données définie et assurer son déploiement.
- Les standards de données : Définir et déployer des standards sur la structuration, les formats et les nomenclatures des métadonnées afin d’unifier et optimiser la collecte, la fiabilité, la qualité, l’analyse et l’appropriation des données.
- Le cycle de vie des données : Établir des processus de collecte, de contrôle, de validation, de transformation et de stockage des données pour garantir leur conformité aux attentes de l’entreprise (exploitation, sécurité…) et aux réglementations en vigueur. Adapter les processus en fonction du type de remontée des données (données froides via batchs et données chaudes en streaming continu) afin de maîtriser l’aspect technique et les coûts induits par une surconsommation des contrôles. Suivre le parcours de vie des données pour identifier les éventuelles incohérences et/ou anomalies survenant dans la chaîne de valeur.
- L’accessibilité : Définir et appliquer des processus d’accessibilité des données pour limiter les accès et garantir la sécurité et la fiabilité des données en termes de consommation et d’écriture.
- Les contrôles de saisie : Valider les données dès leur ingestion dans les systèmes pour détecter et corriger les erreurs potentielles avant traitement (utilisation pour la construction de KPIs techniques et business) et mise à disposition des équipes métiers.
- La catégorisation des anomalies : Définir les typologies d’erreurs susceptibles de survenir pour faciliter leur classification, leur suivi et correction. On parle généralement de dimensions de qualité des données (Data Quality Dimensions) basées sur des définitions validées par les interlocuteurs Data & IT pour catégoriser ces anomalies.Exemples de Dimensions de Qualité des Données :
-
- La complétude : Vérification de la présence de toutes les données requises (valeurs, attributs, etc.).
- La fraîcheur : Vérification de la mise à disposition des données dans les délais d’exploitation souhaités.
- La précision : Vérification de la conformité / crédibilité des données par rapport au monde réel qu’elles représentent.
- L’unicité : Vérification de la présence unique des données / enregistrements.
- La validité : Vérification de la cohérence des valeurs des données par rapport à leurs définitions, formats, valeurs et règles de gestion.
- La consistance : Vérification de la cohérence / conformité des données entre différentes sources.
- Le volume : Vérification de la conformité et l’intégrité des volumes de données sur une période donnée.
- La solution de Data Quality (monitoring et alerting data) :
- Identifier une solution de qualité des données à déployer de manière collaborative avec les acteurs impliqués, en fonction des besoins et fonctionnalités attendus, des opportunités et contraintes techniques (bonne intégration dans l’écosystème IT et Data) et des coûts de déploiement et d’exploitation.
Exemples de solutions : Dataplex de Google, Sifflet, Talend Data Fabric, CastorDoc.
- Déployer la solution conformément aux équipes et à la matrice RACI définie.
- Définir et déployer les contrôles de qualité des données en fonction des priorités des métiers et des équipes Data Gouvernance, Data et IT, en tenant compte des coûts liés au suivi de la qualité des données.
- Identifier une solution de qualité des données à déployer de manière collaborative avec les acteurs impliqués, en fonction des besoins et fonctionnalités attendus, des opportunités et contraintes techniques (bonne intégration dans l’écosystème IT et Data) et des coûts de déploiement et d’exploitation.
Le maintien de la qualité des données dans le temps
Une fois les bases de la qualité des données établies, un suivi régulier et des actions continues sont indispensables car la qualité des données n’est pas statique.
Elle peut se détériorer avec le temps en raison de divers facteurs, tels que :
- Le manque d’adhésion des équipes : Cela peut se traduire par un manque de soutien de la direction, un manque d’intérêt (dû à une absence de visibilité sur les bénéfices ou le retour sur investissement), un manque d’expertise, un manque de temps ou bien un découpage de l’expertise (ex : data qualité) dans différentes équipes entraînant des difficultés sur l’unification, les rôles et responsabilités.
- L’évolutions des processus : Des changements organisationnels, techniques ou métiers peuvent impacter la charge de travail associée au suivi de la qualité des données ou générer de nouveaux problèmes.
- Les mises à jour des systèmes : Les mises à jour peuvent causer des problèmes sur l’ingestion ou les flux de données.
- Les erreurs humaines : Des erreurs humaines peuvent toujours survenir (ex : saisie incorrecte ou mauvaise interprétation des données).
- L’évolution du périmètre : Un périmètre qui évolue peut nécessiter des contrôles supplémentaires (ajout de nouvelles fonctionnalités, de nouveaux indicateurs métiers, etc.).
Un suivi continu comprenant les actions suivantes est essentiel :
- Le suivi, l’évolution et l’ajout de nouveaux contrôles de qualité : Définir et prioriser les actions liées aux règles de contrôle de la qualité des données en fonction des priorités entreprise (sujets des différentes équipes) et des points critiques identifiés.
- La mise en place d’indicateurs de qualité : Définir des métriques clés pour mesurer la qualité des données (par exemple, le taux d’erreurs acceptable, le taux de complétion, la fraîcheur attendue des données, le format des données accepté, les seuils de données, etc.).
- La réduction des erreurs et des incohérences : Améliorer la fiabilité des données et éviter de prendre des décisions basées sur des informations erronées.
- L’automatisation des contrôles de qualité : Utiliser des outils et des tableaux de bord pour surveiller en permanence la qualité des données et détecter les anomalies, tout en mettant en place une gestion des niveaux d’alerte pour les acteurs clés.
- La mise en place de processus de correction : Définir et s’appuyer sur un plan de remédiation pour cibler les actions à entreprendre en cas de détection d’erreurs ou d’incohérences (acteurs à prévenir, création d’un ticket de résolution d’incident, etc.).
- Les règles proactives : Mettre en place des règles proactives de suivi de la qualité des données basées sur les incidents constatés et les connaissances techniques, data ou métier pour limiter la récurrence des incidents et éviter ainsi de se concentrer uniquement sur une gestion curative.
- Le maintien d’un niveau de qualité élevé : Assurer la fiabilité des informations utilisées pour la prise de décision et le suivi de la performance, tout en renforçant l’adhésion des équipes.
- L’amélioration continue des processus : L’analyse des données de qualité permet d’identifier les axes d’amélioration et d’optimiser les processus de gestion des données.
- La remédiation : Gérer les incidents déclarés pour optimiser le délai de résolution, assurer la communication avec les métiers et les équipes data, et démontrer la valeur du suivi de la qualité des données.
- L’accessibilité : Mettre à disposition des équipes les outils adéquats (adaptés aux profils cibles : techniques, métiers, data) pour le suivi de la qualité des données (tableaux de bord, rapports, etc.). Ajouter le niveau de qualité des données dans les outils de gestion des connaissances (data catalog, outils de partage d’informations type Confluence, etc.) pour élargir l’accessibilité à ces informations.
- La communication : Communiquer auprès des acteurs clés de l’entreprise sur les avancements, retours d’expérience et les gains incombants à la stratégie de qualité des données déployée.
Les bénéfices du suivi de la qualité des données
La configuration et le suivi de la qualité des données ont des répercussions positives sur tous les aspects de la gestion des données de l’entreprise et du suivi de la performance commerciale.
Le suivi de la qualité des données permet notamment :
- D’éviter les biais statistiques
- De pendre des décisions éclairées et anticiper les tendances du marché
- De mesurer la performance de l’entreprise en temps réel et réagir rapidement aux changements
- De réduire les risques et le coût lié à la sécurité, à la conformité réglementaire, à la perte et au vol d’informations
- De renforcer la confiance et la satisfaction des clients par une meilleure connaissance de leur profil (par exemple, en proposant des produits adaptés à leurs parcours clients précédents)
- D’optimiser la productivité et réduire les coûts humains en limitant les tâches liées à la résolution d’incidents
- D’identifier les zones et les points d’anomalies pour les corriger et éviter leur récurrence (gestion proactive des incidents)
- D’accroître la confiance, la satisfaction et la connaissance des métiers concernant les données pour optimiser leur travail quotidien et développer des automatismes pour le contrôle des données avant l’analyse
- D’augmenter le nombre d’utilisateurs des données (consultation de tableaux de bord, demande et/ou réalisation d’analyses)
- D’identifier les axes d’optimisation de l’expérience client (par exemple, une remontée anormale d’un genre dans les bases de données suite à une erreur sur le formulaire de création de compte)
- De s’assurer de la qualité des données utilisées par les algorithmes pour éviter les problèmes de profilage
- De s’assurer de la qualité des données utilisées par l’IA au sens large pour proposer des résultats adaptés aux utilisateurs (par exemple, lors de la recherche de conseils sur les produits)
En conclusion, le suivi continu de la qualité des données est un investissement essentiel pour toute entreprise souhaitant tirer pleinement parti de ses données et optimiser sa performance. Ces contrôles permettent de garantir l’intégrité, la fiabilité et la pertinence des informations ; éléments cruciaux pour une prise de décision éclairée, un suivi de la performance efficace et une gestion des données maîtrisée.
Vous souhaitez en savoir plus sur ce projet ou sur d’autres exploitations des données à forte valeur ajoutée conduites par AVISIA, contactez-nous via le formulaire de mise en relation du site.
Ressources
Vous pouvez également vous référer aux articles AVISIA ci-dessous pour obtenir des informations sur nos expertises Data Gouvernance et Data IA :
- Utilisez la GEN AI pour mettre la Business Intelligence en self service dans votre entreprise
- GEN AI : AVISIA accompagne le Club Med
- Data Governance : construire une stratégie alliant conformité et performance
- La Data Gouvernance et l’IA Générative au service de la Business Intelligence
Contact
Si cet article vous intéresse et que vous vous posez des questions sur ce sujet, n’hésitez pas à nous contacter ici.
Articles en lien
Data contact