Après avoir accompagné des dizaines d’entreprises dans la mise en place de stacks Data ou dans l’amélioration de leurs pipelines de données, j’ai pu observer un problème très récurrent chez elles : la difficulté à maintenir une bonne qualité de données.
Le scénario est souvent similaire : les entreprises mettent en place de bons outils pour extraire, transformer, stocker et visualiser les données. Elles font évoluer ces outils en fonction des besoins métier sans cesse grandissants, et leurs projets dbt deviennent très conséquents. Elles observent de plus en plus de signes d’une mauvaise qualité de données, que je décris ci-dessous, et se retrouvent avec une pipeline de données très difficile à maintenir et à faire évoluer.
Dans cet article, je vous expose les différents problèmes qu’une mauvaise qualité de données peut entraîner pour votre entreprise.
Qu’entend-on par mauvaise qualité de données ?
Avant de parler de ses conséquences, précisons ce qu’est la Data Quality et quelles étapes du flux de données sont concernées par cette problématique.
Quand on parle de la qualité des données, on fait référence à la fiabilité, l’exhaustivité et la précision des données rapportées (source : Data Quality Fundamentals).
Cela intervient à toutes les étapes du flux de données : s’assurer de la qualité des données collectées lors de l’ingestion, maintenir cette qualité lors de la transformation et également garantir la bonne interprétation de ces données lors de la phase d’analyse.
La Data Quality est un terme peut-être moins « sexy » que le Machine Learning, la Data Science ou encore les IA génératives, mais c’est pourtant un prérequis indispensable pour mener à bien des projets peut-être plus tendances.
Les nombreuses conséquences d’une mauvaise qualité de données
1. Mauvaises prises de décisions
C’est la première conséquence qui nous vient à l’esprit. En effet, tout le travail effectué dans nos pipelines de données vise à répondre à un besoin métier. Les utilisateurs finaux vont donc prendre des décisions basées sur les données que vous leur fournissez. Une mauvaise qualité de données entraînera des analyses et des dashboards erronés, ce qui conduira à de mauvaises prises de décision.
L’exemple le plus marquant que j’ai rencontré chez l’un des clients que j’accompagnais concernait des chiffres de commandes erronés car une source de données n’était plus alimentée depuis plusieurs jours. Ces chiffres servaient à prédire les commandes futures et donc à planifier le réapprovisionnement. Le réassort a été sous-évalué et la rupture de stock a été immédiate, entraînant un manque à gagner énorme pour l’entreprise.
2. Perte de confiance des équipes métiers
Dans les entreprises sans stratégie claire pour maintenir une bonne qualité de données, ce sont souvent les utilisateurs métiers qui détectent les problèmes en premier. Voir le responsable des acquisitions s’étonner des chiffres communiqués, car ils diffèrent de ceux affichés dans GA, est un exemple courant.
Cette situation est dramatique car la confiance des équipes métiers est ébranlée et est très longue à reconstruire. Et cet utilisateur final qui perd confiance dans les données peut se mettre à chercher ses informations ailleurs ou à retravailler ce que vous lui communiquez, rendant presque tout votre travail en amont vain.
3. Augmentation du time-to-insight
Le doute peut exister chez les équipes métiers mais également au sein de l’équipe Data. Le Data Analyst qui commence à douter de la fiabilité des données qu’il manipule va poser de nombreuses questions aux Data Engineers. Ces nombreux allers-retours ralentissent les réponses fournies aux équipes métier.
J’ai occupé le poste de Data Analyst en début de carrière et je savais pertinemment que les données que je manipulais n’étaient pas fiables. Je n’avais aucune confiance en elles sans pouvoir réellement pouvoir avoir un impact sur leur qualité. Il fallait tout de même que je fournisse des analyses, je vérifiais mes chiffres du mieux que je pouvais et même plus que de raison à cause de ce manque de confiance. Je peux vous garantir que dans ce contexte, chaque envoi d’analyse était accompagné d’une goutte de sueur …
Augmentation du Time-to-Insight
4. Baisse de moral dans les équipes Data
J’ai observé que dans les entreprises confrontées aux problèmes ci-dessus, le moral de l’équipe Data peut rapidement décliner, créant un cercle vicieux : les équipes métier perdent confiance dans les données, ce qui augmente le temps de réponse à leurs questions → les équipes Data commencent à douter des données qu’elles manipulent et se demandent si leur travail a un sens, car les équipes métiers n’utilisent plus les analyses fournies.
Cela provoque une baisse de moral de l’équipe Data, qui est alors moins motivée à fournir des analyses efficaces, à maintenir et faire évoluer le pipeline de données. Pourtant, il faut beaucoup de motivation pour mettre en place des pratiques qui permettent de maintenir une bonne qualité de données.
5. Insatisfaction des clients
Vous vous rappelez de l’entreprise avec le problème de commandes. Ils ont rencontré un autre gros problème lié à la qualité des données : une mauvaise jointure entre la table des désabonnements et la table des clients. L’équipe Customer Success, qui exportait cette liste chaque matin pour appeler les clients désabonnés, contactait des clients qui n’étaient pas du tout désabonnés, provoquant leur mécontentement et, dans certains cas, ces clients en profitaient pour réellement se désabonner.
Oui, le chantier chez ce client était conséquent …
6. Risques légaux
Les entreprises évoluant dans des secteurs fortement réglementés (santé, finance, …) ont une obligation légale de maintenir une bonne qualité de données. Par exemple, chez General Electric Healthcare, où je travaillais sur l’élaboration de dashboards exploitant les données d’appareils médicaux, tout était très contrôlé en raison de l’impact potentiel sur les patients. Chaque modification devait être validée par deux managers, et un document devait être signé et conservé dans un coffre-fort de l’entreprise pour être consultable en cas de problème.
Bien que je ne conseille pas nécessairement d’adopter des mesures aussi strictes (car elles ralentissaient énormément les développements), il est judicieux de s’inspirer des pratiques légales de certaines de ces entreprises pour élaborer une stratégie de Data Quality efficace.
De grosses pertes financières
Beaucoup de ces conséquences entraînent une répercussion finale sur les finances :
- Mauvaise prise de décision → manque à gagner dû à des erreurs ou des opportunités qui n’ont pas été identifiées.
- Perte de confiance des équipes métiers → coûts accrus pour vérification et manipulation des données.
- Baisse de moral dans les équipes Data → diminution de l’efficacité et augmentation du turnover.
- Insatisfaction des clients → clients qui partent ou qui consomment moins.
- Risques légaux → amendes et sanctions pénales.
- etc.
Quelles solutions ?
Pour éviter ces nombreuses conséquences, il est crucial d’établir une solide stratégie de Data Quality au sein de votre entreprise. Plus tôt vous commencez, mieux c’est : plus un projet Data est développé, plus le travail pour rectifier le tir sera important !
Les origines d’une mauvaise qualité de données pouvant être très variées, les solutions à mettre en place sont nombreuses. Je détaillerai ces solutions dans un article futur.
Si vous souhaitez d’ores et déjà discuter de ce sujet avec moi pour commencer à orienter votre stratégie, n’hésitez pas à me contacter.