Chantier Data Quality : avoir une bonne base en 4 étapes

La data, c’est de l’or pur. Mais pour obtenir (et exploiter) ce matériau noble, il faut pouvoir l’isoler du minerai brut ! C’est tout l’enjeu de la Data Quality. Indispensable pour asseoir votre projet de Marketing Automation sur des bases solides, ce chantier Data Quality en 4 étapes vous permettra d’assainir vos données et de mettre en place les bonnes pratiques pour une culture Data Quality pérenne au sein de toute votre entreprise.

Replay webinar Data Quality
Les enjeux de la Data Quality
- Les deux faces de la Data Quality
#1 Première étape du chantier Data Quality : l’audit de la base
#2 Deuxième étape : le cleaning de base de données
#3 Troisième étape : import (ou réimport) de la base
#4 Quatrième étape : la pérennisation de la Data Quality
- Les 7 dimensions de la culture Data Quality

Les 4 temps du chantier Data Quality

Un chantier Data Quality se déroule en 4 étapes :

L’audit de la base
Le nettoyage des données
L’import ou le réimport des données dans l’outil (CRM ou Marketing Automation)
La pérennisation de la Data Quality

Pas le temps de lire tout l’article ? Téléchargez le PDF !

Replay webinar Data Quality

Avant de commencer, vous pouvez aussi vous familiariser avec le chantier de cleaning en regardant le replay de notre webinar Data Quality :

Lire cette vidéo sur YouTube

Les enjeux de la Data Quality : travailler des bases de données saines

Les données, c’est le nerf de la guerre du marketing. Avoir des données propres, c’est un beau pléonasme. Des données, ce sont forcément des données propres. Sinon, il s’agit juste de bouts d’informations inutilisables (aka une donnée brute non raffinée).

Les deux faces de la Data Quality

La Data Quality désigne – comme son nom l’indique, certes – la qualité de vos données. Mais on l’emploie aussi pour nommer l’ensemble des actions à mettre en place pour assurer la pureté de votre base de contacts.

Lorsqu’on met en place – avec un peu de rigueur – un logiciel de marketing automation, nous avons besoin de nous pencher sur la qualité de la base de données que l’on y importera. La base de contacts (ou les bases) est ainsi constituée par un empilement de contacts de millésimes, de qualités, de provenances, de niveaux de détails… parfois très variés, avec un mix d’achats de fichiers, de constitution « à la main » par les commerciaux, d’imports d’autres systèmes, de fichiers Excel, de piles de cartes de visite, de fiches remplies sur des salons et / ou événements, de bouts de mémoire du DirCo (véridique !).

Bref, c’est un ensemble de données hétérogène où il y a – dans le pire des cas – parfois pas mal de data inexploitable ! Homogènes, complètes, récentes, exhaustives… Eh oui, il faut que vos bases respectent le R·O·C·H·E·R de la Data Quality – ces 6 critères qui caractérisent la donnée de qualité.

#1 Première étape du chantier Data Quality : l’audit de la base

Phase 1 : le contrôle complétion

Pour s’assurer de ne travailler qu’avec des données de qualité, un peu de ménage s’impose ! Le nettoyage de données consiste à retirer les doublons, les données mal rentrées, pas harmonisées et les informations inutilisables. Mais pour s’en débarrasser, encore faut-il les identifier. C’est pour cela que l’on mène en premier lieu une analyse de la complétion de la base en quatre étapes, pour :

Contrôler que tous les contacts aient un email
Identifier les données inutilisables et obsolètes
Vérifier que la nomenclature des propriétés respecte les prérequis pour une éventuelle migration entre deux CRM ou un import de base
Identifier des propriétés différentes qui peuvent être regroupées en une seule. Le but : faciliter les automations et les workflows pendant la phase opérationnelle

Phase 2 : le rapport d’analyse

Le rapport d’analyse met en exergue des points de vigilance nécessitant une correction et / ou un enrichissement dans la base. Ce rapport permet de définir la structure générale du nettoyage de données, selon plusieurs points :

Listing des informations dites obsolètes
Recherche et correction des doublons
Amélioration et adaptation des sources d’alimentation des données
Validation des données
Nettoyage des données (data cleaning)
Assainissement des données (data cleansing)

data cleaning — Un extrait du rapport d’analyse

Phase 3 : le plan d’action Data Quality

L’audit Data Quality permet de concevoir un document de préconisations. Ce rapport définit un plan d’action en deux phases :

Définition d’un ensemble robuste et complet de règles de cleaning des données. Les modèles de données (ou data model) sont les clés de l’élaboration de règles de Data Cleaning.
Validation des règles et définition des prérequis pour chaque source existante et pour celles à venir. Le but : éviter d’avoir une base de données de nouveau polluée en favorisant l’hygiène Data Quality. Une fois définies et validées, les règles sont intégrées dans le processus d’alimentation et de création de la donnée.

#2 Deuxième étape : le cleaning de base de données

1/ Le dédoublonnage de données

Le premier pas dans le cleaning d’une base de données ? C’est le dédoublonnage, ou déduplication, qui consiste à partir à la chasse aux données présentes en double dans une même base… et à les supprimer pour n’en conserver qu’une. Une base de données dénuée de doublon a déjà gagné en propreté.

Cette étape de dédoublonnage est maintenant traitée par défaut lors des phases d’enrichissement. Elle s’est beaucoup automatisée dernièrement, avec des outils tels que :

DropContact, le français qui monte, qui monte, et qui s’intègre directement dans votre Salesforce, HubSpot ou Pipedrive
FullContact ou ClearBit (qui fait un peu office de leader de la bande)
Quelques autres fournisseurs de services de cleaning et d’enrichissement : Insycle (multi-plateforme avec HubSpot, Salesforce, Zendesk, Intercom, Marketo…), RingLead ou encore Cloudingo (spécialiste Salesforce)

Si vous avez une base de quelques milliers de noms, et n’êtes pas tellement sûr de sa qualité, testez au moins l’une des offres ci-dessus pour avoir une confirmation du chantier de nettoyage à mener :).

2/ La suppression des fausses adresses email

Yopmail, 10minutesmails, Incognitomail, Trashmail ou encore le fameux toto.com, vous connaissez ? Ces générateurs d’adresses email temporaires sont réputés pour polluer les bases de données. Si ces fausses adresses email, « jetables », sont pratiques en tant qu’utilisateur – notamment pour effectuer des tests –, elles ne permettront jamais d’obtenir des contacts qualifiés ! Il est donc indispensable de faire le tri entre les adresses email réelles et les fausses, puis de se débarrasser de ces dernières !

3/ La gestion de la nomenclature de la base de données

Idéalement, il faudrait travailler la structure et la nomenclature de sa base AVANT l’étape de dédoublonnage. Dans les faits, il est souvent plus simple de faire d’abord un gros travail pour éliminer les doublons et supprimer les fausses adresses email puis de retravailler dans un deuxième temps la nomenclature, afin de ne pas s’attarder sur les nomenclatures incomplètes de données que l’on va de toute façon supprimer !

Le nom et le prénom du contact

Qui dit base de données propre, dit nomenclature soignée ! D’autant plus si vous envisagez d’utiliser des tokens, ces jetons dédiés à la personnalisation. Rien de plus désagréable que d’être, dès un premier contact, appelé par son nom : « Bonjour Zuckerberg ! ». Une nomenclature aléatoire peut surtout entraîner des erreurs d’import ou d’export de base de données.

Les données « nom » et « prénom » doivent donc être toutes renseignées de la même manière, selon la même nomenclature. Cela peut prendre différentes formes :

nom.pré[email protected]
Nom Prénom
NOM PRÉNOM
NOM Prénom
nom prénom

Le numéro de téléphone

Le numéro de téléphone des contacts inscrits dans la base est une information capitale. L’objectif est de qualifier mais aussi de communiquer, de mettre en place des campagnes de Marketing Automation voire de convaincre par téléphone. Sans numéro fiable, comment un commercial pourra-t-il s’en sortir en fin de cycle ? Pour cette donnée aussi, vous devez suivre une nomenclature précise, harmoniser l’écriture des numéros et mettre une validation test pour empêcher la saisie de faux numéros (le fameux 0123456789 ou le 0606060606 !).

L’ajout de propriétés

Les outils de marketing automation comprennent bien souvent un certain nombre de champs par défaut, tels que le « job title ». Mais ce type de champ se trouve souvent libre dans les formulaires : chacun peut y écrire ce qu’il souhaite, à sa manière. Pour une même profession, on pourrait ainsi trouver « Directeur général », « DG », « DIRECTEUR GENERAL », « DiRecTeur GénEraL », « General Manager », « COO »…

Même si les informations sont là, il y a des chances qu’elles ne suivent pas une seule nomenclature. Pour y remédier, vous pouvez utiliser la propriété « Dropdown menu », ou « menu déroulant avec des champs fermés », qui a l’avantage de proposer de grandes catégories et… des champs fermés. Pour le « job title », on peut alors avoir des suggestions telles que « Chef de projet », « Responsable commercial », « Directeur marketing », etc.

Vous pouvez faire de même dans le cas d’ajouts de champs dédiés au code postal, à une verticale métier, à un budget… Prévoir des propriétés et des champs supplémentaires adaptés aux données que vous souhaitez récolter, c’est déjà un premier pas vers une base de données propre et un haut niveau de Data Quality.

#3 Troisième étape : import (ou réimport) de la base

Toutes vos données sont propres. Vous avez fait le plus dur. Place maintenant à l’étape décisive de votre chantier Data Quality, celle qui va vous permettre d’exploiter concrètement vos données marketing – le réimport de vos bases propres dans votre CRM ou votre outil de Marketing Automation.

1/ Construction d’un fichier type

La construction d’un fichier type d’import est la clé de la réussite pour tous les futurs imports de contact dans le CRM. Ce fichier permet d’éviter un bon nombre d’erreurs lors de l’import de la base de données dans le CRM.

Données des contacts avec la bonne nomenclature définie au préalable dans l’audit de la base
Utilisation des valeurs internes des propriétés en entête de colonne pour éviter les erreurs d’import

2/ Analyse des erreurs

Le premier import / réimport de la base nettoyée révèlera certainement des erreurs, que vous ne pouviez pas prévoir en amont. Recensez et analysez toutes les erreurs pour effectuer une seconde phase de nettoyage de votre base !

3/ Deuxième phase de cleaning en situation

Cette deuxième phase permet de mettre en place toutes les actions correctives que vous ne pouviez pas prévoir avant l’import. Il s’agit ici de corriger les micro-erreurs créées lors de l’import, ce qui vous permettra de créer un fichier final type d’import nomenclaturé. La propreté de l’import est définie aussi par l’encodage spécifique de votre outil. Et ça, vous ne pouvez pas le prévoir à l’avance !

Les micro-erreurs imprévisibles

Les variations de casse non prises en compte

4/ Création d’un fichier type d’import nomenclaturé : harmoniser et réduire les erreurs d’import

Utilisez les erreurs détectées lors du premier import pour affiner la qualité de vos futurs uploads. S’il y a encore des erreurs, répéter les points 2, 3 et 4 jusqu’à ce que votre base importée soit parfaite !

Et hop ! Tout est désormais en place : vous avez des données propres dans votre base et vous avez mis en place les contraintes nécessaires pour que les prochains imports se fassent tout aussi qualitativement. Il ne vous reste plus qu’à pérenniser les actions engagées.

#4 Quatrième étape : la pérennisation de la Data Quality

Beaucoup plus qu’un atelier ponctuel de cleaning, la Data Quality doit être vue comme un chantier à long terme, destiné à maintenir la qualité de la donnée déjà en base et les futurs imports et collectes.

Le maintien de la qualité des données est un processus continu. Les 3 premières étapes de cleaning sont vaines et seront rapidement oubliées si on ne s’assure pas que les équipes en interne continuent à s’assurer que TOUTES les données (actuelles et futures) respectent les 6 critères du R·O·C·H·E·R de la Data Quality et les règles de nomenclatures définies. Chez Invox, c’est le Marketing Automation Integrator qui se charge de formaliser les process Data Quality et assure la formation et la sensibilisation des équipes côté client.

Un chantier Data Quality doit aussi permettre de sensibiliser en interne sur l’importance d’une hygiène Data Quality au moment de la récolte des données, et de leur traitement !

La Data Quality n’a de sens que si elle est pérennisée : il est essentiel de s’assurer que la donnée reste propre dans la durée. Pour cela, il faut mettre en place une véritable culture Data Quality en parallèle de ce chantier.

Les 7 dimensions de la culture Data Quality

L’identification (et la réparation) des process qui ont amené à ce que la donnée ne soit pas bonne
La désignation (et la formation) d’un référent en interne qui sera responsable des process Data Quality et du Data Management
La pérennisation de l’hygiène Data Quality à faire adopter par les équipes marketing ET les équipes sales
La formation et la sensibilisation de tous les acteurs (marketing, commerciaux et CSM / support)
Le travail sur l’ergonomie du CRM pour faciliter la collecte complète
L’unification des modèles de données partout où de la saisie peut avoir lieu
La mise en place d’un process de reporting sur la qualité des données pour s’assurer que le niveau ne diminue pas

Après ce chantier Data Quality, vous allez pouvoir commencer à adresser du lead de qualité massivement, avec des campagnes ciblées pour aller – enfin – mesurer l’efficacité de votre stratégie Demand Generation. Envie de n’oublier aucune étape du chantier ? Téléchargez le PDF pour avoir notre méthode sous le coude !

Mon chantier Data Quality en 4 étapes