En tant que marketeur, vous recevez des bases de données de toutes formes, suite à un salon, suite à un rachat ou tout simplement via une acquisition de données. Elles sont censées être uniquement constituées de nouveaux contacts, mais comme toujours il y a des doublons.
Un dédoublonnage par un professionnel coûte cher et n’est pas adapté à de petites quantités. Voici quelques méthodes simple pour détecter et éliminer les doublons.
1-Le dédoublonnage brut avec Excel
Depuis Excel 2003, on a un outil de dédoublonnage fourni avec la solution. Il est d’une simplicité enfantine, très rapide et très efficace. Il suffit de cocher les cases qui ne doivent pas être identiques. C’est pratique pour dédoublonner des formulaires envoyés plusieurs fois par exemple.
Voici une liste avec un doublon en ligne 3 et 4, quelqu’un qui a validé deux fois son formulaire…
Numero | Demande | Titre | Nom | Prénom | Societe | Adresse | CP | Ville | Date |
1 | catalogue; | Mr | MARTINET | LUDOVIC | TECHNITRAITE-FROID | 135 RUE LES BENARDS | 27260 | LA CHAPELLE BAYVEL | 05/06/2015 18:30 |
2 | intervention; | Mr | BONNET | MATTHIEU | LA FERME DU COLOMBIER | GROUALEUX | 28250 | DIGNY | 06/06/2015 09:20 |
3 | intervention; | Mr | VROMBOUT | Arnaud | SCA LA FLANDRE | ROUTE DE L’AA | 59143 | HOLQUE | 08/06/2015 08:23 |
4 | intervention; | Mr | VROMBOUT | Arnaud | SCA LA FLANDRE | ROUTE DE L’AA | 59143 | HOLQUE | 08/06/2015 08:25 |
5 | contrat; | Mr | VRIGNAUD | CAMILLE | KRONOFRANCE SAS | ROUTE DE CERDON | 45600 | SULLY SUR LOIRE | 08/06/2015 09:05 |
6 | intervention; | Mr | DUVERGLAS | Gérard | CLAIRE FONTAINE | 27 ROUTE DE LA LOIRE | 44450 | LA CHAPELLE BASSE MER | 08/06/2015 09:14 |
7 | catalogue; | Mr | PINEAU | BEATRICE | MAPES SERVICES VITRAGES | 89 CHEMIN DU VIEUX MOULIN | 77500 | CHELLES | 08/06/2015 09:48 |
On va chercher sur excel à éliminer les contenus rigoureusement identiques à l’exception du numéro et de la date de demande qui varie. Il faut donc décocher ces variables.
La simplicité de ce système est aussi son défaut, car il travaille avec des occurrences structement identiques. Pour lui, Gérard et GERARD sont deux items différents qu’il ne dédoublonnera pas.
2-Le dédoublonnage brut avec des champs objectifs : email, siret, siren
Si on possède une base de données correctement qualifiée, certains champs sont objectifs et on peut les considérer comme des identifiants uniques. En effet, un email est unique, tout comme un siret. Si on retrouve ces champs dans deux fiches, la probabilité qu’elles soient des doublons est très forte.
Il suffit alors de procéder sur Excel à un dédoublonnage ou à une recherche verticale pour supprimer ou marquer les doublons.
Pour dédoublonner, on ne coche que la donnée objective par exemple le siret.
Pour marquer un doublons, on va rechercher si la données A1 de la liste 1 est déjà présente dans une des lignes de la liste 2
=RECHERCHEV(A1 ;liste2 !A ;B ;2 ;0)
Ce système est très pratique et ne demande que peu de ressources. Si votre base de données est bien qualifiée en siret, c’est un moyen efficace.
Attention : lorsque vous dédoublonnez avec Excel, il va garder la donnée qui a le numéro de ligne le plus petit. S’il détecte un doublon en ligne 5 et 25, c’est la ligne 5 qui sera gardée et la 25 supprimée. Il est donc important de mettre les données les plus « maître » ou les plus complètes dans le haut du tableau.
3-Le dédoublonnage par Matchcode
Cette technique est vieille comme le monde et consiste à fabriquer une sorte de siret maison qui va permettre de dédoublonner une adresse.
On part du principe que deux entreprises qui partagent les données suivantes : même code NAF, même code postal, même rue et même téléphone sont des doublons. Comme ces données sont formatées (le NAF et le code postal ont 5 caractères, le téléphone 10 et pour la rue, on ne va garder que les 5 derniers caractères.)
On va donc fabriquer pour chaque ligne un matchcode de 25 caractères construit comme suit :
=concatener(NAF ;CP ;DROITE(ADRESSE3 ;5) ;TELEPHONE)
NAF | Téléphone | Societe | Adresse3 | CP | Ville | Matchcode |
7111Z | 0245853274 | TECHNITRAITE-FROID | 135 RUE LES BENARDS | 27260 | LA CHAPELLE BAYVEL | 7111Z27260NARDS0245853274 |
7111Z | 0388549612 | LA FERME DU COLOMBIER | GROUALEUX | 28250 | DIGNY | 7111Z28250ALEUX0388549612 |
7111Z | 0242568974 | SCA LA FLANDRE | ROUTE DE DUNKERQUE | 59143 | HOLQUE | 7111Z59143ERQUE0242568974 |
7111Z | 0242568974 | SCA LA FLANDRE | CHEMIN DE DUNKERQUE | 59143 | HOLQUES | 7111Z59143ERQUE0242568974 |
7111Z | 0545859887 | KRONOFRANCE SAS | ROUTE DE CERDON | 45600 | SULLY SUR LOIRE | 7111Z45600ERDON0545859887 |
7111Z | 0523212565 | CLAIRE FONTAINE | 27 ROUTE DE LA LOIRE | 44450 | LA CHAPELLE BASSE MER | 7111Z44450LOIRE0523212565 |
7111Z | 0152968574 | MAPES SERVICES VITRAGES | 89 CHEMIN DU VIEUX MOULIN | 77500 | CHELLES | 7111Z77500OULIN0152968574 |
On repère rapidement les lignes avec le même matchcode.
4-Le dédoublonnage sans voir la base à comparer ?
Il est très souvent impossible de comparer les bases directement. Par exemple, vous louez une base de données extérieure et vous ne voulez pas qu’ils écrivent à vos clients. Impossible de transmettre votre fichier pour des raisons de confidentialité. Idem pour l’autre camp.
Il existe plusieurs moyens de dédoublonner sans transmettre votre base.
-Transmission de données objectives comme le siret ou les siren.
Vous demandez au prestataire d’exclure toutes les entreprises qui ont un siret ou un siren identique à ceux que vous avez fourni.
-Transmission des domaines de vos emails.
Sur Excel, il vous suffit de convertir la colonne email de votre base.
Sélectionner la colonne, faites données > convertir > délimité > choisissez @ comme séparateur
Vous aurez tous les domaines dans une colonne.
Supprimez les fournisseurs d’accès internet (FAI) de la liste, car ils ne permettent pas d’identifier une et une seule entreprise.
aliceadsl.fr | hotmail.com | me.com | numericable.fr | voila.fr |
aol.com | hotmail.fr | msn.com | orange.fr | wanadoo.fr |
bbox.fr | laposte.net | neuf.fr | orange-business.fr | skynet.be |
free.fr | libertysurf.fr | noos.fr | outlook.fr | yahoo.com |
gmail.com | live.fr | nordnet.fr | sfr.fr | yahoo.fr |
-Transmission d’un matchcode
Si vous définissez le même matchcode que votre prestataire, il pourrra dédoublonner assez facilement, sous réserve qu’il dispose des mêmes champs que vous.
-Criptage de vos données en MD5
Souvent utilisé pour le dédoublonnage email, cette technique allie confidentialité et efficacité.
Il vous suffit de convertir vos emails au format MD5 avec un simple tableau excel et une macro VBA.
Votre prestataire fait de même et il suffit de comparer les résultats. Attention à bien laisser une colonne ID lors de ce traitement sinon, il sera impossible d’exclure les données désignées comme doublon.
Voilà, vous savez tout sur le dédoublonnage pour les nuls