Retour au blog
· 9 min de lecture

Le playbook de génération de leads dont personne ne parle : exploiter le web public

génération de leadsB2Bweb scrapingenrichissement de donnéesventes

La liste de leads à 50 000 contacts qui était 40 % inutilisable

Un fondateur de SaaS que je connais a acheté une base de données de leads l’année dernière. Cinquante mille contacts, segmentés par industrie et taille d’entreprise, chez un fournisseur de données reconnu. Coût : environ 12 000 €. Il a chargé la liste dans son CRM, lancé une campagne email, et attendu.

Taux de rebond : 38 %. Parmi les emails qui ont effectivement atterri, la plupart concernaient des personnes qui avaient changé de poste depuis des mois. Quelques-uns ont déclenché des plaintes pour spam parce que les destinataires n’avaient jamais entendu parler de l’entreprise et n’avaient certainement jamais donné leur accord.

Résultat net : 11 leads qualifiés sur 50 000 contacts. Soit un taux de conversion de 0,02 % sur un investissement de 12 000 €, plus le temps que son équipe commerciale a perdu à poursuivre des pistes mortes.

Le problème n’est pas son pitch commercial. Le problème, c’est que les listes de leads achetées sont des instantanés d’un monde qui n’existe plus. Le temps que la donnée soit packagée, vendue et chargée dans le CRM, une part significative est déjà fausse — des gens ont changé de poste, des entreprises ont pivoté, des emails bounced, des numéros de téléphone déconnectés.

Les leads que vous voulez vraiment sont sur des sites publics

Voilà ce que je trouve fascinant. Pendant que les entreprises dépensent des milliers d’euros pour des bases périmées, les données de leads les plus fraîches et les plus précises sont librement disponibles sur le web public. Il faut juste un peu d’effort pour les collecter et les structurer.

Réfléchissez-y :

  • Les sites d’entreprises listent leurs équipes, les technologies utilisées, leurs bureaux, et souvent leurs défis actuels (dans les articles de blog, études de cas et offres d’emploi)
  • Les job boards révèlent quelles entreprises recrutent pour des postes spécifiques — une entreprise qui embauche 3 data engineers est probablement en train de monter une équipe data et pourrait avoir besoin d’outils ou de services
  • Les profils LinkedIn montrent en temps réel les titres de poste, les affiliations d’entreprise et les trajectoires de carrière
  • Les annuaires d’entreprises agrègent les informations avec des fourchettes de CA, des effectifs et des classifications sectorielles
  • Les plateformes d’avis comme G2 ou Capterra montrent quels outils les entreprises utilisent — et lesquels les mécontentent

Chacun de ces éléments est un signal. Empilés ensemble, ils dessinent le portrait d’un client potentiel qu’aucun vendeur de listes ne peut égaler, parce que la donnée est actuelle — pas vieille de six mois.

Construire un moteur de leads qui ne se périme pas

La différence entre scraper des infos de contact au hasard et construire un moteur de génération de leads, c’est l’intention. Vous ne collectez pas des emails pour le plaisir. Vous identifiez des entreprises qui correspondent à votre profil client idéal, trouvez les bonnes personnes au sein de ces entreprises, et contactez au bon moment.

Voici l’architecture :

Couche 1 : Identification d’entreprises

Commencez par la question : “Quels signaux indiquent qu’une entreprise pourrait avoir besoin de ce que je vends ?”

Si vous vendez des outils d’intégration de données, une entreprise qui publie des offres pour “data engineer” ou “développeur ETL” est un signal fort. Si vous proposez des services de cybersécurité, une entreprise qui vient de subir une fuite de données (actualité publique) ou qui recrute un RSSI (job boards) est un prospect chaud.

Construisez des scrapers qui surveillent ces signaux en continu :

  • Job boards (Indeed, LinkedIn Jobs, Welcome to the Jungle) pour des mots-clés de postes spécifiques
  • Blogs d’entreprises et communiqués de presse pour des annonces d’expansion
  • Bases de données de levées de fonds (Crunchbase, Dealroom) pour les startups récemment financées
  • Annuaires sectoriels pour les nouvelles immatriculations

Couche 2 : Enrichissement d’entreprise

Une fois qu’une entreprise intéressante est identifiée, enrichissez le profil :

  • Taille, fourchette de CA et trajectoire de croissance depuis les bases de données business
  • Stack technique via des outils comme BuiltWith ou Wappalyzer (ou scrapez-le directement depuis les headers et scripts de leur site)
  • Actualités récentes et mentions presse pour des accroches de conversation
  • Présence sur les réseaux sociaux et niveaux d’engagement

C’est là que les pipelines de données automatisés deviennent essentiels. Vous tirez des données de 5 à 10 sources différentes par entreprise, les normalisez dans un enregistrement unique, et les gardez à jour.

Couche 3 : Découverte de contacts

Maintenant, trouvez la bonne personne. Pas le CEO (trop occupé), pas le stagiaire (aucune autorité) — la personne qui ressent la douleur que votre produit résout.

Sources publiques pour la découverte de contacts :

  • Les pages “Équipe” ou “À propos” des sites d’entreprises listent souvent le personnel clé avec leurs titres
  • Les profils LinkedIn (données publiques) montrent qui occupe quel poste
  • Les listes de speakers de conférences et apparitions en podcast révèlent les leaders d’opinion
  • Les contributions GitHub et auteurs de blogs techniques identifient les décideurs techniques

L’essentiel ici est de respecter les limites. Restez sur les informations publiquement disponibles. Ne scrapez pas les profils privés, ne devinez pas les formats d’emails pour contourner l’opt-in, et donnez toujours aux gens un moyen clair de se désinscrire. Le RGPD n’est pas une suggestion — c’est la loi, et le respecter est aussi une bonne pratique commerciale.

Couche 4 : Timing et scoring

Chaque lead identifié ne mérite pas d’être contacté tout de suite. Construisez un modèle de scoring basé sur les signaux collectés :

  • Intention forte : L’entreprise a publié 3 offres d’emploi pertinentes ce mois-ci + a récemment levé des fonds + utilise un produit concurrent → contactez maintenant
  • Intention moyenne : L’entreprise correspond à l’ICP + effectif en croissance + pas de produit concurrent détecté → ajoutez à la séquence de nurturing
  • Intention faible : L’entreprise correspond à l’ICP mais pas de signal actif → surveillez les changements

Le pipeline automatisé re-score les leads à mesure que de nouvelles données arrivent. Une entreprise qui était “intention faible” le mois dernier peut sauter à “intention forte” quand elle publie une offre pertinente ou annonce une nouvelle initiative.

Des vrais chiffres d’un vrai pipeline

Laissez-moi partager ce que ça donne en pratique pour une entreprise SaaS B2B qui vend aux mid-market (50-500 employés) tech en Europe.

Pipeline mensuel :

  • La surveillance des job boards identifie environ 400 entreprises qui publient des postes pertinents
  • Le filtrage par géographie, taille et secteur réduit à environ 120 entreprises qualifiées
  • L’enrichissement ajoute les détails entreprise, la stack technique et les actualités récentes
  • La découverte de contacts trouve 2-3 décideurs pertinents par entreprise
  • Le scoring priorise environ 40 entreprises à forte intention par mois

Résultats après 6 mois :

  • Taux de réponse email moyen : 12 % (vs. 2 % avec des listes achetées)
  • Rendez-vous qualifiés bookés par mois : 8-12
  • Coût par lead qualifié : environ 15 € (infrastructure + outils)
  • À comparer à : 80-150 € par lead chez les fournisseurs de données traditionnels

La différence de taux de réponse est la vraie histoire. Quand votre outreach mentionne l’offre d’emploi spécifique qu’ils ont publiée, cite la stack technique qu’ils utilisent, ou souligne un jalon récent de l’entreprise — ça ne ressemble pas à du spam. Ça ressemble à quelqu’un qui a fait ses devoirs.

La couche d’enrichissement qui change tout

Les données de leads brutes sont utiles. Les données de leads enrichies sont puissantes. La différence, c’est le contexte.

Comparez ces deux approches d’outreach :

Sans enrichissement : “Bonjour, je vois que vous êtes Head of Data chez TechCorp. Nous aidons les entreprises avec l’intégration de données…”

Avec enrichissement : “Bonjour, j’ai remarqué que TechCorp vient de publier deux postes de data engineer senior et a récemment migré vers Snowflake (repéré dans vos offres d’emploi). Nous avons aidé trois entreprises similaires en fintech à réduire leurs coûts d’intégration de 60 % pendant exactement cette phase de montée en charge…”

Même lead. Taux de réponse radicalement différents. Le second message n’est possible que parce que le pipeline a collecté, connecté et mis en avant le bon contexte automatiquement.

Cette étape d’enrichissement est l’endroit où l’extraction par IA prouve sa valeur. Les offres d’emploi, les articles de blog d’entreprise et les communiqués de presse sont du texte non structuré. Un LLM peut lire une offre d’emploi et extraire “cette entreprise utilise Snowflake, dbt et Airflow” sans que personne ne parse manuellement des mots-clés.

Ce qu’il ne faut pas faire

Je dois être direct là-dessus parce que la ligne entre la génération de leads intelligente et le spam est plus fine qu’on ne le pense.

Ne scrapez pas en masse les adresses email personnelles. Même si elles sont techniquement publiques, bombarder des milliers de personnes avec des emails non sollicités fera blacklister votre domaine et possiblement vous vaudra une amende RGPD. Utilisez les données personnelles pour informer votre stratégie d’outreach, pas comme une liste de mailing de masse.

Ne faites pas passer l’automatisation pour de la personnalisation. Insérer {prénom} et {nom_entreprise} dans un template n’est pas de la personnalisation. La vraie personnalisation utilise les données enrichies pour écrire des messages qui démontrent une compréhension authentique de la situation du prospect.

N’ignorez pas les demandes de désinscription. Si quelqu’un vous dit d’arrêter de lui écrire, arrêtez. Immédiatement. Sans exception. C’est la loi et c’est la décence de base.

Ne scrapez pas derrière des murs de connexion. Web public signifie web public. Si vous devez créer un compte pour accéder aux données, ce n’est pas public, et les scraper enfreint probablement les conditions d’utilisation de la plateforme.

Les entreprises qui font bien la génération de leads traitent leur pipeline de données comme un outil de recherche, pas comme un canon à spam. L’objectif, c’est moins de conversations mais de meilleure qualité — pas plus de conversations de mauvaise qualité.

Commencez petit, puis faites effet boule de neige

Pas besoin de construire tout le système d’un coup. Commencez avec une source de signal — disons, la surveillance des job boards pour vos mots-clés spécifiques — et envoyez le résultat dans un simple tableur ou CRM. Faites de l’outreach manuel pendant un mois pour valider que la qualité du signal justifie d’automatiser davantage.

Une fois le modèle prouvé, ajoutez des couches d’enrichissement une à une. Données entreprise. Stack technique. Actualités récentes. Découverte de contacts. Chaque couche améliore votre taux de conversion et réduit le temps que votre équipe commerciale passe en recherche.

Chez SilentFlow, nous construisons exactement ce type de pipelines de données automatisés — du scraping de job boards, annuaires d’entreprises et profils publics à l’enrichissement et au scoring de leads par IA. Nos clients voient typiquement leurs coûts par lead qualifié baisser de 70 à 80 % par rapport à l’achat de données, avec des taux de réponse qui font que leurs équipes commerciales apprécient à nouveau l’outbound.

Les meilleurs leads ne sont pas dans une base de données que vous pouvez acheter. Ils sont dans des signaux dispersés sur le web public, en attente que quelqu’un connecte les points. Les entreprises qui construisent l’infrastructure pour faire ça systématiquement ne génèrent pas juste plus de leads — elles en génèrent de meilleurs.

Lancez votre projet scraping

Besoin d'automatiser votre collecte de données ? Dites-nous ce dont vous avez besoin, on vous répond sous 24 heures.

Envoyer le message