El playbook de generación de leads del que nadie habla: explotar la web pública
La lista de leads de 50.000 contactos que era 40% basura
Un fundador de SaaS que conozco compró una base de datos de leads el año pasado. Cincuenta mil contactos, segmentados por industria y tamaño de empresa, de un proveedor de datos reconocido. Coste: unos 12.000 €. Cargó la lista en su CRM, lanzó una campaña de email, y esperó.
Tasa de rebote: 38%. De los emails que realmente llegaron, la mayoría eran de personas que habían cambiado de puesto hacía meses. Un puñado generó quejas de spam porque los destinatarios nunca habían oído hablar de la empresa y desde luego no habían dado su consentimiento.
Resultado neto: 11 leads cualificados de 50.000 contactos. Eso es una tasa de conversión del 0,02% sobre una inversión de 12.000 €, más el tiempo que su equipo de ventas desperdició persiguiendo pistas muertas.
El problema no es su pitch comercial. El problema es que las listas de leads compradas son instantáneas de un mundo que ya no existe. Para cuando los datos se empaquetan, venden y cargan en el CRM, una parte significativa ya es incorrecta — gente que cambió de trabajo, empresas que pivotaron, emails que rebotan, teléfonos desconectados.
Los leads que realmente quieres están en sitios web públicos
Esto es lo que me parece fascinante. Mientras las empresas gastan miles en bases de datos caducadas, los datos de leads más frescos y precisos están libremente disponibles en la web pública. Solo hace falta algo de esfuerzo para recogerlos y estructurarlos.
Piénsalo:
- Las webs de empresas listan a sus equipos, las tecnologías que usan, ubicaciones de oficinas, y a menudo sus retos actuales (en posts del blog, casos de éxito y descripciones de empleo)
- Los portales de empleo revelan qué empresas están contratando para roles específicos — una empresa que contrata 3 data engineers probablemente está montando un equipo de datos y podría necesitar herramientas o servicios
- Los perfiles de LinkedIn muestran en tiempo real títulos de puesto, afiliaciones de empresa y trayectorias profesionales
- Los directorios de empresas agregan información con rangos de facturación, número de empleados y clasificaciones sectoriales
- Las plataformas de reviews como G2 o Capterra muestran qué herramientas usan las empresas — y cuáles les descontentan
Cada uno de estos elementos es una señal. Apilados juntos, pintan un retrato de un cliente potencial que ningún vendedor de listas puede igualar, porque los datos son actuales — no tienen seis meses de antigüedad.
Construir un motor de leads que no caduca
La diferencia entre scrapear información de contacto al azar y construir un motor de generación de leads es la intención. No estás recopilando emails por recopilar. Estás identificando empresas que encajan con tu perfil de cliente ideal, encontrando a las personas correctas dentro de esas empresas, y contactando cuando el timing es el adecuado.
Esta es la arquitectura:
Capa 1: Identificación de empresas
Empieza con la pregunta: “¿Qué señales indican que una empresa podría necesitar lo que vendo?”
Si vendes herramientas de integración de datos, una empresa que publica ofertas para “data engineer” o “desarrollador ETL” es una señal fuerte. Si ofreces servicios de ciberseguridad, una empresa que acaba de sufrir una brecha de datos (noticias públicas) o está contratando un CISO (portales de empleo) es un prospecto caliente.
Construye scrapers que monitoricen estas señales continuamente:
- Portales de empleo (Indeed, LinkedIn Jobs, InfoJobs) para palabras clave de puestos específicos
- Blogs de empresas y notas de prensa para anuncios de expansión
- Bases de datos de financiación (Crunchbase, Dealroom) para startups recién financiadas
- Directorios sectoriales para nuevas altas de empresas
Capa 2: Enriquecimiento de empresa
Una vez identificada una empresa interesante, enriquece el perfil:
- Tamaño, rango de facturación y trayectoria de crecimiento desde bases de datos empresariales
- Stack tecnológico con herramientas como BuiltWith o Wappalyzer (o scrapéalo directamente de los headers y scripts de su sitio)
- Noticias recientes y menciones en prensa para iniciar conversaciones
- Presencia en redes sociales y niveles de engagement
Aquí es donde los pipelines de datos automatizados se vuelven esenciales. Estás tirando datos de 5-10 fuentes diferentes por empresa, normalizándolos en un solo registro, y manteniéndolos frescos.
Capa 3: Descubrimiento de contactos
Ahora encuentra a la persona correcta. No el CEO (demasiado ocupado), no el becario (sin autoridad) — la persona que siente el dolor que tu producto resuelve.
Fuentes públicas para descubrir contactos:
- Las páginas “Equipo” o “Nosotros” de los sitios de empresas suelen listar personal clave con sus títulos
- Los perfiles de LinkedIn (datos públicos) muestran quién ocupa qué puesto
- Las listas de ponentes de conferencias y apariciones en podcasts revelan líderes de opinión
- Las contribuciones en GitHub y autores de blogs técnicos identifican a los decisores técnicos
Lo clave aquí es respetar los límites. Quédate con la información públicamente disponible. No scrapees perfiles privados, no adivines formatos de email para saltarte el opt-in, y siempre da a la gente una forma clara de darse de baja. El RGPD y regulaciones similares no son sugerencias — son la ley, y cumplirlas también es buena práctica empresarial.
Capa 4: Timing y scoring
No cada lead identificado merece ser contactado ahora mismo. Construye un modelo de scoring basado en las señales recopiladas:
- Intención alta: La empresa publicó 3 ofertas de empleo relevantes este mes + recibió financiación recientemente + usa un producto competidor → contacta ahora
- Intención media: La empresa encaja con el ICP + plantilla en crecimiento + no se detecta producto competidor → añade a secuencia de nurturing
- Intención baja: La empresa encaja con el ICP pero no hay señales activas → monitoriza cambios
El pipeline automatizado re-puntúa los leads a medida que llegan nuevos datos. Una empresa que era “intención baja” el mes pasado puede saltar a “intención alta” cuando publica una oferta relevante o anuncia una nueva iniciativa.
Números reales de un pipeline real
Déjame compartir cómo se ve esto en la práctica para una empresa SaaS B2B que vende a mid-market (50-500 empleados) tech en Europa.
Pipeline mensual:
- El monitoreo de portales de empleo identifica unas 400 empresas publicando puestos relevantes
- El filtrado por geografía, tamaño y sector reduce a unas 120 empresas cualificadas
- El enriquecimiento añade detalles de empresa, stack técnico y noticias recientes
- El descubrimiento de contactos encuentra 2-3 decisores relevantes por empresa
- El scoring prioriza unas 40 empresas de alta intención al mes
Resultados tras 6 meses:
- Tasa de respuesta a email promedio: 12% (vs. 2% con listas compradas)
- Reuniones cualificadas agendadas por mes: 8-12
- Coste por lead cualificado: unos 15 € (infraestructura + herramientas)
- Comparado con: 80-150 € por lead con proveedores de datos tradicionales
La diferencia en tasa de respuesta es la verdadera historia. Cuando tu outreach hace referencia a la oferta de empleo específica que publicaron, menciona el stack tecnológico que usan, o reconoce un hito reciente de la empresa — no parece spam. Parece alguien que hizo sus deberes.
La capa de enriquecimiento que lo cambia todo
Los datos de leads en bruto son útiles. Los datos de leads enriquecidos son poderosos. La diferencia es el contexto.
Compara estos dos enfoques de outreach:
Sin enriquecimiento: “Hola, veo que eres Head of Data en TechCorp. Ayudamos a empresas con la integración de datos…”
Con enriquecimiento: “Hola, he visto que TechCorp acaba de publicar dos puestos de data engineer senior y recientemente migró a Snowflake (lo vi en vuestras ofertas de empleo). Hemos ayudado a tres empresas similares en fintech a reducir sus costes de integración un 60% durante exactamente esta fase de escalado…”
Mismo lead. Tasas de respuesta radicalmente diferentes. El segundo mensaje solo es posible porque el pipeline recopiló, conectó y puso en primer plano el contexto adecuado automáticamente.
Este paso de enriquecimiento es donde la extracción por IA demuestra su valor. Las ofertas de empleo, posts de blogs de empresas y comunicados de prensa son texto no estructurado. Un LLM puede leer una oferta de empleo y extraer “esta empresa usa Snowflake, dbt y Airflow” sin que nadie parsee palabras clave manualmente.
Lo que no debes hacer
Tengo que ser directo con esto porque la línea entre generación de leads inteligente y spam es más fina de lo que la gente cree.
No scrapees emails personales masivamente. Aunque sean técnicamente públicos, bombardear a miles de personas con emails no solicitados hará que tu dominio sea bloqueado y posiblemente te multen por RGPD. Usa los datos personales para informar tu estrategia de outreach, no como lista de envío masivo.
No hagas pasar la automatización por personalización. Insertar {nombre} y {empresa} en una plantilla no es personalización. La personalización real usa los datos enriquecidos para escribir mensajes que demuestran una comprensión genuina de la situación del prospecto.
No ignores las peticiones de baja. Si alguien te dice que dejes de escribirle, para. Inmediatamente. Sin excepciones. Es la ley y es decencia básica.
No scrapees tras muros de login. Web pública significa web pública. Si necesitas crear una cuenta para acceder a los datos, no es público, y scrapearlo probablemente viola los términos de servicio de la plataforma.
Las empresas que hacen bien la generación de leads tratan su pipeline de datos como una herramienta de investigación, no como un cañón de spam. El objetivo son menos conversaciones pero mejores — no más conversaciones peores.
Empieza pequeño, luego haz efecto bola de nieve
No necesitas construir todo el sistema de una vez. Empieza con una fuente de señal — digamos, monitoreo de portales de empleo para tus palabras clave específicas — y envíalo a una hoja de cálculo o CRM simple. Haz outreach manual durante un mes para validar que la calidad de la señal justifica automatizar más.
Una vez probado el modelo, añade capas de enriquecimiento una a una. Datos de empresa. Stack técnico. Noticias recientes. Descubrimiento de contactos. Cada capa mejora tu tasa de conversión y reduce el tiempo que tu equipo comercial dedica a investigar.
En SilentFlow, construimos exactamente este tipo de pipelines de datos automatizados — desde el scraping de portales de empleo, directorios de empresas y perfiles públicos hasta el enriquecimiento y scoring de leads con IA. Nuestros clientes típicamente ven sus costes por lead cualificado bajar un 70-80% comparado con comprar datos, con tasas de respuesta que hacen que sus equipos comerciales vuelvan a disfrutar del outbound.
Los mejores leads no están en una base de datos que puedas comprar. Están en señales dispersas por la web pública, esperando a que alguien conecte los puntos. Las empresas que construyen la infraestructura para hacer esto sistemáticamente no solo generan más leads — generan mejores.
Lanza tu proyecto de scraping
Necesitas automatizar la recolección de datos? Cuéntanos lo que necesitas, te respondemos en menos de 24 horas.
Enviar mensaje