Volver

Desarrollador Web Scraping

Tusdatos

Jornada Completa

1 vacante

Bogotá, Colombia

Hace 1 mes

Descripción

<h2>¿Cual es el perfil?</h2> Buscamos una persona apasionada por la extracción y transformación de datos a gran escala, a quien le guste encontrar soluciones creativas para acceder, estructurar y normalizar información de fuentes web diversas y complejas. Debes ser una persona analítica, persistente e ingeniosa, capaz de adaptarse rápidamente a cambios en las fuentes de datos y enfrentar desafíos como CAPTCHAs, sitios dinámicos y mecanismos anti-bot. Tu perfil debe estar orientado a construir pipelines de extracción robustos, escalables y mantenibles, con conocimientos sólidos en Python y automatización de navegadores. <h2>Funciones y responsabilidades:</h2> * Diseñar, desarrollar y mantener scrapers y crawlers robustos para la extracción masiva de datos de fuentes web públicas, incluyendo sitios con renderizado dinámico (JavaScript). * Implementar y administrar granjas de automatización de navegadores (Playwright, Selenium) capaces de operar decenas de sesiones concurrentes de forma estable. * Desarrollar estrategias de evasión y adaptación frente a mecanismos anti-bot, CAPTCHAs, rate limiting y cambios estructurales en las fuentes de datos. * Diseñar pipelines de procesamiento y normalización de datos extraídos, asegurando calidad, consistencia y trazabilidad de la información. * Implementar sistemas de monitoreo, alertas y reintentos automáticos para garantizar la disponibilidad continua de los procesos de extracción. * Optimizar el rendimiento y consumo de recursos de los scrapers, incluyendo gestión de proxies, rotación de identidades y paralelismo. * Documentar fuentes de datos, lógica de extracción y reglas de negocio asociadas a cada scraper. * Trabajar estrechamente con el equipo de backend y producto para integrar los datos extraídos en los servicios y APIs de la plataforma. <h2>Requisitos:</h2> * Mínimo 2 años de experiencia en web scraping y extracción de datos a escala con Python. * Dominio de librerías y frameworks de scraping: Scrapy, BeautifulSoup, lxml, Requests, HTTPX. * Experiencia sólida con automatización de navegadores headless: Playwright (preferido) o Selenium. * Conocimiento en manejo de proxies, rotación de IPs y técnicas anti-detección. * Experiencia con bases de datos NoSQL (MongoDB) y/o relacionales (PostgreSQL). * Conocimiento en administración y desarrollo en entornos Linux. * Experiencia con Docker y despliegue de servicios en la nube (AWS deseable). * Capacidad para analizar y parsear estructuras HTML/CSS complejas, así como consumir APIs no documentadas. Requisitos deseables: * Experiencia con colas de tareas y procesamiento asíncrono (Celery, Redis, asyncio). * Conocimiento en resolución automatizada de CAPTCHAs (servicios de terceros o ML). * Familiaridad con herramientas de orquestación y monitoreo (Grafana, Prometheus). * Experiencia manejando alto volumen de datos y sesiones concurrentes (+50 sesiones simultáneas). <h2>¿Qué te ofrecemos?</h2> * Contrato a término indefinido. * Salario: Entre $5.500.000 y $7.500.000. * Teletrabajo híbrido. * Bonos por cumplimiento de metas trimestrales. * Clases de yoga. * Clases de inglés. * Fondo de empleados. * Cartera de puntos.

Cargando ofertas similares...