Ingeniero de Datos: el constructor, garante de la cadena de producción de datos.
El rol de un Ingeniero de Datos – Data Engineer es diseñar, probar y mantener una arquitectura técnica confiable que permita la recopilación, el almacenamiento y la conversión a gran escala de datos sin procesar en información lista para usar para Científicos de Datos – Data Scientist, Analistas de Datos – Data Analyst o incluso Business Analyst.
Un Ingeniero de Datos – Data Engineer no es un administrador de sistemas. No se dedica a configurar máquinas, gestionar la seguridad de la red o similares.
Realmente se centra en la administración y el desarrollo de la arquitectura del software de procesamiento de datos, y se acerca más al concepto de DevOps, reuniendo conocimientos de sistemas y software para optimizar los ciclos de desarrollo.
Cuáles son las principales misiones del Ingeniero de Datos – Data Engineer
- Diseñar, desarrollar y asegurar el mantenimiento técnico de la arquitectura de software que permita el procesamiento y almacenamiento de datos.
- Crear pipelines de datos para automatizar los pasos de adquisición de datos sin procesar, desde la extracción hasta el almacenamiento, al tiempo que garantiza la confiabilidad de los flujos de datos.
- Realizar procesos ETL (Extract, Transform, Load) para identificar y conectar diferentes fuentes de datos, limpiarlas, transformarlas y luego centralizarlas en un Data Lake.
- Organizar y mantener almacenes de datos.
- Supervisar la producción de modelos y algoritmos proporcionados por Científicos de Datos – Data Scientist.
Qué habilidades debe tener un Ingeniero de Datos
Un Ingeniero de Datos es un perfil ultra-técnico:
- Ser un desarrollador de alto nivel con un perfecto dominio del código y diferentes lenguajes de programación: Python, Java, Scala, etc.
- Saber manejar bases de datos SQL, MongoDB o Cassandra.
- Crear sistemas distribuidos con soluciones de análisis basadas en software como Hadoop o Spark.
- Entornos Master Cloud para Data Warehouse como Amazon RedShift, Google BigQuery, Snowflake.
- Saber utilizar herramientas ETL para agregar y transformar datos (por ejemplo, Fivetran).
- Comprender las tecnologías de aprendizaje automático (Machine Learning), aprendizaje profundo (Deep Learning) e inteligencia artificial utilizadas por los Científicos de Datos.
¿En qué casos de uso digital interviene un Ingeniero de Datos?
Un Ingeniero de Datos puede intervenir en diferentes circunstancias:
- Conectarse simultáneamente a las principales fuentes de datos (API de anuncios de Facebook; CRM – Salesforce, Hubspot; Google Analytics o Piano Analytics, etc.) para construir un conjunto de datos agregados que le permitan aplicar una orientación predefinida o calculada por máquina.
- Cruzar y unificar masivamente datos dispares y heterogéneos que podamos necesitar en SEO (Google Analytics, Search Console, PageSpeed, OnCrawl, Majestic, etc.).
- Sostenga y mantenga un activo de datos procesable para el negocio.