La ciencia de datos describe el trabajo con datos para crear valor a partir de ellos

Inteligencia artificial, Big Data Analytics, Data Mining, Industria 4.0… todas estas palabras de moda pueden ser muy confusas. Sin embargo, estos términos tienen una cosa en común: por lo general, describen métodos para extraer valor de los datos. ¿Qué es la ciencia de datos?

El valor de los datos puede ser, inicialmente, un beneficio puro de conocimiento, o una ayuda para los responsables de tomar decisiones. Si es necesario, los procesos industriales o empresariales se pueden automatizar parcialmente a través de un circuito de retroalimentación con expertos. Una vez que se han evaluado las posibles soluciones y se ha comprobado que una de ellas es buena, también se puede buscar una automatización completa de estos procesos.

Para lograr estos objetivos, se utilizan varios métodos de la informática, las matemáticas y la estadística en el campo interdisciplinario de la ciencia de datos o Data Science. Especialmente en el área de aprendizaje automático (Machine Learning), esto incluye árboles de decisión o aprendizaje profundo (Deep Learning) para problemas de clasificación y regresión, o procesos de aprendizaje no supervisados como el algoritmo k-means para el análisis de clústeres.

Además, en la mayoría de los casos de uso, se incorporan a los métodos conocimientos especializados existentes del campo respectivo de la empresa u organización. El científico de datos actúa como enlace entre los expertos técnicos y los algoritmos basados en datos.

Este diagrama de conjunto pone en relación cuatro de los términos más extendidos: el aprendizaje profundo es una forma especial de aprendizaje automático, que es una parte importante de la ciencia de datos, y que también se entiende como una forma de inteligencia artificial (IA). Estos y otros términos, como Big Data, Business Analytics e Industria 4.0, se explican con más detalle en las siguientes definiciones.

Ciencia de datos y otros términos: un pequeño diccionario

Ciencia de datos / Data Science

“El trabajo del científico de datos es hacer las preguntas correctas. Si hago una pregunta como ‘¿cuántos clics recibió este vínculo?’, algo que observamos todo el tiempo, no es una pregunta de ciencia de datos. Es una pregunta analítica. Si hago una pregunta como, ‘basándome en el historial anterior de enlaces en el sitio de este editor, ¿puedo predecir cuántas personas de Francia leerán esto en las próximas tres horas?’, esa es más una pregunta de ciencia de datos”.

Hillary Mason, fundadora de Fast Forward Labs

La ciencia de datos está estrechamente relacionada con la inteligencia artificial, el big data y el tema de la industria 4.0 y, en general, describe el trabajo con datos para crear valor a partir de ellos. Esto lo convierte en un término genérico para la mayoría de los términos que se explican aquí, como aprendizaje automático, minería de textos, análisis empresarial y otros.

Inteligencia Artificial (IA) / Artificial Intelligence (AI)

La inteligencia artificial (IA) es, probablemente, el término más sobrecargado y erróneo que presentamos aquí. IA significa procesos asistidos por ordenador que pueden resolver problemas de forma independiente. En el sentido más amplio, las calculadoras ya podrían llamarse inteligencias artificiales. En el extremo opuesto, inspirado en películas y series, el término IA a menudo se asocia con la idea de que las máquinas desarrollan su propia conciencia e inteligencia sobrehumana. Actualmente estamos todavía muy lejos de eso.

En los medios de comunicación, la IA se menciona principalmente en relación con tecnologías futuras, como los coches autónomos o los chatbots que intentan pasar el Test de Turing, respondiendo de forma tan humana que un interlocutor humano no pueda decir si se está comunicando con un humano o con una máquina. Todo el mundo ya ha tenido contacto con algunas tecnologías modernas de IA establecidas, como el reconocimiento automático de voz, los motores de búsqueda o las traducciones automáticas.

Aprendizaje humano y aprendizaje automático / Machine Learning

Con la ciencia de datos, por un lado, es posible preparar los datos de tal manera que apoyen el aprendizaje humano y ayuden a las personas a tomar decisiones basadas en datos.

En el aprendizaje automático, por otro lado, el propio ordenador usa algoritmos para encontrar patrones dentro de los datos que le permiten hacer declaraciones sobre un estado o el futuro en un contexto definido para que las decisiones puedan automatizarse. Existen numerosos ejemplos de esto, comenzando con filtros de spam o recomendaciones personales de Netflix, pasando por el reconocimiento de voz y texto para asistentes digitales hasta el mantenimiento predictivo, control de calidad automatizado y monitoreo o vehículos autónomos. La mayoría de los procesos de aprendizaje automático aún funcionan como una caja negra, es decir, las decisiones que se toman automáticamente son incomprensibles para los humanos.

Aprendizaje profundo / Deep Learning

El aprendizaje profundo es una forma especial de aprendizaje automático. Aquí, las redes neuronales, es decir, los sistemas celulares basados en el cerebro humano, se utilizan para desarrollar modelos de predicción. Estas redes neuronales (artificiales) tienen muchas capas de niveles neuronales internos (de ahí el aprendizaje “profundo”). El aprendizaje profundo es relativamente popular en este momento. Al mismo tiempo, también existen muchos otros procesos de aprendizaje automático que pueden lograr mejores resultados dependiendo de la aplicación.

Minería de textos / Text Mining

La minería de textos es una forma de aplicación del procesamiento de datos lingüístico: aquí los textos son los datos de los que se extrae un valor. El objetivo de la minería de textos es obtener información que luego pueda procesarse para su uso posterior. Los algoritmos de aprendizaje automático se pueden entrenar, por ejemplo, para clasificar nuevos textos. Una forma especial de esto es la minería web (Web Mining), en la que se analiza el contenido de documentos de Internet, es decir, sitios web como Twitter y Facebook, o portales de noticias.

Análisis de negocio / Business Analytics

Business Analytics es ciencia de datos aplicada en el entorno empresarial. En términos concretos, los procesos empresariales se pueden mejorar mediante el uso de datos existentes dentro del entorno específico de la empresa, para derivar conocimientos y predicciones.

Mantenimiento predictivo

El mantenimiento predictivo es una aplicación especial del aprendizaje automático, y uno de los componentes centrales de la Industria 4.0. El objetivo es predecir el tiempo óptimo de mantenimiento de las máquinas y los sistemas. De este modo se puedan prevenir los fallos y sus efectos negativos, como tiempos de inactividad no planificados o defectos de calidad.

A diferencia del mantenimiento a través del mantenimiento de rutina o inspecciones, se basa en datos de la máquina y producción registrados de forma periódica o continua por sensores, y no en estadísticas sobre la vida útil promedio o esperada.

Dado que las tareas de mantenimiento con mantenimiento predictivo solo se realizan cuando son realmente necesarias, se pueden reducir tanto los tiempos de parada como los costes de mantenimiento. Al mismo tiempo, sin embargo, se conservan las ventajas del mantenimiento preventivo en comparación con el mantenimiento no planificado relacionado con fallos, como una vida útil más larga de los sistemas, una mayor seguridad del sistema con menos accidentes y efectos negativos en las personas y el medio ambiente, o manipulación de repuestos.

Industria 4.0

Industria 4.0 es un término que se utiliza principalmente en los países de habla alemana para describir los cambios (especialmente económicos) provocados por la digitalización. Aquí es característica la interacción de las tecnologías digitales, como los términos aquí descritos y los procesos empresariales clásicos, que se supone que cambian considerablemente. Cada vez es más evidente que los procesos económicos digitales difieren mucho de los clásicos.

Con la digitalización y la Industria 4.0 se tienen altas expectativas como, por ejemplo, a través de ahorros potenciales, pero también se esperan nuevos riesgos.

Big Data

Big Data describe una arquitectura de un sistema y, al mismo tiempo, un nuevo paradigma de programación. Una explicación clara es que hoy en día se pueden acumular cantidades tan grandes de datos que ya no se pueden procesar con las arquitecturas de sistemas anteriores. Por esta razón, los datos se distribuyen en varios sistemas.

Para hacer frente a estas enormes y distribuidas cantidades de datos, se requieren nuevos conceptos de programación. De lo contrario, ya no es posible acceder a todos los datos en un tiempo justificado. En cambio, los datos deben ejecutarse en paralelo.

¿Qué es la ciencia de datos?