Data Science como servicio: así es como las empresas desarrollan modelos de negocio basados en datos

Big Data, Data Analytics y Data Science no son palabras de moda, sino la base para que las empresas construyan modelos de negocio basados en datos. No pasa un día en el que políticos, asociaciones, institutos y consultorías no señalen la necesidad de abordar estos temas.

Al comienzo de cada nueva tendencia importante, son principalmente las instituciones de investigación y las grandes empresas las pioneras, las que hacen el trabajo preliminar.

El número de empleados de las empresas se basa en las necesidades de los clientes y sus pedidos. No suele haber exceso de capacidad desde el punto de vista cuantitativo. Pero la escasez cualitativa sí que suele estar presente y tener impactos.

La mayoría de los empleados a largo plazo han sido capacitados en las rutinas diarias. Su conocimiento proviene de la gestión de materiales, la planificación de la producción y la contabilidad financiera, mientras que el departamento de TI se ocupa de la infraestructura tecnológica.

Pero, en este último año, durante la pandemia de COVID-19, hemos podido comprobar cuántas empresas estaban insuficientemente preparadas para el trabajo digital. Y muy pocas tenían verdaderos modelos de negocio basados en datos.

Entonces, ¿qué hacer cuando se trata de disrupción, predicción e inteligencia artificial? ¿Cuándo los directivos tienen que reconocer que no pueden desarrollar el potencial de ventas debido a capacidades insuficientes? ¿Qué no pueden aprovechar el potencial de reducción de costes?

No se trata de si, sino de cómo

La formación de personal, en su mayoría por “especialistas” que inicialmente no trabajan “para clientes o ventas”, es vista con reticencia en los niveles gerenciales. La presión de los costes es demasiado grande. Los planes de negocios y los cálculos de retorno de la inversión deben primero demostrar la necesidad y el beneficio de una manera puramente matemática.

Pero, ¿quién puede hoy decir con certeza qué ocurrirá en seis o doce meses? Y, una vez que se da aprobación para el desarrollo de capacidades, ¿cómo puede un departamento de recursos humanos que hasta este momento solo ha contratado personal de confianza con habilidades conocidas ganar la batalla por estos jóvenes talentos? La competencia con las grandes empresas y las consultorías especializadas es grande, quizás demasiado.

El hecho es que la ciencia de datos y la inteligencia artificial influirán en la vida mucho más allá de los procesos operativos. Por lo tanto, se trata esencialmente de cómo aprovechar las oportunidades y minimizar los riesgos.

Los modelos como servicio (As-a-Service) están diseñados precisamente para ello. Se trata de la provisión temporal o la subcontratación de personal, así como de una infraestructura tecnológica para compensar un cuello de botella cuantitativo, o para proporcionar conocimientos especializados para evaluar o resolver un problema.

Las mejores prácticas ayudan

A finales de 1996 se desarrolló un proceso estándar intersectorial, financiado por la UE. El modelo de minería de datos CRISP (Cross Industry Standard Process) consta de seis fases, y ha sido la plantilla para los proyectos de ciencia de datos desde entonces.

Este denominado “Proceso Estándar de Minería de Datos” fue desarrollado para estructurar la necesaria división del trabajo, y cubre todas las fases que son necesarias, por un lado, para la viabilidad técnica y, por otro lado, para determinar la rentabilidad. Consta de las fases:

  • Business Understanding
  • Data Understanding
  • Data Preparation
  • Modeling
  • Evaluation
  • Deployment

El punto es comprender la aplicación, un supuesto caso de uso, sobre los datos, preparar los datos, resolver el problema en un modelo matemático y comprobar si también se puede operativizar, es decir, utilizar de forma productiva.

Modelo de minería de datos CRISP

Este proceso es utilizado con éxito por muchas empresas, a veces en variantes similares, en las que a menudo se define como un proceso de ciencia de datos. Siempre se implementa como parte de una PoC (Proof of Concept).

Las seis fases del modelo se complementan entre sí, y dependen del resultado del paso anterior respectivo. Específicamente, se refieren a:

  • La primera fase de Business Understanding no consiste solo en comprender el problema, sino también en definir los objetivos asociados y obtener los beneficios.
  • Como parte de Data Understanding, es importante obtener una descripción general de las fuentes y los datos disponibles, así como de su procesabilidad y calidad.
  • La fase de Data Preparation se utiliza para crear conjuntos de datos sin errores, mediante la selección (incluida la limpieza) y la combinación de datos. La ingeniería de características/prestaciones (Feature Engineering), es decir, la conversión de datos sin procesar en variables o valores numéricos, juega un papel importante aquí.
  • El núcleo del modelo CRISP es el Modelado, es decir, la evaluación matemática o estadística de los datos (Machine Learning) para mostrar patrones y / o hacer predicciones.
  • En la fase de Evaluación, se debe decidir con respecto a una posible optimización técnica adicional y el beneficio definido si se debe llevar a cabo una operacionalización o una implementación productiva.
  • La última fase y, básicamente un proyecto separado que debe planificarse, es la Implementación. Esto se refiere a la implementación del modelo en la infraestructura de TI y los procesos operativos existentes.

La diversidad de requisitos como desafío

Por supuesto, se requieren diferentes titulaciones (como un Master en Business Analytics) y, dependiendo del tamaño de un proyecto, un mayor número de personas para cada una de estas fases descritas. La siguiente descripción general muestra la diversidad como ejemplo, pero se limita a indicar en qué se diferencian las tareas entre sí.

Factores de influencia técnicos y organizativos

En el aspecto tecnológico, ahora se dispone de una gran cantidad de sistemas, proveedores y procesos. Especialmente en el área del aprendizaje automático o Machine Learning, es decir, la parte real de la IA, ahora existen una variedad de aplicaciones, por lo que aquí también tenemos que hablar de una especialización necesaria.

Pero ya sea NLP (Natural Language Processing), reconocimiento de imágenes, predicciones o detección de anomalías: sin personal debidamente capacitado y experimentado, las posibilidades de éxito son escasas. Además, debe tenerse en cuenta que las capacidades respectivas con un proyecto se utilizan solo parcialmente, y los posibles usos de estas capacidades dependen unos de otros y se complementan entre sí.

Si, por ejemplo, el resultado de la preparación de datos no es satisfactorio y el ingeniero de datos debe repetirlo y optimizarlo varias veces, el ingeniero de aprendizaje automático no puede comenzar su trabajo. O si, después de la comprensión de los datos, resulta que los datos existentes son heterogéneos y están ampliamente distribuidos, y aún muestran una calidad de datos muy baja, un solo ingeniero de datos puede resolver la tarea de manera deficiente, o solo en un tiempo insatisfactorio.

Por supuesto, un científico de datos experimentado también puede manejar todos estos pasos del proceso por sí solo. Pero, ¿se puede convencer a un empleado tan altamente cualificado, y luego utilizarlo adecuadamente? En la práctica, estos empleados esperan tareas técnicamente exigentes y cambiantes. Debido a esta demanda potencial insuficiente, la insatisfacción puede surgir rápidamente.

Modelos de negocio basados en datos

Cuando se trata de tomar decisiones basadas en criterios multidimensionales como el tiempo, la cantidad, los costes y la competencia en el contexto descrito, la ciencia de datos como servicio puede realizar una contribución esencial a la empresa. Ya sea analista de datos, ingeniero de datos, ingeniero de Machine Learning, o científico de datos integral: con la ciencia de datos como servicio, las competencias respectivas se utilizan en el momento adecuado en el momento correcto con objetivos previamente definidos y costes asociados. Y esto, independientemente de si se trata de minimizar riesgos, aumentar la velocidad, superar cuellos de botella o, incluso, probar nuevos métodos.

Esto se aplica igualmente a las empresas que ya han adquirido experiencia y a las que justo están comenzando a ocuparse de la ciencia de datos. Porque, independientemente de si tenemos un equipo existente, o si estamos comenzando los primeros proyectos de ciencia de datos, el éxito de los proyectos es definitivamente una pieza de la ciencia de datos como servicio.

Cómo desarrollar modelos de negocio basados en datos