La calidad de los datos juega un papel clave en el desarrollo y el éxito de los proyectos de IA

Por muy atractiva que parezca la visión de usar la Inteligencia Artificial (IA) para revolucionar la propia empresa, o incluso una industria completa, los desafíos que surgen en la práctica son igualmente tangibles. Un problema común es una base de datos deficiente al comienzo de un proyecto. Entrenar a la IA con datos de baja calidad no tiene sentido, ya que aprende información incorrecta. En el desarrollo de proyectos de inteligencia artificial (IA), la calidad de los datos importa, y juega un papel calve en su éxito.

Una cuestión importante son las condiciones en las que la Inteligencia Artificial puede ayudar a diferenciar automáticamente entre datos personales y datos de la empresa, en grandes cantidades de datos de socios comerciales: clientes, proveedores, proveedores de servicios, etc.

Esta tarea es particularmente relevante para organizaciones con extensas bases de datos. Por ejemplo, es importante que las empresas de comercio electrónico y los minoristas, los bancos y las compañías de seguros, los proveedores de energía y las empresas de ferias comerciales gestionen los datos de los socios comerciales y puedan categorizarlos correctamente.

Específicamente, esto se refiere, por ejemplo, al cumplimiento de los requisitos del RGPD o de las pautas internas de cumplimiento de la empresa. Los proyectos de automatización de marketing también producen mejores resultados si su base de datos es correcta. En tales entornos, las soluciones de inteligencia artificial también podrían generar ganancias de eficiencia significativas durante la preparación, porque la configuración de tareas para la limpieza de datos con la ayuda de comparaciones de listas y algoritmos basados en reglas requiere mucho tiempo.

Consejos para proyectos de análisis de datos e inteligencia artificial en empresas

#1 El modelo de IA debe coincidir con el problema

El punto de partida de cada proyecto de IA es la selección de los modelos de IA adecuados. Para ello, el problema que se supone que resuelve la Inteligencia Artificial debe definirse con mucha precisión. Por supuesto, los modelos de IA podemos desarrollarlos nosotros mismos. Alternativamente, podemos elaborar un modelo adecuado junto con un socio experimentado. En cualquier caso, es aconsejable un enfoque exploratorio al inicio del proyecto, en el que primero se prueban y comparan diferentes modelos de IA. Porque no todos los modelos dan los mismos resultados con la misma entrada de datos. Varios factores, como la configuración, la cantidad y la distribución de datos de prueba y entrenamiento, o la frecuencia con la que se entrena un modelo, influyen en el resultado. Por lo tanto, las empresas deben planificar una cantidad de tiempo suficientemente grande en la concepción del proyecto para esta fase de selección.

#2 Los datos de entrenamiento necesitan e mayor nivel de atención

Además de la selección del modelo, lo más importante son los datos con los que se entrena una IA para su tarea. Si los datos de entrenamiento no se corresponden con la mayor precisión posible con los datos reales que se analizarán más adelante, inevitablemente surgirán problemas. Por lo tanto, al seleccionar los datos de prueba y entrenamiento, los gerentes de proyecto siempre deben hacerse dos preguntas:

  • ¿A qué datos (fuentes) puedo recurrir para responder mi problema?
  • ¿Qué datos adicionales puedo necesitar?

Si el sistema de IA debe ser entrenado y probado con datos personales reales, es posible que los datos de prueba y entrenamiento tengan que ser anonimizados y seudonimizados. En este caso, los responsables del proyecto deben comprobar cuidadosamente si los datos modificados siguen siendo suficientes y significativos para enseñar a la IA. Si se desea evitar el anonimato y la seudonimización, los datos también se pueden recopilar nuevamente y, de acuerdo con el RGPD de la UE, se puede obtener al mismo tiempo el permiso de la persona respectiva para su uso en un proyecto de IA. Esto es especialmente cierto cuando las empresas trabajan con socios de proyectos externos, o cuando los datos se van a mover a la nube.

#3 Utilizar los datos sintéticos (artificiales) con precaución

Para aprender y probar una IA, a menudo puede ser suficiente que las empresas recurran a datos generados, es decir, sintéticos (artificiales). Crucial para el éxito de este método: los datos deben distribuirse correctamente de acuerdo con la pregunta, y representar una sección representativa de los datos que se esperan en la operación real. Porque maca la diferencia para la IA si está entrenada con datos reales o generados. Por lo tanto, una IA entrenada con datos sintéticos necesita un monitoreo particularmente cercano en el uso productivo. De lo contrario, existe el riesgo de que un sistema inteligente también aprenda de los patrones según los cuales se generaron los datos sintéticos. En caso de duda, los gerentes de proyecto deben examinar cuidadosamente la forma en que se crearon los datos de prueba y entrenamiento sintéticos, para evitar efectos de aprendizaje negativos con la IA.

#4 Mucho no ayuda mucho – Cuidado con el “sobreajuste” (“overfitting”)

Para aprender correctamente una IA, no solo la calidad, sino también la cantidad de datos de entrenamiento y prueba, deben ser suficientes. La cantidad de datos no es el único criterio. Cuando se trata de entrenar modelos de IA, “más” no significa “mejor”. El problema del sobreajuste, conocido como “overfitting”, puede surgir particularmente con grandes cantidades de datos. En el proceso, una IA “olvida” lo que ha aprendido, o acumula conocimiento “incorrecto”, a partir de los datos de entrenamiento, lo que conduce a resultados incorrectos en la operación productiva. Los gerentes de proyecto a menudo reconocen un ajuste excesivo cuando la IA evalúa de manera confiable un conjunto de datos más pequeño, pero ya no ofrece resultados confiables para el conjunto de datos más grande.

Por lo tanto, las empresas deben asegurarse de que el número de referencias en los datos de entrenamiento y prueba sea suficiente para que la IA aprenda correctamente. La distribución, la sección representativa de los datos, debe ser correcta y reflejar la realidad de la pregunta respectiva.

Conclusión

Independientemente de si se trata de datos sintéticos o reales, los datos que se ponen a disposición de la IA para el aprendizaje deben ser siempre de alta calidad. De lo contrario, el sistema finalmente ofrece resultados incomprensibles o poco confiables. La alta calidad de los datos en los proyectos de IA (como en otros casos cuando se trata de datos de socios comerciales) significa: correctos, completos y libres de contradicciones. Si las empresas utilizan sus propios conjuntos de datos en el proyecto de IA, deben verificarlos y procesarlos con anticipación y garantizar su calidad.

Un estudio de Dataiku (AI Maturity Survey, 2019) ha demostrado que más del 40 por ciento de las empresas encuestadas consideran que la limpieza de datos es a parte más difícil, y que requiere más tiempo de un proyecto de inteligencia artificial. Esto se puede facilitar con la ayuda de herramientas de calidad de datos. Estas también pueden ayudar con la anonimización y seudonimización de sus propios datos reales con fines de entrenamiento.

Otro aspecto importante del aseguramiento de la calidad: las empresas deben confiar en la IA o en sus resultados desde un punto determinado del proyecto. Esto es más fácil si está seguro de que las decisiones de IA se toman sobre la base de datos correcta y la calidad adecuada.

Le ayudamos con la calidad de sus datos

En el mundo digital actual, en el que empresas y organizaciones (tanto nuevas empresas como las ya consolidadas) construyen y transforman sus modelos de negocio en torno a los datos y la información, descubriendo en qué se pueden utilizar los datos, Data.Barcelona ofrece una importante experiencia en la ciencia de datos, donde las habilidades lógicas y analíticas benefician a nuestros clientes.

Pasión por los datos

En Data.Barcelona apostamos por las personas con autismo de alto funcionamiento y Asperger. Un buen profesional de datos debe ser estructurado, persistente y terco, pensar de manera lógica y analítica, y ver tanto los detalles como las relaciones causales.

Estas características las poseen, de manera natural, las personas con autismo / Asperger.

Otra característica [importantísima] es que son personas honestas. Puede estar seguro de que nuestros analistas de datos serán francos y comunicarán la imagen real, sin importar lo indeseable que sea.

Podemos ayudarle con la calidad de sus datos, contacte con nosotros.