¿Cuáles son los problemas prácticos del aprendizaje automático?

Un buen resultado basado en modelos de aprendizaje automático (Machine Learning) depende de la calidad de los datos disponibles. A continuación, se muestran algunos problemas prácticos en Machine Learning que surgen en la vida cotidiana cuando se usa Machine Learning.

Datos incompletos

No es raro ni improbable que, en una multitud de miles de datos de encuestas, falten algunos valores o sean obviamente incorrectos. Por ejemplo, algunos participantes en una encuesta dejan en blanco el campo de “ingresos” o “edad”. O hay malentendidos a la hora de rellenar un cuestionario, de modo que en el campo “edad”, por ejemplo, aparece “Barcelona”, porque la persona encuestada se deslizó en la línea al rellenar el cuestionario.

Estos errores obvios, a menudo, se pueden reconocer por el tipo de datos inadecuado. Para seguir con el ejemplo mencionado: si espero un número entero de uno a tres dígitos en el campo, y en su lugar obtengo una cadena de caracteres, entonces puedo ignorar el valor y dejar el campo en blanco.

Se pueden utilizar varias estrategias de interpolación para rellenar campos vacíos. Un enfoque simple pero eficaz, por ejemplo, es utilizar la mediana aplicable dentro de la encuesta si no se proporciona información sobre la edad.

Fuentes de datos muy diferentes

La calidad de los datos puede fluctuar dentro de una encuesta si existen diferentes fuentes de datos muy diferentes. Por ejemplo, es más fácil obtener información de los estudiantes directamente en la universidad que de otras partes de la sociedad. Esto debe ser mencionado en el modelo en el que se basa el estudio, para que quienes evalúan los datos puedan tener en cuenta este tipo de sesgos.

Datos no representativos

Una encuesta sobre el transporte público local en una estación de servicio de autopista seguramente recopila datos diferentes a los de la estación principal de tren en una gran ciudad durante la hora punta.

Una encuesta sobre el sistema escolar frente a una escuela secundaria durante las vacaciones navideñas, ciertamente recopila datos diferentes que durante el horario escolar.

En este sentido, el lugar y la hora juegan un papel importante en la recopilación de datos, y deben tenerse en cuenta.

Conclusión

Estos son solo dos ejemplos de la frecuencia con la que condiciones aparentemente banales, como el lugar y la hora de la encuesta, pueden ser decisivas para la calidad de los datos. Además, hay muchos otros factores que influyen, como el sesgo del recopilador de datos, el presupuesto disponible o los recursos disponibles.

Si finalmente se analizan los problemas, se hace evidente que una vez más, por parte de la recopilación práctica de datos, es importante asegurarse de que la calidad de los datos sea correcta. La falta de calidad de los datos disponibles solo se puede compensar de forma muy limitada con métodos modernos de aprendizaje automático o Machine Learning.

Problemas prácticos en Machine Learning