Un paso más en Machine Learning: Claves para desarrollar tu proyecto

Nos encantan los proyectos innovadores que expanden los límites del análisis. Y, si a ti también te apasiona este mundo, sabrás que la aplicación de Inteligencia Artificial (IA) y Machine Learning está inspirando y sorprendiendo por igual a marketers y a otros profesionales del sector. Sólo necesitas echarle un vistazo a los sneaks (en desarrollo) del último Adobe Summit para intuir el potencial de esta tecnología. Y todo a partir de su IA conocida como Sensei.

Y quizás, por este motivo, te estás planteando impulsar tu propio proyecto de Machine Learning pero ¿por dónde empezarás? ¿tienes clara la diferencia entre aprendizaje supervisado y no supervisado? ¿qué elementos necesitas valorar? Hace unos meses publicamos un artículo donde te explicábamos qué es el Machine Learning y hoy damos un paso más para profundizar en este ámbito.

Machine Learning

First Things First: Inteligencia Artificial, Machine Learning, Estadística Avanzada…

No te lances a la aventura sin comprender primero qué implican varios conceptos que te ayudarán a comunicarte mejor con tu equipo técnico. Si nos sigues, sabrás que el Machine Learning es una subdisciplina de la IA, no es un sinónimo aunque, en muchos casos, se utiliza erróneamente este término. El Machine Learning se refiere a la capacidad de una máquina o software de aprender mediante la adaptación de algoritmos de su programación sobre cierta entrada de datasets en su sistema.

Debes tener en cuenta que el Machine Learning y la estadística avanzada pueden compartir, en algunos casos, métodos y algoritmos, una situación que propicia la confusión. Ambas disciplinas buscan aprender de los datos pero, quizás, aquello que más las diferencia es su objetivo: predecir versus comprender.

A partir de aquí, en Machine Learning se pueden diferenciar dos grandes categorías. ¿Qué implican?

Aprendizaje Supervisado (Supervised Learning) vs. Aprendizaje No Supervisado (Unsupervised Learning)

Hablamos de modelos supervisados cuando trabajamos con algoritmos que aprenden (o se “entrenan”) con datos previamente definidos con etiquetas (labels). Por ejemplo, el aprendizaje supervisado se utiliza para crear sistemas de reconocimiento de imágenes (como filtros que detecten fotografías ofensivas en redes sociales con una muestra inicial) o eliminar el spam en el correo electrónico (a partir del historial previo de emails identificados) .

Eso sí, cuando dichos modelos tienen la suficiente cantidad de data, pueden introducirse nuevos datos sin necesidad de etiquetas, en base a patrones distintos que se han venido registrando durante el entrenamiento. El algoritmo aprende a predecir unas etiquetas conocidas en función de las variables de entrada (features).

Con el aprendizaje no supervisado, en cambio, no se usan valores verdaderos o etiquetas. Estos sistemas radican en los casos donde no se sabe qué se busca. Por ejemplo, podríamos proporcionar a la computadora fotos de una paisaje “normal” para que, si un día se registra alguna anomalía, nos avise. El aprendizaje no supervisado aporta flexibilidad (no aplica ninguna restricción, raw data) y puede suponer un ahorro de costes si no se cuenta con datos etiquetados.

¿Cómo desarrollar un proyecto de Machine Learning?

El planteamiento de tu proyecto variará según si decides optar por un tipo u otro de algoritmo, la complejidad del problema que quieres abordar, si recurres a soluciones que te faciliten el trabajo…. Con todo, hay 3 pasos clave que debe seguir toda iniciativa en este ámbito:

1. Establece tu objetivo: Como en cualquier proyecto, el primer paso es determinar qué quieres conseguir para poder avanzar siempre con coherencia. Tu proyecto sólo tendrá sentido si tiene una aplicación práctica real. Piensa que es un proceso dinámico así que también necesitas escoger una métrica que te permita valorar su evolución, como la precisión de la predicción.

2. Preparación del data: La calidad y la cantidad del data marcará el éxito de tu proyecto así que dedica tiempo a su recolección. Puede irte bien visualizar los datos para detectar problemas como discrepancias o predominancia de una característica. Además, quizás debes limpiar tus datos, es decir, des-duplicarlos, normalizarlos, etiquetarlos… Aquí tienes más información sobre la preparación.

3. Elección del algoritmo: Existen decenas de modelos que pueden ayudarte, según si trabajas con datos numéricos, texto… Y no hay ninguna norma para escogerlo más allá de tu experiencia. A partir de aquí, se suele alimentar el algoritmo con un 80–70% del dataset (training set) y se permite que saque sus propias predicciones para compararlas con el 20–30% restante (test set). Así se validan sus resultados y se conoce su nivel de precisión. Y se repite el proceso. Estos porcentajes son orientativos ya que dependen de la cantidad de data.

A modo de anotación, no es recomendable dividir el dataset según ningún criterio lógico ya que, indirectamente, puedes condicionar los resultados (si tienes 6 categorías de producto, no uses 4 para el training y 2 para el test).

El objetivo de los proyectos de Machine Learning es la creación de un algoritmo que pueda dar respuesta a tus preguntas de negocio con un nivel de precisión aceptable. Y aquí pueden intervenir un gran número de factores. Si no sabes por dónde empezar y necesitas ayuda, no dudes en preguntarnos.

¿Te interesa conocer más detalles? Aquí te explicamos cómo detectar problemas en tu negocio con la aplicación de algoritmos.

¿Y tú? ¿Cómo aplicas Machine Learning en tu compañía?

DBi Data Business Intelligence es una consultoría especializada en inteligencia digital de última generación que forma parte Havas Group. Nuestra misión es ayudarte a sacar el máximo partido del nuevo modelo de negocio digitalizado, multicanal y multiexperiencia en la que los datos son la nueva moneda y un activo estratégico.

Enviar comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *