Diferencias entre Machine Learning, Big Data y Data Science

Seguro que en multitud de ocasiones has oído hablar de Machine Learning. Relacionado con él también están el Big Data y Data Science, pero es posible que no sepas establecer que tienen en común y en qué se diferencian estas disciplinas. En los últimos años han experimentado un gran auge gracias a la importancia que está ganando el uso de datos dentro de las grandes compañías. La verdad es que todas estas disciplinas están muy relacionadas entre sí, y a su vez abarcan campos completamente diferentes. Es este post trataremos de entender las diferencias entre Machine Learning, Big Data y Data Science.

Data Science

La Data Science (o ciencia de datos en castellano) es un área de trabajo que trata de conseguir información útil y de valor a partir de los datos, con el objetivo de mejorar la toma de decisiones.

Se fundamenta en 3 tipos de habilidades: conocimiento matemático/estadístico, de negocio y de la tecnología.

En un proyecto de Data Science es común seguir el siguiente proceso de trabajo:

  • Recogida de datos: identificamos qué objetivos queremos conseguir y qué datos necesitamos para conseguirlo.
  • Tratamiento de los datos: procesamos la información disponible para que esté en condiciones de ser analizada.
  • Análisis y modelado: se lleva a cabo el proceso de análisis. En este punto intervienen las técnicas de Machine Learning que veremos más adelante.
  • Evaluación: testamos los resultados obtenidos para comprobar que se alcanza un nivel de precisión óptimo
  • Visualización y presentación de resultados: “traducimos” los resultados matemáticos al idioma de negocio y estructuramos el contenido de la manera más didáctica posible.

Existen múltiples herramientas que nos posibilitan este tipo de trabajos, pero destacaría por encima del resto los lenguajes de programación Python y R. Especializados en el análisis de datos, son capaces de cargar y transformar información, realizar una gran variedad de análisis y representar gráficamente los resultados.

Big Data

Cuando se habla de Big Data se habla de conjuntos de datos de gran tamaño. Parece algo sencillo, ya que en vez de contar con un cierto de volumen de información, se pasa a disponer de un volumen mayor.

Sin embargo, cuando este tamaño traspasa ciertas fronteras, debemos tener en cuenta ciertas implicaciones. Cuando se trabaja con volúmenes de datos del orden de Terabytes (TB) no es posible almacenarlos en un solo ordenador, y no digamos ya procesarlos. Esto impide que podamos utilizar tecnologías convencionales sobre ellos. Además, es más difícil interpretar la información contenida y requiere tiempos de procesado mucho más largos.

Es por ello, por lo que en los últimos años se ha desarrollado muchas tecnologías que nos permiten afrontar este reto: desde bases de datos como MongoDB y Cassandra, pasando a sistemas de procesamiento de datos como Spark y Hadoop, hasta tecnologías de ingesta y envío de eventos en tiempo real como Kafka.

Mediante estas tecnologías podemos distribuir nuestra carga de trabajo en un cluster formado por varias CPUs, haciendo posible trabajar con enormes conjuntos de datos, tan grandes como nuestra infraestructura lo permita. El siguiente paso es la computación en la nube, pero esto lo dejaremos para otro artículo.

Machine Learning

El Machine Learning (ML) es la disciplina que explota la capacidad de los ordenadores de aprender sin ser explícitamente programados.

Para que se produzca este aprendizaje de forma efectiva son necesarios dos elementos:

  • Un gran conjunto de datos, del cual extraer la información.
  • Un algoritmo, el cual analiza y explora los datos disponibles, identificando patrones y estableciendo relaciones entre ellos.

De esta forma una máquina, tras observar cientos de miles de registros, es capaz de aprender y llevar a cabo ciertos procesos. Así, una maquina entrenada con imágenes de animales podrá identificar un perro cuando lo vea, empleando la información del conjunto de datos que ha usado previamente.

Existen numerosas técnicas, aunque quizás la más conocida es la de las redes neuronales. Una técnica que simula el comportamiento del cerebro humano. Una red neuronal esta formada por una serie de parámetros de entrada, un valor de salida, y una serie de capas intermedias. Lo interesante de este modelo es que es él mismo quien decide cuál es la combinación de capas intermedias que mejor se adaptan al problema.

Recapitulando

Ahora que ya hemos visto qué es cada una de las disciplinas, podemos entender mejor como interactúan entre ellas, resumiéndolo todo en una frase:

“El Machine Learning es una fase de trabajo de un proyecto de Data Science, donde pueden emplearse conjuntos Big Data.”

Partiendo de una formación científica, Jorge ha sabido adaptarse al mundo del data marketing. Ha llevado a cabo diferentes proyectos de modelización, atribución digital y estadística avanzada, combinando el desarrollo de herramientas propias con el uso de algunos de los servicios en Cloud más avanzados del mercado.

Enviar comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *