Master Big Data Online

Duración: 300 Horas / 3 meses

Temario

Nivel 1: Fundamentos de la Ciencia de Datos

Se introducen conceptos como matrices, álgebra lineal, álgebra relacional y otros con el fin de establecer su relación con el tratamiento y análisis de datos. Conceptos fundamentales sobre bases de datos relacionales, modelos de datos multidimensionales, OLAP y bases de datos NoSQL.

Nivel 2: Introducción a la Estadística

Mediante la estadística podemos extraer información valiosa que nos permita llegar a conclusiones razonables, entender los datos y su significado. Se introducen conceptos de estadística descriptiva, probabilidades, teorema de Bayes, variables aleatorias y otros.

Nivel 3: Programación

Se estudiarán los conceptos fundamentales de programación tales como matrices, vectores, funciones, lectura de archivos CSV, etc. Python, R y Java son los lenguajes más utilizados para las tareas de manipulación, análisis y visualización de datos.

Nivel 4: Machine Learning

Búsqueda de patrones a partir de las cuales construimos máquinas inteligentes capaces de aprender y tomar decisiones en base a datos empíricos. Introducimos aprendizaje supervisado y no supervisado, algoritmos, árboles de decisión, modelos predictivos, veremos la relación del teorema de Bayes, etc.

Nivel 5: Text Mining. Procesamiento de lenguaje natural

Búsqueda de patrones en textos basados en el lenguaje natural. Veremos temas como reconocimiento de entidades, análisis de textos, aprenderemos qué es el proyecto Apache UIMA (UnstructuredInformation Management), Apache Mahout, WEKA o MLTK.

Nivel 6: Visualización de Datos

Nivel 7: Fundamentos de Big Data

Es muy importante dominar las diversas herramientas disponibles para la visualización de datos, sus características y cuales son sus aplicaciones teniendo en cuenta los posibles escenarios. Veremos algunas de las herramientas más utilizadas como D3.js, Tableau, IBM ManyEyes o InfoVis.

Nivel 8: Data Ingestion

Aprenderemos los fundamentos del ecosistema Hadoop, MapReduce, HDFS, la puesta en marcha y administración de un cluster Hadoop, la diferentes herramientas de acceso a los datos, PIG, HIVE, HBASE, así como el papel que juegan en este ecosistema herramientas como MongoDB, Cassandra, etc.

Nivel 9: Data Munging

Proceso de limpiar un conjunto de datos desordenado, “sucio”. Trataremos algunas de las tareas que se incluyen en el proceso de “data munging” como son, análisis sintáctico, normalización, formateo de datos, data scrubbingo depuración de datos, o eliminación de ruido entre otras

Nivel 9: Herramientas Big Data

Analizaremos herramientas que se integran perfectamente en un ecosistema de trabajo, con el objetivo final de obtener información valiosa y vinculada a decisiones. Spark, Storm, Chukwa, NLTK, MS Excel como herramienta de análisis, RHIPE, entre otras.

Formadores IT