Duración: 300 Horas / 3 meses
Temario
Se introducen conceptos como matrices, álgebra lineal, álgebra relacional y otros con el fin de establecer su relación con el tratamiento y análisis de datos. Conceptos fundamentales sobre bases de datos relacionales, modelos de datos multidimensionales, OLAP y bases de datos NoSQL.
Mediante la estadística podemos extraer información valiosa que nos permita llegar a conclusiones razonables, entender los datos y su significado. Se introducen conceptos de estadística descriptiva, probabilidades, teorema de Bayes, variables aleatorias y otros.
Se estudiarán los conceptos fundamentales de programación tales como matrices, vectores, funciones, lectura de archivos CSV, etc. Python, R y Java son los lenguajes más utilizados para las tareas de manipulación, análisis y visualización de datos.
Búsqueda de patrones a partir de las cuales construimos máquinas inteligentes capaces de aprender y tomar decisiones en base a datos empíricos. Introducimos aprendizaje supervisado y no supervisado, algoritmos, árboles de decisión, modelos predictivos, veremos la relación del teorema de Bayes, etc.
Búsqueda de patrones en textos basados en el lenguaje natural. Veremos temas como reconocimiento de entidades, análisis de textos, aprenderemos qué es el proyecto Apache UIMA (UnstructuredInformation Management), Apache Mahout, WEKA o MLTK.
Búsqueda de patrones en textos basados en el lenguaje natural. Veremos temas como reconocimiento de entidades, análisis de textos, aprenderemos qué es el proyecto Apache UIMA (UnstructuredInformation Management), Apache Mahout, WEKA o MLTK.
Es muy importante dominar las diversas herramientas disponibles para la visualización de datos, sus características y cuales son sus aplicaciones teniendo en cuenta los posibles escenarios. Veremos algunas de las herramientas más utilizadas como D3.js, Tableau, IBM ManyEyes o InfoVis.
Aprenderemos los fundamentos del ecosistema Hadoop, MapReduce, HDFS, la puesta en marcha y administración de un cluster Hadoop, la diferentes herramientas de acceso a los datos, PIG, HIVE, HBASE, así como el papel que juegan en este ecosistema herramientas como MongoDB, Cassandra, etc.
Proceso de limpiar un conjunto de datos desordenado, “sucio”. Trataremos algunas de las tareas que se incluyen en el proceso de “data munging” como son, análisis sintáctico, normalización, formateo de datos, data scrubbingo depuración de datos, o eliminación de ruido entre otras
Analizaremos herramientas que se integran perfectamente en un ecosistema de trabajo, con el objetivo final de obtener información valiosa y vinculada a decisiones. Spark, Storm, Chukwa, NLTK, MS Excel como herramienta de análisis, RHIPE, entre otras.