Temario

Este curso trata sobre diversas técnicas de análisis de datos, en su mayoría diseñadas para escalar a datos grandes. El enfoque del curso se concentra más en el entendimiento y aplicación de los algoritmos y los métodos, y menos en las herramientas para implementarlos.

Análisis de conjuntos frecuentes
- Algoritmo a-priori
- Market basket analysis
Búsqueda de elementos similares
- Minhashing para documentos
- Locality Sensitive Hashing (LSH), joins aproximados
Sistemas de recomendación 1
- Recomendación por contenido y filtros colaborativos
- Factorización de matrices y dimensiones latentes
Reducción de dimensionalidad: DVS
- Descomposición en valores singulares
- Componentes principales
Sistemas de recomendación 2
- Métodos basados en similitud
- Mínimos cuadrados alternados
- Descenso en gradiente estocástico
- Retroalimentación implícita
Recuperación de información
- Índices invertidos
- Modelo de espacio vectorial
- Normalización y similitud
- Indexado semántico latente
Análisis de redes 1
- Medidas de centralidad y pagerank
Análisis de redes 2
- Clustering y comunidades
Modelos de lenguaje 1
- N-gramas y conteos
- Aplicaciones
Modelos de lenguaje 2
- Inmersiones de palabras
- Modelos básicos de redes neuronales
Aplicaciones de modelos de lenguaje
- Corrección de ortografía, reconocimiento de idiomas
- Clasificación de textos
Métodos generales de clustering

Las notas del curso están R, y en algunos casos usamos python o línea de comandos. Puedes usar python también para hacer tareas y ejercicios.
Nuestro texto básico es (Leskovec, Rajaraman, and Ullman 2014). Referencias básicas adicionales son (Jurafsky and Martin 2000) (para procesamiento de lenguaje natural), y sparklyr para utlizar la interfaz de R a Spark.

Evaluación

Tareas semanales (30%)
Examen teórico parcial (35%)
Trabajo final (35%)

Referencias

Jurafsky, Daniel, and James H. Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 1st ed. Upper Saddle River, NJ, USA: Prentice Hall PTR.

Leskovec, Jure, Anand Rajaraman, and Jeffrey David Ullman. 2014. Mining of Massive Datasets. 2nd ed. New York, NY, USA: Cambridge University Press. http://www.mmds.org.

Métodos analíticos, ITAM 2022

Métodos analíticos, ITAM 2022

Temario

Evaluación

Referencias