Métodos analíticos, ITAM 2022
2022-05-18
Temario
Este curso trata sobre diversas técnicas de análisis de datos, en su mayoría diseñadas para escalar a datos grandes. El enfoque del curso se concentra más en el entendimiento y aplicación de los algoritmos y los métodos, y menos en las herramientas para implementarlos.
- Análisis de conjuntos frecuentes
- Algoritmo a-priori
- Market basket analysis
- Búsqueda de elementos similares
- Minhashing para documentos
- Locality Sensitive Hashing (LSH), joins aproximados
- Sistemas de recomendación 1
- Recomendación por contenido y filtros colaborativos
- Factorización de matrices y dimensiones latentes
- Reducción de dimensionalidad: DVS
- Descomposición en valores singulares
- Componentes principales
- Sistemas de recomendación 2
- Métodos basados en similitud
- Mínimos cuadrados alternados
- Descenso en gradiente estocástico
- Retroalimentación implícita
- Recuperación de información
- Índices invertidos
- Modelo de espacio vectorial
- Normalización y similitud
- Indexado semántico latente
- Análisis de redes 1
- Medidas de centralidad y pagerank
- Análisis de redes 2
- Clustering y comunidades
- Modelos de lenguaje 1
- N-gramas y conteos
- Aplicaciones
- Modelos de lenguaje 2
- Inmersiones de palabras
- Modelos básicos de redes neuronales
- Aplicaciones de modelos de lenguaje
- Corrección de ortografía, reconocimiento de idiomas
- Clasificación de textos
- Métodos generales de clustering
Las notas del curso están R, y en algunos casos usamos python o línea de comandos. Puedes usar python también para hacer tareas y ejercicios.
Nuestro texto básico es (Leskovec, Rajaraman, and Ullman 2014). Referencias básicas adicionales son (Jurafsky and Martin 2000) (para procesamiento de lenguaje natural), y sparklyr para utlizar la interfaz de R a Spark.
Evaluación
- Tareas semanales (30%)
- Examen teórico parcial (35%)
- Trabajo final (35%)
Referencias
Jurafsky, Daniel, and James H. Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 1st ed. Upper Saddle River, NJ, USA: Prentice Hall PTR.
Leskovec, Jure, Anand Rajaraman, and Jeffrey David Ullman. 2014. Mining of Massive Datasets. 2nd ed. New York, NY, USA: Cambridge University Press. http://www.mmds.org.