Introducción
El aprendizaje no supervisado permite abordar los problemas con poca o ninguna idea de cómo deberían verse los resultados y sin indicaciones externas. En este tipo de aprendizaje, los datos se agrupan en base a las relaciones no obvias entre las variables.
En este tipo de aprendizaje los datos no están etiquetados, y por tanto, no se dispone de resultados conocidos previos. Con el aprendizaje no supervisado, no hay retroalimentación basada en los resultados de la predicción.
El aprendizaje supervisado usa algoritmos de machine learning para analizar y agrupar conjuntos de datos no etiquetados.
Estos algoritmos son capaces de descubrir patrones ocultos en la información sin necesidad de intervención humana.
Su capacidad para descubrir similitudes y diferencias en la información los hace ideales para minería de datos, venta cruzada, segmentación de clientes, reconocimiento de imágenes, detección de anomalías, etc.
El aprendizaje no supervisado trata de resolver dos tipos principales de problemas:
- Clustering: dada una colección de 1,000,000 de genes diferentes, se busca una manera de agrupar automáticamente dichos genes en grupos que sean de alguna manera similares o relacionados por diferentes variables, como la vida útil, la ubicación, los roles, etc. Otros usos podría ser en marketing, bibliotecas, seguros…
- Reducción de dimensionalidad: por ejemplo, el “Cocktail Party Algoritm” permite encontrar estructuras en un entorno caótico (es decir, identificar voces y música individuales a partir de una malla de sonidos).
¿Qué es el efecto de fiesta de cóctel?
Leer https://es.wikipedia.org/wiki/Efecto_de_fiesta_de_c%C3%B3ctel. La implementación del “Cocktail Party Algoritm” está en este enlace.
Clustering
Preguntas sobre el vídeo:
- ¿Qué es un cluster?
- ¿Es el clustering aprendizaje supervisado o no supervisado? ¿Por qué?
Clustering K-Means
Clustering K-Means
Preguntas sobre el vídeo:
- ¿Es el método de K-Means iterativo?
- ¿Cómo se calcula el nuevo centroide?
Preguntas sobre el vídeo:
- ¿Para qué sirve numpy?
- ¿Qué es una distribución normal?
- ¿De qué dimensiones es la matriz
puntos
? - ¿De qué dimensiones es la matriz
centroides
? - ¿Se te ocurre una manera más sencilla de elegir los centroides?
Preguntas sobre el vídeo:
- ¿Qué dimensiones tienen las matrices
puntos_expand
ycentroides_expand
? - ¿Qué es la distancia euclídea?
- ¿Cómo se elige a que cluster pertenece un punto?
Preguntas sobre el vídeo:
- ¿Qué dimensiones tiene la matriz
lista
? - ¿Qué dimensiones tiene la matriz
nuevos_centroides
?
Preguntas sobre el vídeo:
- ¿Qué librería se usa para representar los tres clusters?
Clustering G-Means
Preguntas sobre el vídeo:
- ¿Con qué coincide el eje de simetría de la distribución normal?
- Coloquialmente ¿qué simboliza la desviación estándar?
- ¿Qué ejemplo de uso de una distribución normal se menciona en el vídeo?
¿Es lo mismo una distribución normal que una distribución gausiana?
Si
Clustering jerárquico
Clustering jerárquico