Inicio Tarea: Clustering
Artículo
Cancelar

Tarea: Clustering

Entrega y presentación

La entrega será en formato PDF. Leer Entrega y presentación de tareas.

Calificación

La tarea se calificará con una nota de 0 a 10.

Duración: - horas

Actividades

Descarga el fichero enunciado_tarea_clustering.zip y realiza las siguientes actividades:

(Voluntaria) K-Means en Python paso a paso

Lee el artículo K-Means en Python paso a paso y responde a las siguientes preguntas sobre el mismo:

  1. ¿K Means es un algoritmo supervisado o no supervisado?
  2. ¿KMeans es un algoritmo de regresión o clasificación?
  3. En el caso de K Means, ¿es recomendable que los valores utilizados estén normalizados?
  4. En el caso de K Means, ¿conviene utilizar características/parámetros que estén correlacionados?
  5. En K Means, las posiciones iniciales de los centroides, ¿cómo se calculan?
  6. En K Means, ¿qué es el “punto codo” y para qué se utiliza?

Ejercicio_K_Means.ipynb

Dados los ficheros Ejercicio_K_Means.ipynb y analisis.csv del artículo K-Means en Python paso a paso.

Ejecuta el fichero Ejercicio_K_Means.ipynb en tu workspace solventando los problemas que te puedan aparecer.

📸 Haz una captura de la gráfica 3D con sus respectivo centroides.

¿Cuál es el usuario más cercano a cada centroide?

¿En qué grupo se clasifica davidguetta?

📸 Haz una captura donde se vea la ejecución de la clasificación.

¿En qué grupo se clasificaría las siguientes cuentas?

1
2
3
4
5
"pata","49.541828","14.789355","47.688172","28.897527","8.211290","95.1008","8"
"peta","41.483701","26.283071","50.352283","30.561496","16.201707","39.6299","9"
"pita","36.813721","40.046124","52.722403","34.703256","6.625736","81.8495","1"
"pota","33.422105","31.572688","32.931613","17.494624","9.609785","89.9140","7"
"maria","39.315610","51.741463","10.739350","13.231220","6.201707","121.2602","8"

📸 Haz una captura donde se vea la ejecución de las clasificaciones.

Cambia el número de centroides y vuelve a ejecutar todo el notebook.

📸 Haz una captura de la gráfica 3D con sus respectivo centroides.

¿Cuál es el usuario más cercano a cada centroide?

📸 Haz una captura donde se vea la ejecución de la clasificación.

Con los nuevos centroides, ¿En que grupo se clasificaría las cuentas de davidguetta, pata, peta, pita, pota y maria?

📸 Haz una captura donde se vea el resultado de las nuevas clasificaciones.

ML_3_1_UnsupervisedLearning_Clustering.ipynb

Ejecuta el fichero ML_3_1_UnsupervisedLearning_Clustering.ipynb y responde a las siguientes preguntas:

  1. ¿Cuáles son algunas de las principales aplicaciones de los algoritmos de clustering?
  2. Describe 2 técnicas para seleccionar el número correcto de clústeres al usar K-Means.

ClusteringMetrics.ipynb

Ejecuta el fichero ClusteringMetrics.ipynb y responde a las siguientes preguntas:

  1. Explica que otros dos métodos adicionales existen para seleccionar el número correcto de clusters. ¿En qué consisten? Busca información al respecto.
  2. ¿Qué otros algoritmos de clustering existen al margen del clásico K-means? Busca 2 y descríbelos.

data_Clustering.csv

Dado el dataset data_Clustering.csv aplica un algoritmo de clustering a dicho dataset. Responde a las siguientes preguntas:

  1. ¿Cuál es la media, max, min de cada característica?
  2. ¿Cuál es la distribución espacial del dataset? Obtén una representación gráfica.
  3. ¿Cuál es la evolución de la inertia en función de K? Obtén una representación gráfica.
  4. ¿Cuál es el número óptimo de clusters que obtienes según el método del Elbow y el método del Silhouette Score?
  5. Una vez obtenido el valor óptimo de K, genera un modelo K-means y entrénalo con los datos anteriores.
  6. Invéntate diversas predicciones para saber en qué clúster se asigna.

(Voluntaria) 09_unsupervised_learning.ipynb

Lee, ejecuta y trata de entender el fichero 09_unsupervised_learning.ipynb.

(Voluntaria) Datasets en Kaggle

Crea una cuenta en https://www.kaggle.com/ y descárgate el dataset que más te interese para utilizar la técnica de K Means en él. Es probable que tengas que hacer una preparación previa de los datos.

Si no sabes que dataset utilizar, aquí tienes varias:

  1. Customer Clustering → Encuentra cuantos grupos de clientes tenemos para poder hacer campañas de márketing dirigidas.
  2. Big Five Personality Test → Encuentra cuantos grupos de personalidad existen para poder hacer estudios psicológicos basándonos en estos grupos.
  3. Countries Dataset 2020 → Encuentra que países son similares a España.
  4. Wine Dataset for Clustering → Encuentra cuentos tipos de vinos hay.

📸 Haz una o varias capturas de pantalla donde se vea lo que has realizado.

Bibliografía

Este artículo está licenciado bajo CC BY 4.0 por el autor.

Tarea: Introducción a Odoo

Puntos principales sobre el cumplimiento normativo