Introducción
Hay diferentes entornos de desarrollo:
- Google Colab (cloud).
- Conda: con Miniconda o Anaconda.
- Editor de Notebooks:
- Visual Studio Code
- DataSpell/PyCharm
- Jupyter Notebook (no autocompleta)
¿Qué es un Notebook?
Documento que contiene código, ecuaciones, visualizaciones y texto narrativo ejecutable. Se puede utilizar para limpiar y transformar datos, realizar simulaciones numéricas, modelado estadístico, visualización de datos, aprendizaje automático y mucho más.
Instalar Python
Ir a la web https://www.python.org/downloads/ y descarga la versión 3.11.4 de Python.
Una vez instalado deberás poder ver la versión de Python desde el terminal con el siguiente comando:
1
2
$python --version
Python 3.11.4
Deberás tener algo similar a lo que se ve a continuación:
Versión de Python en terminal de Windows 11
Anaconda
¿Qué es Anaconda?
Es una suite de código abierto de los lenguajes R y Python. Se usa principalmente en trabajos de aprendizaje automático y de análisis de datos. Su funcionalidad es enorme, pues te permite efectuar las siguientes funciones:
- Procesar grandes volúmenes de información.
- Realizar un análisis predictivo.
- Ejecutar cómputos científicos.
Las diferentes versiones de los paquetes se administran mediante el sistema de gestión de paquetes conda, el cual lo hace bastante sencillo de instalar, correr, y actualizar software de ciencia de datos y aprendizaje automático como puede ser Scikit-team, TensorFlow y SciPy.3
La distribución Anaconda es utilizada por 6 millones de usuarios e incluye más de 250 paquetes de ciencia de datos válidos para Windows, Linux y MacOS.
Ir a la web https://www.anaconda.com/download y descarga e instala la última versión de Anaconda.
Crear entorno de SAA en Anaconda
Creamos el entorno:
imgDescription
Le damos nombre de saa:
Instalar aplicaciones con Anaconda
Las aplicaciones que debemos instalar con Anaconda son:
- Spyder
- Notebook de Jupyter
Instalamos las aplicaciones marcadas:
Aplicaciones ya instaladas
Instalar librerías en entorno SAA desde entorno gráfico en Anaconda
Instalamos numpy:
Instalación gráfica de paquete numpy
¿Qué es NumPy?
NumPy es una librería de Python especializada en el cálculo numérico y el análisis de datos, especialmente para un gran volumen de datos.
Incorpora una nueva clase de objetos llamados arrays que permite representar colecciones de datos de un mismo tipo en varias dimensiones, y funciones muy eficientes para su manipulación.
La ventaja de Numpy frente a las listas predefinidas en Python es que el procesamiento de los arrays se realiza mucho más rápido (hasta 50 veces más) que las listas, lo cual la hace ideal para el procesamiento de vectores y matrices de grandes dimensiones.
Instalar paquetes en entorno SAA desde Anaconda Prompt
Iniciamos el Anaconda Prompt:
Búsqueda de Anaconda Prompt desde el inicio de Windows
Activamos el entorno de SAA:
1
2
(base) C:\Users\marco>conda activate saa
(saa) C:\Users\marco>
Instalamos librería matplotlib:
1
(saa) C:\Users\marco>conda install matplotlib
¿Qué es MatPlotLib?
Matplotlib es una librería de Python especializada en la creación de gráficos en dos dimensiones. Permite crear y personalizar los tipos de gráficos más comunes.
Instalamos librería scikit-learn del repositorio externo conda-forge:
1
(saa) C:\Users\marco>conda install -c conda-forge scikit-learn
¿Qué es scikit-learn?
Scikit-learn es una biblioteca de aprendizaje automático de código abierto que admite el aprendizaje supervisado y no supervisado. También proporciona varias herramientas para el ajuste de modelos, el preprocesamiento de datos, la selección y evaluación de modelos, y muchas otras utilidades. Scikit-learn se basa en NumPy, SciPy y matplotlib, y es un buen paquete para explorar el aprendizaje automático. Aunque solo lo usa para tomar prestadas algunas funciones en un módulo posterior, puede explorar este paquete con mayor detalle después de completar este curso.
¿Qué es Pandas?
Pandas es una biblioteca para el manejo y análisis de datos. Representa los datos de una tabla que es similar a una hoja de cálculo. Esta tabla se conoce como un DataFrame de pandas.
¿Qué es Seaborn?
Seaborn es otra biblioteca de visualización de datos para Python. Está construido sobre matplotlib, y proporciona una interfaz de alto nivel para dibujar gráficos estadísticos informativos.
Visual Studio Code
Existe la posibilidad de usar Visual Studio Code para ejecutar y editar ficheros IPYNB. En este caso no haremos uso de entornos aislados por lo que podemos tener problemas a la hora de usar los Notebook si estos usan diferentes versiones de Python. Para instalar librerías por terminal, es tan sencillo como lo siguiente:
1
$pip install scikit-learn matplotlib numpy pandas keras tensorflow
Este comando instalará los paquetes de scikit-learn
, matplotlib
, numpy
, pandas
, keras
y tensorflow
.