Inteligencia Artificial - Clase 03: Pandas!
Introducción a la manipulación de datos con Pandas
Resumen de la sección: En esta sección, el instructor introduce el tema de la manipulación de datos y cómo es importante en el desarrollo de modelos de inteligencia artificial. También presenta la herramienta por excelencia para esto, que es Pandas.
Ingeniería de Datos
- La ingeniería de datos es todo el proceso de manipular, transformar y almacenar los datos para que puedan ser ingresados a un modelo inteligente.
- Es importante aprender a manipular y manejar los datos ya que en la vida real los datos no vienen siempre bien estructurados.
Operaciones con Pandas
- Pandas es una librería para manejo de datos.
- Se utiliza NumPy para operaciones matemáticas y numéricas.
- Se puede utilizar Matplotlib para hacer visualizaciones bonitas.
- Todo lo que se va a ver en esta clase se hará a través de programación.
Estadística Descriptiva
- La estadística descriptiva nos permite describir las características de un conjunto de datos sin necesidad de describir todo el conjunto.
- A través del código, se van a ver ejemplos prácticos sobre distribución, media, mediana y moda.
Introducción a los Data Frames
Resumen de la sección: En esta sección, el instructor introduce el concepto de data frames y explica cómo son diferentes de las variables y matrices tradicionales. También muestra cómo crear un data frame utilizando una función que genera datos aleatorios.
¿Qué es un Data Frame?
- Un data frame es un conjunto de datos estructurados que puede almacenar mucha información.
- A diferencia de las variables y matrices tradicionales, los data frames pueden contener múltiples valores en lugar de solo uno.
- Los data frames están diseñados para almacenar grandes cantidades de registros.
Creación de un Data Frame
- Para crear un nuevo data frame, utilizamos la función
data.frame().
- Podemos utilizar funciones como
runif()para generar datos aleatorios dentro del data frame.
- Es posible especificar el número de filas y columnas que tendrá nuestro data frame al momento de su creación.
Visualización del Data Frame
- Podemos utilizar la función
head()para ver los primeros registros del data frame.
- Por defecto,
head()muestra los primeros cinco registros, pero podemos cambiar esto especificando cuántos registros queremos ver.
- Cada vez que ejecutamos
head(), los valores mostrados pueden cambiar debido a la generación aleatoria de datos.
Experimentación con el Data Frame
- Debido a que podemos generar grandes cantidades de datos en nuestros data frames, tenemos mucho espacio para experimentar con ellos.
- Podemos realizar medidas estadísticas sobre nuestros datos utilizando funciones como
mean(),median(), etc.
Problema con pandas
Resumen de la sección: En esta sección, el presentador muestra cómo solucionar un problema común al trabajar con pandas en Python.
Importación de librerías
- Para solucionar el error "pandas no está definido", es necesario importar la librería pandas.
- También se recomienda importar las librerías numpy y matplotlib.pyplot para evitar problemas futuros.
Solución del error "plc no está definido"
- Si aparece el error "plc no está definido", es necesario importar la librería pipeplot.
- Se recomienda siempre importar las tres librerías (pandas, numpy y pipeplot) al inicio del código para evitar errores posteriores.
Gráfico de distribución
- El gráfico generado por el código muestra una distribución de datos.
- Los gráficos son útiles para visualizar los datos y resumirlos de manera clara.
Introducción a Pandas
Resumen: En esta sección, el instructor introduce la librería Pandas y explica cómo se utilizará en la clase.
Introducción a Pandas
- El instructor presenta la librería Pandas y su utilidad para el manejo de datos.
- Se menciona que se trabajará con un set de datos existente que contiene 37 registros.
- Se destaca que Pandas permite realizar operaciones matemáticas y reducir grandes sets de datos.
- Se muestra el código utilizado para importar las librerías necesarias para trabajar con Pandas.
Operaciones con Pandas
Resumen: En esta sección, el instructor muestra cómo utilizar Pandas para realizar operaciones con los datos.
Operaciones con Pandas
- El instructor comienza explicando que se realizarán operaciones con los 37 registros del set de datos.
- Se menciona que se utilizará un archivo CSV para cargar los datos en una estructura DataFrame de Pandas.
- Se destaca la capacidad de reducir grandes sets de datos utilizando pandas.
- El instructor muestra cómo importar las librerías necesarias y cargar los datos desde un archivo CSV.
- Se compara la eficiencia del código en Python vs Excel al trabajar con grandes sets de datos.
- El instructor muestra cómo ejecutar celdas en Jupyter Notebook y verificar si han sido ejecutadas correctamente.
- Se menciona que se utilizará la librería Matplotlib para realizar visualizaciones de datos.
- El instructor muestra cómo cargar un set de datos con más de 5 millones de registros utilizando Pandas.
- Se destaca la capacidad de Pandas para manejar grandes sets de datos y realizar operaciones matemáticas eficientemente.
Creación de datos aleatorios
Resumen de la sección: En esta sección, el orador explica cómo crear datos aleatorios utilizando una función en Python.
Creando datos aleatorios
- Se utiliza una función para crear datos aleatorios.
- Los datos creados son números enteros entre 0 y 120.
- La función utilizada es capaz de crear cualquier cantidad de datos necesarios.
Creación de matrices
Resumen de la sección: En esta sección, el orador muestra cómo crear matrices en Python.
Creando matrices
- Se crea una matriz utilizando la función "numpy.zeros".
- La matriz creada tiene un tamaño específico definido por el usuario.
- Los valores dentro de la matriz son todos cero.
Ejemplo práctico: creación y manipulación de matrices
Resumen de la sección: En esta sección, el orador muestra un ejemplo práctico sobre cómo crear y manipular matrices en Python.
Ejemplo práctico
- Se crea una matriz con valores aleatorios utilizando la función "numpy.random.rand".
- Se accede a los elementos individuales dentro de la matriz utilizando índices.
- Se pueden realizar operaciones matemáticas con las matrices, como sumarlas o multiplicarlas.