Cómo leer archivos CVS en Python con Pandas read_csv()

Índice

La función read_csv() de la Biblioteca Python Pandas es una de las funciones más utilizadas para cargar datos de archivos CSV y almacenarlos en formato DataFrame. Los archivos CSV (Comma-separated Values) son un formato ampliamente utilizado para almacenar datos tabulares porque son compatibles con muchos programas.

Web hosting

El hosting web al mejor precio

3 veces más rápido y un 60 % más barato
Máxima disponibilidad con > 99,99
Sólo con IONOS: hasta 500 GB de espacio de almacenamiento incluido

Sintaxis de Python Pandas `read_csv()`

La función pandas.read_csv() crea un DataFrame de Pandas basado en un archivo CSV. Puede aceptar una variedad de parámetros diferentes que especifican el comportamiento de la función. A continuación, abordaremos solo los argumentos más importantes y comúnmente necesarios. Si quieres verlos todos, encontrarás una lista completa en la página oficial de referencia de Pandas.

La sintaxis básica de la función es sencilla y se presenta de la siguiente manera:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Parámetros relevantes

A continuación, se presenta un resumen de los parámetros más importantes para la función pandas.read_csv():

Parámetro	Significado	Valor predeterminado
`filepath_or_buffer`	Es una string de Python (ruta del archivo) o un buffer de archivo como una URL.
`sep`	Aquí se especifica el delimitador entre los valores	`,`
`header`	Indica qué fila se utiliza como encabezado	`infer` (primera fila)
`names`	Si se establece `header=None` puedes proporcionar una lista de Python de nombres de columnas con `names`
`index_col`	Especifica qué columna se utilizará como índice	`None`
`usecols`	Con este parámetro puedes seleccionar las columnas que deseas cargar en el DataFrame	`None`
`dtype`	Especifica el tipo de dato de las columnas	`None`

Instrucciones paso a paso para acceder a archivos CSV

Con la función pandas.read_csv() puedes transferir datos de archivos CSV a Python en solo unos pocos pasos.

En el siguiente ejemplo, trabajaremos con un archivo CSV que sigue el siguiente formato:

1,John Pérez,35,Nueva York,50000
2,Adelaida Smith,29,Los Ángeles,62000
3,Michael Rivera,41,Chicago,58000
4,Luz Martínez,33,Houston,49000
5,Tyler Johnson,28,Miami,52000

Paso 1: importar Pandas

Primero, debes importar la biblioteca de Pandas en tu script de Python.

import pandas as pd

python

Paso 2: cargar el archivo CSV

Ahora puedes cargar tu archivo CSV utilizando la función Pandas read_csv() en Python. Para ello, simplemente pasa a la función la ruta del archivo. En el siguiente ejemplo de código, consideramos un archivo llamado datos.csv, que se encuentra en el mismo directorio que el script:

df = pd.read_csv('daten.csv')

python

Este código almacena el archivo en un objeto DataFrame llamado df, con el que ahora se puede trabajar. Pandas interpreta automáticamente la primera fila como encabezados de columna, a menos que se indique lo contrario.

Paso 3: mostrar el archivo CSV

Para asegurarte de que el archivo se ha cargado correctamente, es recomendable visualizar las primeras filas del DataFrame. Para esto, puedes utilizar la función DataFrame.head(). De forma predeterminada, muestra las primeras cinco filas del DataFrame. Así obtienes una visión rápida de la estructura de los datos:

print(df.head())

python

El resultado es el siguiente:

0   1         John Pérez     35     Nueva York   50000
1   2     Adelaida Smith     29    Los Ángeles   62000
2   3     Michael Rivera     41        Chicago   58000
3   4       Luz Martínez     33        Houston   49000
4   5      Tyler Johnson     28          Miami   52000

Paso 4: cambiar nombres de columnas (opcional)

Si tu archivo CSV no tiene una fila de encabezado, puedes definir manualmente los nombres de las columnas:

df = pd.read_csv('daten.csv', header=None, names=['Columna1', 'Columna2', 'Columna3', 'Columna4', 'Columna5'])

python

En este ejemplo, las columnas se han nombrado manualmente como Columna1, Columna2, Columna3, Columna4 y Columna5. El código devuelve como resultado:

Columna1         Columna2         Columna3     Columna4  Columna5
0         1         John Pérez            35        Nueva York      50000
1         2    Adelaida Smith            29      Los Ángeles      62000
2         3    Michael Rivera            41            Chicago      58000
3         4      Luz Martínez            33            Houston      49000
4         5     Tyler Johnson            28              Miami      52000

Nota

El archivo CSV utilizado como ejemplo no tiene muchos datos, por lo que es relativamente pequeño. Sin embargo, si ese no es el caso y tienes un archivo CSV muy grande, deberías leer el archivo en trozos para evitar problemas de memoria. Para esto, puedes utilizar el parámetro chunksize de pandas.read_csv(), que indica cuántas filas se deben leer por iteración. Puedes iterar sobre los trozos con un bucle for en Python.

Artículos Favoritos

Compraventa de dominios: cómo ganar dinero con las direcciones web

La compraventa de dominios puede convertirse en una actividad lucrativa, siempre que se…

Comparamos 5 alternativas a Nextcloud

¿Buscas alternativas a Nextcloud y quieres saber si están a su nivel? Te ofrecemos un…

Los mejores proveedores de copias de seguridad en la nube

¡Asegura tus datos de manera fiable en la nube! Tus datos estarán en buenas manos con…

Cómo actualizar Debian 13 paso a paso

Aprende cómo actualizar Debian 13 de forma segura y sin errores, desde la preparación del…

Alternativas a InDesign de Adobe gratuitas

¿Te sale muy caro usar InDesign para la maquetación y el diseño editorial? Descubre las…

Artículos similares

BEST-BACKGROUNDSShutterstock

Iterar sobre DataFrames con Pandas itterows()

Pandas DataFrame itterows() es una forma de iterar sobre las filas de un DataFrame de Pandas. Esta función se utiliza especialmente cuando se requiere un procesamiento fila por fila, por ejemplo, al realizar cálculos. En este artículo te enseñamos cómo trabajar con la función…

Python Pandas

BEST-BACKGROUNDSShutterstock

Guía rápida sobre el método Pandas dropna()

El método DataFrame.dropna() de Pandas es una gran herramienta para limpiar conjuntos de datos eliminando los valores que faltan de forma eficiente. Es una herramienta muy flexible que puede utilizarse con varios parámetros, lo que permite a los programadores adaptar la limpieza…

Python Pandas

Mr. Kosalshutterstock

Guía rápida sobre el método Pandas any()

El método any() para DataFrames de Pandas es una herramienta muy útil para comprobar rápidamente si en un eje específico de un DataFrame existe al menos un valor True o verdadero. Esto resulta de gran utilidad para el análisis y la validación de datos. ¿Quieres saber cómo…

Python Pandas

ESB Professionalshutterstock

Pandas DataFrame: cómo manipular tablas en Python de manera sencilla

El módulo Pandas es una de las mejores herramientas para manipular datos en Python. Los DataFrames son una de las estructuras de datos centrales en Pandas y sirven para manipular datos bidimensionales estructurados de forma clara y eficiente. Te explicamos su estructura y…

Python Pandas

Cómo leer archivos CVS en Python con Pandas read_csv()

Sintaxis de Python Pandas read_csv()

Pa­rá­me­tros re­le­va­n­tes

In­s­tru­c­cio­nes paso a paso para acceder a archivos CSV

Paso 1: importar Pandas

Paso 2: cargar el archivo CSV

Paso 3: mostrar el archivo CSV

Paso 4: cambiar nombres de columnas (opcional)

Sintaxis de Python Pandas `read_csv()`

Parámetros relevantes

Instrucciones paso a paso para acceder a archivos CSV