La función read_csv() de la Bi­blio­te­ca Python Pandas es una de las funciones más uti­li­za­das para cargar datos de archivos CSV y al­ma­ce­nar­los en formato DataFrame. Los archivos CSV (Comma-separated Values) son un formato am­plia­me­n­te utilizado para almacenar datos tabulares porque son co­m­pa­ti­bles con muchos programas.

Web Hosting
El hosting que crece con tu proyecto
  • Tiempo de actividad de 99.99 % y seguridad ga­ra­n­ti­za­da
  • Aumenta el re­n­di­mie­n­to según el tráfico de tu página web
  • Incluye dominio, SSL, e-mail y soporte 24/7

Sintaxis de Python Pandas read_csv()

La función pandas.read_csv() crea un DataFrame de Pandas basado en un archivo CSV. Puede aceptar una variedad de pa­rá­me­tros di­fe­re­n­tes que es­pe­ci­fi­can el co­m­po­r­ta­mie­n­to de la función. A co­n­ti­nua­ción, abo­r­da­re­mos solo los ar­gu­me­n­tos más im­po­r­ta­n­tes y co­mú­n­me­n­te ne­ce­sa­rios. Si quieres verlos todos, en­co­n­tra­rás una lista completa en la página oficial de re­fe­re­n­cia de Pandas.

La sintaxis básica de la función es sencilla y se presenta de la siguiente manera:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)
python

Pa­rá­me­tros re­le­va­n­tes

A co­n­ti­nua­ción, se presenta un resumen de los pa­rá­me­tros más im­po­r­ta­n­tes para la función pandas.read_csv():

Parámetro Si­g­ni­fi­ca­do Valor pre­de­te­r­mi­na­do
filepath_or_buffer Es una string de Python (ruta del archivo) o un buffer de archivo como una URL.
sep Aquí se es­pe­ci­fi­ca el de­li­mi­ta­dor entre los valores ,
header Indica qué fila se utiliza como en­ca­be­za­do infer (primera fila)
names Si se establece header=None puedes pro­po­r­cio­nar una lista de Python de nombres de columnas con names
index_col Es­pe­ci­fi­ca qué columna se utilizará como índice None
usecols Con este parámetro puedes se­le­c­cio­nar las columnas que deseas cargar en el DataFrame None
dtype Es­pe­ci­fi­ca el tipo de dato de las columnas None

In­s­tru­c­cio­nes paso a paso para acceder a archivos CSV

Con la función pandas.read_csv() puedes tra­n­s­fe­rir datos de archivos CSV a Python en solo unos pocos pasos.

En el siguiente ejemplo, tra­ba­ja­re­mos con un archivo CSV que sigue el siguiente formato:

1,John Pérez,35,Nueva York,50000
2,Adelaida Smith,29,Los Ángeles,62000
3,Michael Rivera,41,Chicago,58000
4,Luz Martínez,33,Houston,49000
5,Tyler Johnson,28,Miami,52000

Paso 1: importar Pandas

Primero, debes importar la bi­blio­te­ca de Pandas en tu script de Python.

import pandas as pd
python

Paso 2: cargar el archivo CSV

Ahora puedes cargar tu archivo CSV uti­li­za­n­do la función Pandas read_csv() en Python. Para ello, si­m­ple­me­n­te pasa a la función la ruta del archivo. En el siguiente ejemplo de código, co­n­si­de­ra­mos un archivo llamado datos.csv, que se encuentra en el mismo di­re­c­to­rio que el script:

df = pd.read_csv('daten.csv')
python

Este código almacena el archivo en un objeto DataFrame llamado df, con el que ahora se puede trabajar. Pandas in­te­r­pre­ta au­to­má­ti­ca­me­n­te la primera fila como en­ca­be­za­dos de columna, a menos que se indique lo contrario.

Paso 3: mostrar el archivo CSV

Para ase­gu­rar­te de que el archivo se ha cargado co­rre­c­ta­me­n­te, es re­co­me­n­da­ble vi­sua­li­zar las primeras filas del DataFrame. Para esto, puedes utilizar la función DataFrame.head(). De forma pre­de­te­r­mi­na­da, muestra las primeras cinco filas del DataFrame. Así obtienes una visión rápida de la es­tru­c­tu­ra de los datos:

print(df.head())
python

El resultado es el siguiente:

0   1         John Pérez     35     Nueva York   50000
1   2     Adelaida Smith     29    Los Ángeles   62000
2   3     Michael Rivera     41        Chicago   58000
3   4       Luz Martínez     33        Houston   49000
4   5      Tyler Johnson     28          Miami   52000

Paso 4: cambiar nombres de columnas (opcional)

Si tu archivo CSV no tiene una fila de en­ca­be­za­do, puedes definir ma­nua­l­me­n­te los nombres de las columnas:

df = pd.read_csv('daten.csv', header=None, names=['Columna1', 'Columna2', 'Columna3', 'Columna4', 'Columna5'])
python

En este ejemplo, las columnas se han nombrado ma­nua­l­me­n­te como Columna1, Columna2, Columna3, Columna4 y Columna5. El código devuelve como resultado:

Columna1         Columna2         Columna3     Columna4  Columna5
0         1         John Pérez            35        Nueva York      50000
1         2    Adelaida Smith            29      Los Ángeles      62000
2         3    Michael Rivera            41            Chicago      58000
3         4      Luz Martínez            33            Houston      49000
4         5     Tyler Johnson            28              Miami      52000
Nota

El archivo CSV utilizado como ejemplo no tiene muchos datos, por lo que es re­la­ti­va­me­n­te pequeño. Sin embargo, si ese no es el caso y tienes un archivo CSV muy grande, deberías leer el archivo en trozos para evitar problemas de memoria. Para esto, puedes utilizar el parámetro chunksize de pandas.read_csv(), que indica cuántas filas se deben leer por iteración. Puedes iterar sobre los trozos con un bucle for en Python.

Ir al menú principal