La función DataFrame.mean() de la Bi­blio­te­ca Python Pandas se utiliza para calcular el valor promedio a lo largo de uno o más ejes de un DataFrame. Pandas mean() es fu­n­da­me­n­tal para el análisis de datos numéricos y puede pro­po­r­cio­nar in­fo­r­ma­ción muy valiosa sobre su di­s­tri­bu­ción.

Web Hosting
El hosting que crece con tu proyecto
  • Tiempo de actividad de 99.99 % y seguridad ga­ra­n­ti­za­da
  • Aumenta el re­n­di­mie­n­to según el tráfico de tu página web
  • Incluye dominio, SSL, e-mail y soporte 24/7

Sintaxis de Pandas DataFrame.mean()

La función Pandas-mean() acepta hasta tres pa­rá­me­tros y sigue una sintaxis básica sencilla:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Pa­rá­me­tros re­le­va­n­tes

Con la ayuda de varios pa­rá­me­tros, puedes ajustar el co­m­po­r­ta­mie­n­to de la función Pandas DataFrame.mean() para que se adapte a tus ne­ce­si­da­des.

Parámetro De­s­cri­p­ción Valor pre­de­te­r­mi­na­do
axis Determina si el cálculo se realiza a lo largo de las filas (axis=0) o de las columnas (axis=1) 0
skipna Si es True, se ignoran los valores NaN True
numeric_only Si es True, solo se incluyen los datos numéricos en el cálculo False

Apli­ca­ción de la función mean() de Pandas

Pandas DataFrame.mean() tiene diversas apli­ca­cio­nes.

Calcular los valores promedio de cada columna

En los si­guie­n­tes ejemplos, se utiliza un DataFrame de Pandas con los si­guie­n­tes datos:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

El DataFrame re­su­l­ta­n­te sería el siguiente:

A  B  C
0  1  4  7
1  2  5  8
2  3  6  9
3  4  7 10

Para calcular el valor promedio de cada columna, se puede usar la función Pandas mean() con el parámetro pre­de­te­r­mi­na­do axis=0:

column_means = df.mean()
print(column_means)
python

De esta manera, se calculan los valores promedio de cada columna (A, B y C) di­vi­die­n­do la suma de los elementos por la cantidad de elementos en cada columna. Como resultado, se obtiene la siguiente Series de Pandas:

A    2.5
B    5.5
C    8.5
dtype: float64

Calcular los valores promedio de cada fila

Si en su lugar deseas calcular el valor promedio de cada fila, si­m­ple­me­n­te debes cambiar el parámetro axis a 1:

row_means = df.mean(axis=1)
print(row_means)
python

Los valores promedio de cada fila se calculan uti­li­za­n­do mean() de Pandas, di­vi­die­n­do la suma de los elementos por la cantidad de elementos en cada fila. La llamada a la función genera el siguiente resultado:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Ignorar valores NaN

En el siguiente ejemplo, se utiliza un DataFrame diferente para que contenga algunos valores NaN:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

El código anterior genera el siguiente DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Para calcular el promedio teniendo en cuenta los valores NaN, se utiliza el parámetro skipna. El valor pre­de­te­r­mi­na­do es True, lo que significa que Pandas mean() ignora au­to­má­ti­ca­me­n­te los valores NaN. En cambio, si ca­m­biá­ra­mos el valor pre­de­te­r­mi­na­do a skipna=False, el cálculo del promedio de cualquier columna que contenga al menos un valor NaN dará como resultado NaN para esa columna.

mean_with_nan = df.mean()
print(mean_with_nan)
python

La llamada a la función de mean() de Pandas genera:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Ir al menú principal