Calcula valores promedio fácilmente con Pandas mean()
La función DataFrame.mean()
de la Biblioteca Python Pandas se utiliza para calcular el valor promedio a lo largo de uno o más ejes de un DataFrame. Pandas mean()
es fundamental para el análisis de datos numéricos y puede proporcionar información muy valiosa sobre su distribución.
- Rápido, seguro, flexible y escalable
- Seguro con SSL y protección DDoS
- Dominio y asesor personal incluidos
Sintaxis de Pandas DataFrame.mean()
La función Pandas-mean()
acepta hasta tres parámetros y sigue una sintaxis básica sencilla:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)
pythonParámetros relevantes
Con la ayuda de varios parámetros, puedes ajustar el comportamiento de la función Pandas DataFrame.mean()
para que se adapte a tus necesidades.
Parámetro | Descripción | Valor predeterminado |
---|---|---|
axis
|
Determina si el cálculo se realiza a lo largo de las filas (axis=0 ) o de las columnas (axis=1 )
|
0
|
skipna
|
Si es True , se ignoran los valores NaN
|
True
|
numeric_only
|
Si es True , solo se incluyen los datos numéricos en el cálculo
|
False
|
Aplicación de la función mean()
de Pandas
Pandas DataFrame.mean()
tiene diversas aplicaciones.
Calcular los valores promedio de cada columna
En los siguientes ejemplos, se utiliza un DataFrame de Pandas con los siguientes datos:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
pythonEl DataFrame resultante sería el siguiente:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10
Para calcular el valor promedio de cada columna, se puede usar la función Pandas mean()
con el parámetro predeterminado axis=0
:
column_means = df.mean()
print(column_means)
pythonDe esta manera, se calculan los valores promedio de cada columna (A, B y C) dividiendo la suma de los elementos por la cantidad de elementos en cada columna. Como resultado, se obtiene la siguiente Series de Pandas:
A 2.5
B 5.5
C 8.5
dtype: float64
Calcular los valores promedio de cada fila
Si en su lugar deseas calcular el valor promedio de cada fila, simplemente debes cambiar el parámetro axis
a 1:
row_means = df.mean(axis=1)
print(row_means)
pythonLos valores promedio de cada fila se calculan utilizando mean()
de Pandas, dividiendo la suma de los elementos por la cantidad de elementos en cada fila. La llamada a la función genera el siguiente resultado:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64
Ignorar valores NaN
En el siguiente ejemplo, se utiliza un DataFrame diferente para que contenga algunos valores NaN:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
pythonEl código anterior genera el siguiente DataFrame:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaN
Para calcular el promedio teniendo en cuenta los valores NaN, se utiliza el parámetro skipna
. El valor predeterminado es True
, lo que significa que Pandas mean()
ignora automáticamente los valores NaN. En cambio, si cambiáramos el valor predeterminado a skipna=False
, el cálculo del promedio de cualquier columna que contenga al menos un valor NaN dará como resultado NaN para esa columna.
mean_with_nan = df.mean()
print(mean_with_nan)
pythonLa llamada a la función de mean()
de Pandas genera:
A 2.333333
B 5.666667
C 8.000000
dtype: float64