{
"cells": [
{
"cell_type": "markdown",
"id": "hindu-assistant",
"metadata": {},
"source": [
"# Identificación, tratamiento y manejo de Valores faltantes o Missing Values\n",
""
]
},
{
"cell_type": "markdown",
"id": "graduate-trigger",
"metadata": {},
"source": [
"## En este notebook aprenderás a:\n",
"
\n",
"
\n",
"
Leer un DataFrame con missing values
\n",
"
Inspeccionar un conjunto de datos en busca de Missing values
\n",
"
Visualizar los missing values
\n",
"
Construir tu función para visualizar el porcentaje de Missing Values a lo largo de una fila
\n",
"
Manejar los missing values de forma aislada
\n",
"
Manejar los missing values teniendo en cuenta el contexto que los rodea
\n",
"
\n",
"
"
]
},
{
"cell_type": "markdown",
"id": "hired-royalty",
"metadata": {},
"source": [
"## Antes de empezar"
]
},
{
"cell_type": "markdown",
"id": "noted-herald",
"metadata": {},
"source": [
"En este notebook se han utilizado los siguientes paquetes que puedes instalar utilizando las líneas de código anexas en la siguiente celda:\n",
"- pandas\n",
"- numpy\n",
"- missingno\n"
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "cross-savannah",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:30.987265Z",
"start_time": "2022-02-16T20:11:30.983293Z"
}
},
"outputs": [],
"source": [
"# !pip install pandas --user\n",
"# !pip install numpy --user\n",
"# !pip install scikit-learn --user\n",
"# !pip install missingno --user"
]
},
{
"cell_type": "markdown",
"id": "returning-retention",
"metadata": {},
"source": [
"# Ejemplo 1"
]
},
{
"cell_type": "markdown",
"id": "skilled-relaxation",
"metadata": {},
"source": [
"## Leyendo el DataFrame\n",
"\n",
"Comentábamos en la parte de teoría que en ocasiones los Missing Values nos pueden venir dados como:\n",
"- Un valor ausente en la tabla\n",
"- Un valor por defecto que quiere indicar Missing Value\n",
"\n",
"🎁 Te dejo por aquí una lista de valores frequentes *(treat_NaNs)* que por defecto podrían representar valores faltantes"
]
},
{
"cell_type": "markdown",
"id": "economic-course",
"metadata": {},
"source": [
"Si leemos la primera hoja de cálculo del archivo excel con nombre \"dataset_notebook_demo.xlsx\" sin utilizar esa lista observa lo que sucede:"
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "tamil-wilderness",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:32.145321Z",
"start_time": "2022-02-16T20:11:30.998262Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"
"
],
"text/plain": [
" Año Género Número Ventas\n",
"0 2014.0 Aventuras 400.0\n",
"1 NaN Bélico 80.0\n",
"2 NaN Biografías 200.0\n",
"3 NaN Novela Romántica 350.0\n",
"4 NaN Poesía 80.0"
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.head()"
]
},
{
"cell_type": "markdown",
"id": "genuine-minimum",
"metadata": {},
"source": [
"comprobamos como ahora el caracter \"-\" es reconocido como un valor NaN"
]
},
{
"cell_type": "markdown",
"id": "further-facing",
"metadata": {},
"source": [
"## Describiendo el DataFrame\n",
"Uno de los primeros pasos cuando llega a nuestras manos un set de datos es **explorarlo**.\n",
"\n",
"Y digo uno de los primeros porque el más importante es conseguir abrir el archivo. Ese aspecto daría para\n",
"otra tarea completa dedicada a a la correcta conexión y lectura de información proveniente de diferentes orígenes de datos.\n",
"\n",
"No obstante, para poder empezar a trabajar con un conjunto de datos cualesquiera es importante **analizarlos previamente**.\n",
"\n",
"Los pasos más habituales suelen ser:\n",
"- Ver las primeras y últimas filas de nuestro DataFrame\n",
"- Intentar realizar una descripción rápida\n",
"- Ver valores únicos, tipos de datos de los campos, y analizar los missing values\n",
"\n",
"Vamos allá❗"
]
},
{
"cell_type": "markdown",
"id": "adequate-harvard",
"metadata": {},
"source": [
"🔵 Este dataset representa el número de libros vendidos por género y por año por un comercio local."
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "blank-indicator",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:32.240266Z",
"start_time": "2022-02-16T20:11:32.227272Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Año
\n",
"
Género
\n",
"
Número Ventas
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
2014.0
\n",
"
Aventuras
\n",
"
400.0
\n",
"
\n",
"
\n",
"
1
\n",
"
NaN
\n",
"
Bélico
\n",
"
80.0
\n",
"
\n",
"
\n",
"
2
\n",
"
NaN
\n",
"
Biografías
\n",
"
200.0
\n",
"
\n",
"
\n",
"
3
\n",
"
NaN
\n",
"
Novela Romántica
\n",
"
350.0
\n",
"
\n",
"
\n",
"
4
\n",
"
NaN
\n",
"
Poesía
\n",
"
80.0
\n",
"
\n",
"
\n",
"
5
\n",
"
2015.0
\n",
"
Aventuras
\n",
"
500.0
\n",
"
\n",
"
\n",
"
6
\n",
"
NaN
\n",
"
Bélico
\n",
"
150.0
\n",
"
\n",
"
\n",
"
7
\n",
"
NaN
\n",
"
Biografías
\n",
"
200.0
\n",
"
\n",
"
\n",
"
8
\n",
"
NaN
\n",
"
Novela Romántica
\n",
"
300.0
\n",
"
\n",
"
\n",
"
9
\n",
"
NaN
\n",
"
Poesía
\n",
"
120.0
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Año Género Número Ventas\n",
"0 2014.0 Aventuras 400.0\n",
"1 NaN Bélico 80.0\n",
"2 NaN Biografías 200.0\n",
"3 NaN Novela Romántica 350.0\n",
"4 NaN Poesía 80.0\n",
"5 2015.0 Aventuras 500.0\n",
"6 NaN Bélico 150.0\n",
"7 NaN Biografías 200.0\n",
"8 NaN Novela Romántica 300.0\n",
"9 NaN Poesía 120.0"
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# visualizando las n primeras filas del dataset\n",
"df.head(10)\n",
"\n",
"# visualizando las n últimas filas del dataset\n",
"# df.tail(2)"
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "atlantic-shuttle",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:32.254265Z",
"start_time": "2022-02-16T20:11:32.243280Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"RangeIndex: 40 entries, 0 to 39\n",
"Data columns (total 3 columns):\n",
" # Column Non-Null Count Dtype \n",
"--- ------ -------------- ----- \n",
" 0 Año 8 non-null float64\n",
" 1 Género 40 non-null object \n",
" 2 Número Ventas 38 non-null float64\n",
"dtypes: float64(2), object(1)\n",
"memory usage: 4.1 KB\n"
]
}
],
"source": [
"# el método info nos da información inicial sobre el dataset, representando las columnas, \n",
"# el número de valores NO MISSSING y el tipo de columna. \n",
"df.info(memory_usage='deep') #deep nos indica cuánto ocupa el dataset en memoria"
]
},
{
"cell_type": "markdown",
"id": "rising-tennis",
"metadata": {},
"source": [
"Personalmente, creo que puede estar bien para hacerse una idea de la cantidad de valores existentes siempre y cuando sepamos la forma del dataset *(df.shape)*. Pero yo no lo utilizo mucho 😉"
]
},
{
"cell_type": "markdown",
"id": "negative-heating",
"metadata": {},
"source": [
"A la hora de obtener un *overview* de la cantidad de valores faltantes que tiene nuestro conjunto de datos, podemos utilizar indistintamente los métodos `.isna()` o `.isnull()`"
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "behavioral-angle",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:32.281268Z",
"start_time": "2022-02-16T20:11:32.263262Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Año
\n",
"
Género
\n",
"
Número Ventas
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
False
\n",
"
False
\n",
"
False
\n",
"
\n",
"
\n",
"
1
\n",
"
True
\n",
"
False
\n",
"
False
\n",
"
\n",
"
\n",
"
2
\n",
"
True
\n",
"
False
\n",
"
False
\n",
"
\n",
"
\n",
"
3
\n",
"
True
\n",
"
False
\n",
"
False
\n",
"
\n",
"
\n",
"
4
\n",
"
True
\n",
"
False
\n",
"
False
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Año Género Número Ventas\n",
"0 False False False\n",
"1 True False False\n",
"2 True False False\n",
"3 True False False\n",
"4 True False False"
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.isna().head()"
]
},
{
"cell_type": "markdown",
"id": "quiet-dragon",
"metadata": {},
"source": [
"Estarás de acuerdo conmigo en que esto no es muy intuitivo, ¿verdad?. 🤔🤔\n",
"Si utilizamos los métodos `df.isna().sum()` o `df.isnull().sum()` obtendremos un recuento de los valores faltantes que tenemos por cada columna.\n",
"\n",
"💭 Si me preguntas por mis preferencias, personalmente tengo tendencia a utilizar el segundo método."
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "soviet-argentina",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:32.295309Z",
"start_time": "2022-02-16T20:11:32.284262Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"Año 32\n",
"Género 0\n",
"Número Ventas 2\n",
"dtype: int64"
]
},
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.isnull().sum()"
]
},
{
"cell_type": "markdown",
"id": "purple-support",
"metadata": {},
"source": [
"Si quieres ver el número de Missing Values por cada fila:"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "vocational-madonna",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:32.308268Z",
"start_time": "2022-02-16T20:11:32.297268Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"0 0\n",
"1 1\n",
"2 1\n",
"3 1\n",
"4 1\n",
"dtype: int64"
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.isnull().sum(axis=1).head()"
]
},
{
"cell_type": "markdown",
"id": "double-funds",
"metadata": {},
"source": [
"¡Ya empezamos a hacernos una idea de cómo de completo está nuestro conjunto de datos!\n",
"Pero podemos ir un pasito más allá y ver qué porcentaje del total suponen esos valores faltantes para cada columna.\n",
"Te dejo por aquí una función que puedes reutilizar en tu día a día 😊\n",
"\n",
"🔥 Te animo a que construyas tu propia función para obtener el porcentaje de completitud de cada fila."
]
},
{
"cell_type": "code",
"execution_count": 10,
"id": "occupational-variation",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:32.317264Z",
"start_time": "2022-02-16T20:11:32.312266Z"
}
},
"outputs": [],
"source": [
"def porcentaje_missings(data):\n",
" m_per = data.isnull().sum() * 100 / len(data)\n",
" percent_missing = round(m_per,2)\n",
" missing_value_df = pd.DataFrame({'percent_missing (%)': percent_missing})\n",
" return missing_value_df "
]
},
{
"cell_type": "code",
"execution_count": 11,
"id": "private-swaziland",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:32.325268Z",
"start_time": "2022-02-16T20:11:32.320293Z"
}
},
"outputs": [],
"source": [
"#El huequecito para tu función :P"
]
},
{
"cell_type": "code",
"execution_count": 12,
"id": "saving-tonight",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:34.438458Z",
"start_time": "2022-02-16T20:11:32.327273Z"
}
},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"C:\\Users\\Borja\\Anaconda3\\lib\\site-packages\\pandas\\compat\\_optional.py:123: UserWarning: Pandas requires version '2.6.8' or newer of 'numexpr' (version '2.6.2' currently installed).\n",
" warnings.warn(msg, UserWarning)\n"
]
},
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
percent_missing (%)
\n",
"
\n",
" \n",
" \n",
"
\n",
"
Año
\n",
"
80.0
\n",
"
\n",
"
\n",
"
Género
\n",
"
0.0
\n",
"
\n",
"
\n",
"
Número Ventas
\n",
"
5.0
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" percent_missing (%)\n",
"Año 80.0\n",
"Género 0.0\n",
"Número Ventas 5.0"
]
},
"execution_count": 12,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"porcentaje_missings(df)"
]
},
{
"cell_type": "markdown",
"id": "spiritual-prague",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-13T18:41:03.082025Z",
"start_time": "2022-02-13T18:41:03.076043Z"
}
},
"source": [
"Si todavía te quedas con ganas de obtener una visualización gráfica sobre la cantidad de missings que tienen tus datos,\n",
"\n",
"¡Échale un vistazo a las siguientes líneas de código!"
]
},
{
"cell_type": "code",
"execution_count": 13,
"id": "previous-artist",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.214508Z",
"start_time": "2022-02-16T20:11:34.441463Z"
}
},
"outputs": [],
"source": [
"import missingno as msno"
]
},
{
"cell_type": "code",
"execution_count": 14,
"id": "handed-administrator",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.712485Z",
"start_time": "2022-02-16T20:11:35.216457Z"
}
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"msno.matrix(df,figsize=(8,5), fontsize=12); #en blanco, cada missing value\n",
"msno.bar(df, figsize=(8,5), fontsize=12); "
]
},
{
"cell_type": "markdown",
"id": "equal-saudi",
"metadata": {},
"source": [
"Finalmente, si quieres ver el número total de Missing Values que hay repartidos por todo tu dataset..."
]
},
{
"cell_type": "code",
"execution_count": 15,
"id": "external-watershed",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.723490Z",
"start_time": "2022-02-16T20:11:35.714460Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"34"
]
},
"execution_count": 15,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.isnull().sum().sum() \n",
"#la primera expresión sum() suma a lo largo de cada columna y como lo que \n",
"#obtenemos es una pd.Series, al aplicar el segundo sum() vuelve a sumar sobre la columna\n",
"#que contiene el número total de missing values por columna representando, ahora sí,\n",
"#el número total de missing values del dataset."
]
},
{
"cell_type": "markdown",
"id": "thousand-spyware",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-13T19:27:16.505889Z",
"start_time": "2022-02-13T19:27:16.501890Z"
}
},
"source": [
"## Empecemos a rellenar missing Values"
]
},
{
"cell_type": "markdown",
"id": "experimental-cotton",
"metadata": {},
"source": [
"Analizando un poco el dataset, vemos que se trata de un conjunto de datos donde la columna *Año* solo indica el valor al lado del primer género.\n",
"Existe un método habitualmente utilizado y que no se suele mencionar como una estrategia disponible, pero que en este caso es realmente útil: `.ffill()`"
]
},
{
"cell_type": "code",
"execution_count": 16,
"id": "amazing-comment",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.731461Z",
"start_time": "2022-02-16T20:11:35.726459Z"
}
},
"outputs": [],
"source": [
"df[\"Año\"] = df[\"Año\"].ffill() #de manera análoga también existe el método .bfill()"
]
},
{
"cell_type": "code",
"execution_count": 17,
"id": "secondary-editing",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.750491Z",
"start_time": "2022-02-16T20:11:35.733458Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Año
\n",
"
Género
\n",
"
Número Ventas
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
2014.0
\n",
"
Aventuras
\n",
"
400.0
\n",
"
\n",
"
\n",
"
1
\n",
"
2014.0
\n",
"
Bélico
\n",
"
80.0
\n",
"
\n",
"
\n",
"
2
\n",
"
2014.0
\n",
"
Biografías
\n",
"
200.0
\n",
"
\n",
"
\n",
"
3
\n",
"
2014.0
\n",
"
Novela Romántica
\n",
"
350.0
\n",
"
\n",
"
\n",
"
4
\n",
"
2014.0
\n",
"
Poesía
\n",
"
80.0
\n",
"
\n",
"
\n",
"
5
\n",
"
2015.0
\n",
"
Aventuras
\n",
"
500.0
\n",
"
\n",
"
\n",
"
6
\n",
"
2015.0
\n",
"
Bélico
\n",
"
150.0
\n",
"
\n",
"
\n",
"
7
\n",
"
2015.0
\n",
"
Biografías
\n",
"
200.0
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Año Género Número Ventas\n",
"0 2014.0 Aventuras 400.0\n",
"1 2014.0 Bélico 80.0\n",
"2 2014.0 Biografías 200.0\n",
"3 2014.0 Novela Romántica 350.0\n",
"4 2014.0 Poesía 80.0\n",
"5 2015.0 Aventuras 500.0\n",
"6 2015.0 Bélico 150.0\n",
"7 2015.0 Biografías 200.0"
]
},
"execution_count": 17,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.head(8)"
]
},
{
"cell_type": "markdown",
"id": "frequent-replication",
"metadata": {},
"source": [
"Como puedes apreciar, hasta que no encuentra otro valor rellena todas las filas hacia adelante con el primer valor encontrado."
]
},
{
"cell_type": "code",
"execution_count": 18,
"id": "unique-court",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.763492Z",
"start_time": "2022-02-16T20:11:35.753459Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"Año 0\n",
"Género 0\n",
"Número Ventas 2\n",
"dtype: int64"
]
},
"execution_count": 18,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.isnull().sum() "
]
},
{
"cell_type": "markdown",
"id": "julian-blanket",
"metadata": {},
"source": [
"En estos momentos nos quedan dos Missings. ¿Cómo podemos localizarlos y únicamente ver los registros que corresponden a las observaciones que contienen valores missing en el campo *Número Ventas*?\n",
"\n",
"Utilizando la máscara *booleana* que se crea con el método `pd.isnull()`"
]
},
{
"cell_type": "code",
"execution_count": 19,
"id": "guilty-truck",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.781486Z",
"start_time": "2022-02-16T20:11:35.766459Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Año
\n",
"
Género
\n",
"
Número Ventas
\n",
"
\n",
" \n",
" \n",
"
\n",
"
17
\n",
"
2017.0
\n",
"
Biografías
\n",
"
NaN
\n",
"
\n",
"
\n",
"
33
\n",
"
2020.0
\n",
"
Novela Romántica
\n",
"
NaN
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Año Género Número Ventas\n",
"17 2017.0 Biografías NaN\n",
"33 2020.0 Novela Romántica NaN"
]
},
"execution_count": 19,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df[pd.isnull(df[\"Número Ventas\"])]"
]
},
{
"cell_type": "markdown",
"id": "annual-alpha",
"metadata": {},
"source": [
"Vemos que, por el motivo que fuera, no hay dato para el género de Biografías en 2017 y tampoco para el género Novela Romántica en 2020.\n",
"\n",
"En este momento, podríamos ver alguna medida estadística que nos de información sobre la columna *Número Ventas*."
]
},
{
"cell_type": "code",
"execution_count": 20,
"id": "reasonable-breakdown",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.798459Z",
"start_time": "2022-02-16T20:11:35.784461Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"count 38.000000\n",
"mean 305.657895\n",
"std 237.964826\n",
"min 80.000000\n",
"25% 150.000000\n",
"50% 200.000000\n",
"75% 350.000000\n",
"max 1000.000000\n",
"Name: Número Ventas, dtype: float64"
]
},
"execution_count": 20,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df[\"Número Ventas\"].describe()"
]
},
{
"cell_type": "markdown",
"id": "arbitrary-interview",
"metadata": {},
"source": [
"Ahora podríamos asumir la media como un valor para rellenar los valores faltantes y ya tendríamos todos nuestro set de datos completo."
]
},
{
"cell_type": "code",
"execution_count": 21,
"id": "similar-omaha",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.807479Z",
"start_time": "2022-02-16T20:11:35.800457Z"
}
},
"outputs": [],
"source": [
"#Voy a hacer una copia del dataset solo para ver cómo aplicamos esa estrategia.\n",
"df_estrategia = df.copy()\n",
"df_estrategia[\"Número Ventas\"] = df_estrategia[\"Número Ventas\"].fillna(df_estrategia[\"Número Ventas\"].mean())"
]
},
{
"cell_type": "code",
"execution_count": 22,
"id": "sexual-active",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.819464Z",
"start_time": "2022-02-16T20:11:35.810457Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"Año 0\n",
"Género 0\n",
"Número Ventas 0\n",
"dtype: int64"
]
},
"execution_count": 22,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_estrategia.isnull().sum() "
]
},
{
"cell_type": "markdown",
"id": "ruled-witch",
"metadata": {},
"source": [
"En lugar de la **media**, podríamos haber imputado la **mediana** (que siempre es más conservadora) o **un valor aleatorio escogido entre el mínimo de libros vendidos y el máximo**. En fin, muchas estragias diferentes con las que ya tendríamos un dataset completo y sin valores faltantes. \n",
"\n",
"No obstante, en este caso, **podemos aprovecharnos del contexto que rodea a los datos** para imputar los valores faltantes, yendo por dos caminos diferentes:\n",
"\n",
"- Podemos utilizar algún método de imputación teniendo en cuenta el número de ventas pero por Género\n",
"- Podemos ver qué sucede cada año y tomar una decisión.\n",
"\n",
"Voy a coger el dataset original y voy a analizar cuántos libros se han vendido cada año (Sin tener en cuenta el género)"
]
},
{
"cell_type": "code",
"execution_count": 23,
"id": "pursuant-suite",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.842459Z",
"start_time": "2022-02-16T20:11:35.821459Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"El número total de libros vendidos en 2014.0 es: 1110.0\n",
"El número total de libros vendidos en 2015.0 es: 1270.0\n",
"El número total de libros vendidos en 2016.0 es: 1550.0\n",
"El número total de libros vendidos en 2017.0 es: 1350.0\n",
"El número total de libros vendidos en 2018.0 es: 1445.0\n",
"El número total de libros vendidos en 2019.0 es: 940.0\n",
"El número total de libros vendidos en 2020.0 es: 2150.0\n",
"El número total de libros vendidos en 2021.0 es: 1800.0\n"
]
}
],
"source": [
"for anio in df[\"Año\"].unique():\n",
" n_ventas = df[df[\"Año\"] == anio][\"Número Ventas\"].sum()\n",
" print(f\"El número total de libros vendidos en {anio} es: {n_ventas}\")"
]
},
{
"cell_type": "markdown",
"id": "collect-avatar",
"metadata": {},
"source": [
"A través del análisis anterior lo que vemos es que, en 2020 (año de de confinamiento), se vendieron más libros que el resto de años. Pero no obtenemos mucha más información."
]
},
{
"cell_type": "code",
"execution_count": 24,
"id": "continental-restriction",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.853457Z",
"start_time": "2022-02-16T20:11:35.845485Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\t El número mínimo: 350.0\n",
"\t El número máximo: 1000.0\n"
]
}
],
"source": [
"n_min = df[df[\"Año\"] == 2020][\"Número Ventas\"].min()\n",
"n_max = df[df[\"Año\"] == 2020][\"Número Ventas\"].max() \n",
"print(f\"\\t El número mínimo: {n_min}\")\n",
"print(f\"\\t El número máximo: {n_max}\")"
]
},
{
"cell_type": "markdown",
"id": "labeled-cambodia",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-13T20:16:22.032258Z",
"start_time": "2022-02-13T20:16:22.025247Z"
}
},
"source": [
"Además, si vemos el valor mínimo y el valor máximo de números vendidos para 2020, vemos que hay bastante diferencia.\n",
"\n",
"Veamos si podemos hacer algo teniendo en cuenta el número de libros vendidos por año y género:"
]
},
{
"cell_type": "code",
"execution_count": 25,
"id": "educated-private",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.895459Z",
"start_time": "2022-02-16T20:11:35.855459Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"El número total de libros vendidos para el género Biografías es:\n",
"\tEn 2014.0 : 200.0\n",
"\tEn 2015.0 : 200.0\n",
"\tEn 2016.0 : 200.0\n",
"\tEn 2017.0 : 0.0\n",
"\tEn 2018.0 : 190.0\n",
"\tEn 2019.0 : 300.0\n",
"\tEn 2020.0 : 350.0\n",
"\tEn 2021.0 : 250.0\n",
"La media de libros de Biografías vendidos por año es: 241.42857142857142\n",
"La mediana de libros de Biografías vendidos por año es: 200.0\n",
"********************\n",
"\n",
"El número total de libros vendidos para el género Novela Romántica es:\n",
"\tEn 2014.0 : 350.0\n",
"\tEn 2015.0 : 300.0\n",
"\tEn 2016.0 : 300.0\n",
"\tEn 2017.0 : 350.0\n",
"\tEn 2018.0 : 100.0\n",
"\tEn 2019.0 : 120.0\n",
"\tEn 2020.0 : 0.0\n",
"\tEn 2021.0 : 200.0\n",
"La media de libros de Novela Romántica vendidos por año es: 245.71428571428572\n",
"La mediana de libros de Novela Romántica vendidos por año es: 300.0\n",
"********************\n",
"\n"
]
}
],
"source": [
"generos = [\"Biografías\", \"Novela Romántica\"]\n",
"for genero in generos: \n",
" print(f\"El número total de libros vendidos para el género {genero} es:\")\n",
" for anio in df[\"Año\"].unique():\n",
" n_ventas = df[(df[\"Año\"] == anio) & (df[\"Género\"] == genero)][\"Número Ventas\"].sum()\n",
" print(f\"\\tEn {anio} : {n_ventas}\")\n",
" print(f\"La media de libros de {genero} vendidos por año es: \" , df[df[\"Género\"] == genero][\"Número Ventas\"].mean());\n",
" print(f\"La mediana de libros de {genero} vendidos por año es: \" , df[df[\"Género\"] == genero][\"Número Ventas\"].median());\n",
" print(\"*\"*20)\n",
" print()"
]
},
{
"cell_type": "markdown",
"id": "crazy-webcam",
"metadata": {},
"source": [
"En este caso no encuentro un criterio claro para imputar en ningún caso.\n",
"Por buscar algún razonamiento, imputaremos la mediana para los libros de Biografías ya que en 2018 baja el número de ventas.\n",
"\n",
"🛑 **¡Un momento! Me acaba de llamar José, el responsable de la tienda, diciéndome que antes de perder los datos para el número de libros vendidos del género de Novela Romántica, recuerda que en 2020 se vendieron 310 Novelas Románticas.**\n",
"\n",
"¡Bueno!¡Pues algo es algo! Imputemos ambos valores."
]
},
{
"cell_type": "code",
"execution_count": 26,
"id": "korean-transformation",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.905488Z",
"start_time": "2022-02-16T20:11:35.898462Z"
}
},
"outputs": [],
"source": [
"condicion = (pd.isnull(df[\"Número Ventas\"])) & (df[\"Género\"]==\"Biografías\")\n",
"\n",
"df.loc[condicion, \"Número Ventas\" ] = df[df[\"Género\"] == \"Biografías\"][\"Número Ventas\"].median()"
]
},
{
"cell_type": "code",
"execution_count": 27,
"id": "portable-karma",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.915491Z",
"start_time": "2022-02-16T20:11:35.908458Z"
}
},
"outputs": [],
"source": [
"#como ya solo queda un missing utilizaré el método fillna, solo para que\n",
"#veas casos donde no me apetece \"comerme la cabeza\" filtrando el dataset\n",
"#y aprovecho lo que sé que hace cada método a mi favor.\n",
"\n",
"df[\"Número Ventas\"] = df[\"Número Ventas\"].fillna(310)"
]
},
{
"cell_type": "code",
"execution_count": 28,
"id": "useful-admission",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:35.932479Z",
"start_time": "2022-02-16T20:11:35.925485Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"Año 0\n",
"Género 0\n",
"Número Ventas 0\n",
"dtype: int64"
]
},
"execution_count": 28,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.isnull().sum()"
]
},
{
"cell_type": "markdown",
"id": "behavioral-judges",
"metadata": {},
"source": [
"**¡Reto conseguido!** En este punto ya tendríamos un dataset preparado para el análisis."
]
},
{
"cell_type": "markdown",
"id": "collective-tuition",
"metadata": {},
"source": [
"# Ejemplo 2\n",
"\n",
"> Este dataset contiene información personal de personas ficticias como el nombre, apellidos, edad, estado civil o si se ha vacunado o no."
]
},
{
"cell_type": "code",
"execution_count": 29,
"id": "geological-latin",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.011458Z",
"start_time": "2022-02-16T20:11:35.936458Z"
}
},
"outputs": [],
"source": [
"#leemos el dataset\n",
"\n",
"ruta_dataset = \"dataset_notebook_demo.xlsx\"\n",
"df2 = pd.read_excel(ruta_dataset, na_values=treat_NaNs, sheet_name=\"ej2\")"
]
},
{
"cell_type": "code",
"execution_count": 30,
"id": "incident-exposure",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.020459Z",
"start_time": "2022-02-16T20:11:36.013458Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"(69, 12)"
]
},
"execution_count": 30,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df2.shape #miramos su forma"
]
},
{
"cell_type": "markdown",
"id": "black-redhead",
"metadata": {},
"source": [
"Podemos utilizar la siguiente expresión para simplemente saber si tenemos valores faltantes en cada columna.\n",
"Es otro recurso que puedes utilizar. Dependiendo de lo que en el momento te venga a la cabeza o te apetezca aplicar.\n",
"\n",
"Permíteme anticiparme y comentarte que el método `df.isnull().sum()` será tu gran aliado en la mayoría de ocasiones."
]
},
{
"cell_type": "code",
"execution_count": 31,
"id": "aware-boxing",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.033462Z",
"start_time": "2022-02-16T20:11:36.022459Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"Nombre True\n",
"Apellido 1 True\n",
"Apellido 2 True\n",
"Sexo True\n",
"Municipio True\n",
"Provincia True\n",
"NIF True\n",
"Edad True\n",
"Hijos True\n",
"Ingresos True\n",
"Estado Civil True\n",
"Vacunadx True\n",
"dtype: bool"
]
},
"execution_count": 31,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df2.isna().any() #todas las columnas tienen al menos un NaN. Mala suerte XD!"
]
},
{
"cell_type": "code",
"execution_count": 32,
"id": "editorial-productivity",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.052458Z",
"start_time": "2022-02-16T20:11:36.036463Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
percent_missing (%)
\n",
"
\n",
" \n",
" \n",
"
\n",
"
Nombre
\n",
"
1.45
\n",
"
\n",
"
\n",
"
Apellido 1
\n",
"
8.70
\n",
"
\n",
"
\n",
"
Apellido 2
\n",
"
5.80
\n",
"
\n",
"
\n",
"
Sexo
\n",
"
10.14
\n",
"
\n",
"
\n",
"
Municipio
\n",
"
10.14
\n",
"
\n",
"
\n",
"
Provincia
\n",
"
8.70
\n",
"
\n",
"
\n",
"
NIF
\n",
"
66.67
\n",
"
\n",
"
\n",
"
Edad
\n",
"
5.80
\n",
"
\n",
"
\n",
"
Hijos
\n",
"
8.70
\n",
"
\n",
"
\n",
"
Ingresos
\n",
"
11.59
\n",
"
\n",
"
\n",
"
Estado Civil
\n",
"
7.25
\n",
"
\n",
"
\n",
"
Vacunadx
\n",
"
5.80
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" percent_missing (%)\n",
"Nombre 1.45\n",
"Apellido 1 8.70\n",
"Apellido 2 5.80\n",
"Sexo 10.14\n",
"Municipio 10.14\n",
"Provincia 8.70\n",
"NIF 66.67\n",
"Edad 5.80\n",
"Hijos 8.70\n",
"Ingresos 11.59\n",
"Estado Civil 7.25\n",
"Vacunadx 5.80"
]
},
"execution_count": 32,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"porcentaje_missings(df2) #reutilizamos la función del primer ejemplo para\n",
"#sacar el porcentaje de missings por columna"
]
},
{
"cell_type": "markdown",
"id": "instant-connection",
"metadata": {},
"source": [
"Observamos que la columna del NIF contiene un alto porcentaje de valores faltantes. \n",
"\n",
"Dado que no hemos definido ningún objetivo de análisis para este conjunto de datos y puesto que nuestra meta principal es aprender a tratar los valores faltantes, eliminaremos esta columna utilizando el método `.drop()`"
]
},
{
"cell_type": "code",
"execution_count": 33,
"id": "featured-mountain",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.060476Z",
"start_time": "2022-02-16T20:11:36.054465Z"
}
},
"outputs": [],
"source": [
"df2 = df2.drop(columns=[\"NIF\"])"
]
},
{
"cell_type": "markdown",
"id": "united-jesus",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-14T19:19:36.650465Z",
"start_time": "2022-02-14T19:19:36.642487Z"
}
},
"source": [
"En estos momentos voy a hacer una copia del dataset `df2` que llamaré `df2Copia` y que utilizaremos más adelante."
]
},
{
"cell_type": "code",
"execution_count": 34,
"id": "searching-northern",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.069460Z",
"start_time": "2022-02-16T20:11:36.062461Z"
}
},
"outputs": [],
"source": [
"df2Copia = df2.copy()"
]
},
{
"cell_type": "markdown",
"id": "beautiful-disclosure",
"metadata": {},
"source": [
"Vamos a construir una función que analice de manera rápida (no muy estética, pero práctica) cuáles son las proporciones de las columnas categóricas:"
]
},
{
"cell_type": "code",
"execution_count": 35,
"id": "qualified-flood",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.079486Z",
"start_time": "2022-02-16T20:11:36.071460Z"
},
"scrolled": true
},
"outputs": [],
"source": [
"def proporciones(data):\n",
" columns = [\"Sexo\", \"Hijos\",\"Estado Civil\", \"Vacunadx\"]\n",
" for col in columns:\n",
" print(f\"La columna {col} tiene las siguientes proporciones: \")\n",
" print(dict(round(data[col].value_counts(normalize=True)*100,2)))"
]
},
{
"cell_type": "code",
"execution_count": 36,
"id": "appreciated-demand",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.098458Z",
"start_time": "2022-02-16T20:11:36.081457Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"La columna Sexo tiene las siguientes proporciones: \n",
"{'H': 50.0, 'M': 50.0}\n",
"La columna Hijos tiene las siguientes proporciones: \n",
"{'NO': 58.73, 'SÍ': 41.27}\n",
"La columna Estado Civil tiene las siguientes proporciones: \n",
"{'Solter/x': 65.62, 'Casad/x': 20.31, 'Divorciad/x': 14.06}\n",
"La columna Vacunadx tiene las siguientes proporciones: \n",
"{'No': 64.62, 'SI': 35.38}\n"
]
}
],
"source": [
"proporciones(df2)"
]
},
{
"cell_type": "markdown",
"id": "encouraging-sleeping",
"metadata": {},
"source": [
"> **Atención**❗ : Más tarde haremos referencia a estas proporciones obtenidas, con el dataset `df2Copia`"
]
},
{
"cell_type": "code",
"execution_count": 37,
"id": "abroad-victory",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.354467Z",
"start_time": "2022-02-16T20:11:36.100474Z"
}
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"msno.matrix(df2,figsize=(8,5), fontsize=12); #en blanco, cada missing value"
]
},
{
"cell_type": "markdown",
"id": "heated-geology",
"metadata": {},
"source": [
"Vemos que tenemos algunas filas con valores faltantes.\n",
"\n",
"Consideraremos que si un registro no contiene sus dos apellidos no es un registro válido."
]
},
{
"cell_type": "code",
"execution_count": 38,
"id": "greek-lucas",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.365473Z",
"start_time": "2022-02-16T20:11:36.358461Z"
}
},
"outputs": [],
"source": [
"df2 = df2[(pd.notnull(df2[\"Apellido 1\"])) & (pd.notnull(df2[\"Apellido 2\"]))]"
]
},
{
"cell_type": "code",
"execution_count": 39,
"id": "aboriginal-organization",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.616459Z",
"start_time": "2022-02-16T20:11:36.368459Z"
}
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"msno.matrix(df2,figsize=(8,5), fontsize=12); #en blanco, cada missing value"
]
},
{
"cell_type": "markdown",
"id": "respected-programmer",
"metadata": {},
"source": [
"Filtremos nuestros datos para ver qué pinta tienen las filas que al menos contienen un valor faltante:"
]
},
{
"cell_type": "code",
"execution_count": 40,
"id": "unauthorized-landscape",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.642459Z",
"start_time": "2022-02-16T20:11:36.619459Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Nombre
\n",
"
Apellido 1
\n",
"
Apellido 2
\n",
"
Sexo
\n",
"
Municipio
\n",
"
Provincia
\n",
"
Edad
\n",
"
Hijos
\n",
"
Ingresos
\n",
"
Estado Civil
\n",
"
Vacunadx
\n",
"
\n",
" \n",
" \n",
"
\n",
"
1
\n",
"
Ana Belén
\n",
"
Carrasco
\n",
"
Dimitrova
\n",
"
NaN
\n",
"
NaN
\n",
"
Zaragoza
\n",
"
22.0
\n",
"
NO
\n",
"
1000.0
\n",
"
Solter/x
\n",
"
SI
\n",
"
\n",
"
\n",
"
3
\n",
"
María
\n",
"
Gallego
\n",
"
Martínez
\n",
"
NaN
\n",
"
Sevilla
\n",
"
Sevilla
\n",
"
45.0
\n",
"
NO
\n",
"
1500.0
\n",
"
Solter/x
\n",
"
No
\n",
"
\n",
"
\n",
"
5
\n",
"
Manuel
\n",
"
García
\n",
"
Muñoz
\n",
"
H
\n",
"
Madrid
\n",
"
NaN
\n",
"
59.0
\n",
"
SÍ
\n",
"
1825.0
\n",
"
Divorciad/x
\n",
"
No
\n",
"
\n",
"
\n",
"
10
\n",
"
Juan
\n",
"
Sanz
\n",
"
Hernández
\n",
"
H
\n",
"
Rentería
\n",
"
Guipúzcoa
\n",
"
22.0
\n",
"
SÍ
\n",
"
NaN
\n",
"
Solter/x
\n",
"
SI
\n",
"
\n",
"
\n",
"
13
\n",
"
José Luis
\n",
"
Romero
\n",
"
Busto
\n",
"
H
\n",
"
San Sebastián
\n",
"
Guipúzcoa
\n",
"
45.0
\n",
"
SÍ
\n",
"
NaN
\n",
"
Solter/x
\n",
"
No
\n",
"
\n",
"
\n",
"
62
\n",
"
María Carmen
\n",
"
Romano
\n",
"
Abellán
\n",
"
M
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Nombre Apellido 1 Apellido 2 Sexo Municipio Provincia Edad \\\n",
"1 Ana Belén Carrasco Dimitrova NaN NaN Zaragoza 22.0 \n",
"3 María Gallego Martínez NaN Sevilla Sevilla 45.0 \n",
"5 Manuel García Muñoz H Madrid NaN 59.0 \n",
"10 Juan Sanz Hernández H Rentería Guipúzcoa 22.0 \n",
"13 José Luis Romero Busto H San Sebastián Guipúzcoa 45.0 \n",
"62 María Carmen Romano Abellán M NaN NaN NaN \n",
"\n",
" Hijos Ingresos Estado Civil Vacunadx \n",
"1 NO 1000.0 Solter/x SI \n",
"3 NO 1500.0 Solter/x No \n",
"5 SÍ 1825.0 Divorciad/x No \n",
"10 SÍ NaN Solter/x SI \n",
"13 SÍ NaN Solter/x No \n",
"62 NaN NaN NaN NaN "
]
},
"execution_count": 40,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df2[df2.isnull().any(axis=\"columns\")]"
]
},
{
"cell_type": "markdown",
"id": "other-application",
"metadata": {},
"source": [
"Dado que la columna Sexo contiene 2 NaN:"
]
},
{
"cell_type": "code",
"execution_count": 41,
"id": "ceramic-virus",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.654456Z",
"start_time": "2022-02-16T20:11:36.645459Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"2"
]
},
"execution_count": 41,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df2[\"Sexo\"].isnull().sum()"
]
},
{
"cell_type": "markdown",
"id": "instant-escape",
"metadata": {},
"source": [
"Y analizando los datos asumimos que Ana Belén y María son de género Femenino, imputaremos la categoría \"M\" en la columna Sexo sin necesidad de hacerlo seleccionando los índices. Para ello, utilizaremos en esta ocasión el método `.fillna()`"
]
},
{
"cell_type": "code",
"execution_count": 42,
"id": "beautiful-editor",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.663459Z",
"start_time": "2022-02-16T20:11:36.657460Z"
}
},
"outputs": [],
"source": [
"df2[\"Sexo\"] = df2[\"Sexo\"].fillna(\"M\")"
]
},
{
"cell_type": "markdown",
"id": "alpha-preliminary",
"metadata": {},
"source": [
"Otro registro que podemos eliminar por completo es el que tiene índice 62 por contar con demasiados Missing Values. Asumiremos ese riesgo! 😋\n",
"\n",
"La siguiente operación funcionará porque pandas no pierde el índice hasta que no lo reseteemos nosotrxs."
]
},
{
"cell_type": "code",
"execution_count": 43,
"id": "personalized-emerald",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.673458Z",
"start_time": "2022-02-16T20:11:36.666472Z"
}
},
"outputs": [],
"source": [
"df2 = df2.drop(62)"
]
},
{
"cell_type": "markdown",
"id": "oriented-olympus",
"metadata": {},
"source": [
"Para poder disponer del registro 1 (Ana Belén Carrasco) imputaremos Zaragoza al municipio.\n",
"\n",
"De forma análoga, para disponer del registro 5 (Manuel García) imputaremos Madrid a la provincia (Madrid = CC.AA. uniprovincial)"
]
},
{
"cell_type": "code",
"execution_count": 44,
"id": "legislative-malta",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.684466Z",
"start_time": "2022-02-16T20:11:36.677463Z"
}
},
"outputs": [],
"source": [
"df2.loc[1,\"Municipio\"] = \"Zaragoza\"\n",
"df2.loc[5,\"Provincia\"] = \"Madrid\""
]
},
{
"cell_type": "markdown",
"id": "posted-gazette",
"metadata": {},
"source": [
"Nos queda trabajar con los valores faltantes correspondientes a ingresos:"
]
},
{
"cell_type": "code",
"execution_count": 45,
"id": "uniform-bobby",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.712457Z",
"start_time": "2022-02-16T20:11:36.686458Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Nombre
\n",
"
Apellido 1
\n",
"
Apellido 2
\n",
"
Sexo
\n",
"
Municipio
\n",
"
Provincia
\n",
"
Edad
\n",
"
Hijos
\n",
"
Ingresos
\n",
"
Estado Civil
\n",
"
Vacunadx
\n",
"
\n",
" \n",
" \n",
"
\n",
"
10
\n",
"
Juan
\n",
"
Sanz
\n",
"
Hernández
\n",
"
H
\n",
"
Rentería
\n",
"
Guipúzcoa
\n",
"
22.0
\n",
"
SÍ
\n",
"
NaN
\n",
"
Solter/x
\n",
"
SI
\n",
"
\n",
"
\n",
"
13
\n",
"
José Luis
\n",
"
Romero
\n",
"
Busto
\n",
"
H
\n",
"
San Sebastián
\n",
"
Guipúzcoa
\n",
"
45.0
\n",
"
SÍ
\n",
"
NaN
\n",
"
Solter/x
\n",
"
No
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Nombre Apellido 1 Apellido 2 Sexo Municipio Provincia Edad \\\n",
"10 Juan Sanz Hernández H Rentería Guipúzcoa 22.0 \n",
"13 José Luis Romero Busto H San Sebastián Guipúzcoa 45.0 \n",
"\n",
" Hijos Ingresos Estado Civil Vacunadx \n",
"10 SÍ NaN Solter/x SI \n",
"13 SÍ NaN Solter/x No "
]
},
"execution_count": 45,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df2[df2.isnull().any(axis=\"columns\")]"
]
},
{
"cell_type": "markdown",
"id": "focused-brass",
"metadata": {},
"source": [
"En este caso imputaremos el valor más habitual de Ingresos para las personas de 22 años."
]
},
{
"cell_type": "code",
"execution_count": 46,
"id": "timely-privacy",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.725463Z",
"start_time": "2022-02-16T20:11:36.715459Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"El valor más frecuente de ingresos para una persona de 22 años es: 1000.0\n"
]
}
],
"source": [
"#extremos la moda de los ingresos de todos los registros donde la persona tenga 22 años\n",
"val = df2[df2[\"Edad\"]==22][\"Ingresos\"].mode()[0]\n",
"print(f\"El valor más frecuente de ingresos para una persona de 22 años es: {val}\")\n",
"\n",
"#imputamos ese valor al registro 10.\n",
"df2.loc[10,\"Ingresos\"] = val"
]
},
{
"cell_type": "markdown",
"id": "civil-journal",
"metadata": {},
"source": [
"Finalmente, para la persona de 45 años imputaremos la mediana en su rango de edad."
]
},
{
"cell_type": "code",
"execution_count": 47,
"id": "secondary-visibility",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.738456Z",
"start_time": "2022-02-16T20:11:36.729461Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"El valor más frecuente de ingresos para una persona de 45 años es: 1500.0\n"
]
}
],
"source": [
"#extremos la mediana de los ingresos de todos los registros donde la persona tenga 45 años\n",
"val = df2[df2[\"Edad\"]==45][\"Ingresos\"].median()\n",
"print(f\"El valor más frecuente de ingresos para una persona de 45 años es: {val}\")\n",
"\n",
"#imputamos ese valor al registro 13.\n",
"df2.loc[13,\"Ingresos\"] = val"
]
},
{
"cell_type": "markdown",
"id": "appointed-middle",
"metadata": {},
"source": [
"En estos momentos ya dispondríamos de un dataset apto para el análisis y modelado."
]
},
{
"cell_type": "code",
"execution_count": 48,
"id": "weighted-reggae",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.750459Z",
"start_time": "2022-02-16T20:11:36.741460Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"Nombre 0\n",
"Apellido 1 0\n",
"Apellido 2 0\n",
"Sexo 0\n",
"Municipio 0\n",
"Provincia 0\n",
"Edad 0\n",
"Hijos 0\n",
"Ingresos 0\n",
"Estado Civil 0\n",
"Vacunadx 0\n",
"dtype: int64"
]
},
"execution_count": 48,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df2.isnull().sum()"
]
},
{
"cell_type": "markdown",
"id": "minor-talent",
"metadata": {},
"source": [
"Recuperando la copia del dataset `df2` llamada `df2Copia` como dataset de referencia ahora, también podríamos haber optado por eliminar todas las filas que contengan algún valor nulo con el método `.dropna(axis=1)`\n",
"- `df.dropna(axis=\"index\")` elimina todas las filas que tengan como mínimo un missing value\n",
"\n",
"Para las columnas:\n",
"- `df.dropna(axis=\"columns\")` elimina todas las columnas que tengan como mínimo un missing value\n"
]
},
{
"cell_type": "code",
"execution_count": 49,
"id": "anonymous-cooling",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.767459Z",
"start_time": "2022-02-16T20:11:36.754466Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"Nombre 0\n",
"Apellido 1 0\n",
"Apellido 2 0\n",
"Sexo 0\n",
"Municipio 0\n",
"Provincia 0\n",
"Edad 0\n",
"Hijos 0\n",
"Ingresos 0\n",
"Estado Civil 0\n",
"Vacunadx 0\n",
"dtype: int64"
]
},
"execution_count": 49,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df2Copia = df2Copia.dropna(axis=\"index\")\n",
"df2Copia.isnull().sum()"
]
},
{
"cell_type": "markdown",
"id": "fiscal-criminal",
"metadata": {},
"source": [
"Podemos analizar si para las columnas categóricas, el hecho de haber eliminado las filas sin ton ni son afecta a las proporciones de las mismas:"
]
},
{
"cell_type": "code",
"execution_count": 50,
"id": "satellite-albany",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:36.784465Z",
"start_time": "2022-02-16T20:11:36.770469Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"La columna Sexo tiene las siguientes proporciones: \n",
"{'M': 52.63, 'H': 47.37}\n",
"La columna Hijos tiene las siguientes proporciones: \n",
"{'NO': 59.65, 'SÍ': 40.35}\n",
"La columna Estado Civil tiene las siguientes proporciones: \n",
"{'Solter/x': 64.91, 'Casad/x': 22.81, 'Divorciad/x': 12.28}\n",
"La columna Vacunadx tiene las siguientes proporciones: \n",
"{'No': 63.16, 'SI': 36.84}\n"
]
}
],
"source": [
"proporciones(df2Copia)"
]
},
{
"cell_type": "markdown",
"id": "invisible-oregon",
"metadata": {},
"source": [
"Si comparamos con las proporciones originales, vemos que en ocasiones podemos sacrificar unos cuantos registros para ganar tiempo, sin que ello perjudique gravemente la muestra de datos con la que contamos para el análisis/entrenamiento del modelo."
]
},
{
"cell_type": "markdown",
"id": "concrete-vessel",
"metadata": {},
"source": [
"
Bonus!
"
]
},
{
"cell_type": "markdown",
"id": "entitled-extra",
"metadata": {},
"source": [
"También me gustaría dejarte por aquí algunas otras píldoras que pueden servirte de gran ayuda.\n",
"\n",
"\n",
"
1- Puedes hacer que pandas interprete los valores infinitos `np.inf` como `np.nan`
"
],
"text/plain": [
" Año Género Número Ventas\n",
"0 2014.0 NaN 400.0\n",
"1 2014.0 Bélico 80.0"
]
},
"execution_count": 52,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"import numpy as np\n",
"#coloco a propósito un valor infinito en la primera celda del campo Género.\n",
"\n",
"df.iloc[0,1] = np.inf \n",
"df.head(2) #como puedes ver lo interpreta como NaN"
]
},
{
"cell_type": "markdown",
"id": "unsigned-rider",
"metadata": {},
"source": [
"\n",
"
2- También puedes utilizar la función .replace() para reemplazar un valor cualquiera (también un missing value) por el valor que desees.
4- utilizar las componentes de estacionalidad y tendencia en una serie temporal con Missing Values para interpolar y reemplazar los valores faltantes.\n",
"
\n",
"\n",
"> 🔵 Puedes volver aquí cuando quieras, si aún no tienes los conocimientos sobre Time Series."
]
},
{
"cell_type": "markdown",
"id": "demanding-sailing",
"metadata": {},
"source": [
"🔵 El conjunto de datos AirPassengers proporciona el recuento mensual de los pasajeros de una aerolínea estadounidense, desde 1949 hasta 1960."
]
},
{
"cell_type": "code",
"execution_count": 58,
"id": "irish-verse",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:37.710494Z",
"start_time": "2022-02-16T20:11:37.653462Z"
}
},
"outputs": [],
"source": [
"ruta_dataset = \"dataset_notebook_demo.xlsx\"\n",
"df4 = pd.read_excel(ruta_dataset, na_values=treat_NaNs, sheet_name=\"ejAirPassengers\")"
]
},
{
"cell_type": "code",
"execution_count": 59,
"id": "proved-contrast",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:37.780502Z",
"start_time": "2022-02-16T20:11:37.713474Z"
}
},
"outputs": [],
"source": [
"from statsmodels.tsa.seasonal import seasonal_decompose\n",
"\n",
"df4[\"Month\"] = pd.to_datetime(df4[\"Month\"]) #convertimos a tipo fecha la variable Month.\n",
"df4.set_index('Month', inplace=True) #la colocamos como índice del dataset.\n",
"index = df4[pd.isnull(df4[\"#Passengers\"])].index #creamos una máscara con los índices donde #Passengers es null.\n",
"#para poder detectar la estacionalidad de la serie y la tendencia tomamos la decisión\n",
"#de interpolar linealmente la serie temporal.\n",
"df4['#Passengers1']= df4['#Passengers'].interpolate()"
]
},
{
"cell_type": "code",
"execution_count": 60,
"id": "ethical-reach",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:38.237461Z",
"start_time": "2022-02-16T20:11:37.782458Z"
}
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"analysis = df4[['#Passengers1']].copy()\n",
"\n",
"#descomponemos la serie en tendencia, estacionalidad y residuo\n",
"decompose_result_mult = seasonal_decompose(analysis, model=\"multiplicative\")\n",
"\n",
"trend = decompose_result_mult.trend\n",
"seasonal = decompose_result_mult.seasonal\n",
"residual = decompose_result_mult.resid\n",
"\n",
"decompose_result_mult.plot();"
]
},
{
"cell_type": "code",
"execution_count": 61,
"id": "valid-notification",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:38.248463Z",
"start_time": "2022-02-16T20:11:38.240462Z"
}
},
"outputs": [],
"source": [
"#dado que tenemos delante una serie temporal con tendencia ascendente\n",
"#y una estacionalidad marcada, podemos interpolar de la siguiente manera:\n",
"df4.loc[index, \"#Passengers\"] = trend.loc[index]*seasonal.loc[index]"
]
},
{
"cell_type": "code",
"execution_count": 62,
"id": "sought-fashion",
"metadata": {
"ExecuteTime": {
"end_time": "2022-02-16T20:11:38.471495Z",
"start_time": "2022-02-16T20:11:38.251456Z"
}
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"df4[\"#Passengers\"].plot(figsize = (10,6)); #Señal ajustada\n",
"df4[\"#Passengers1\"].plot(figsize = (10,6)); #Señal interpolada linealmente"
]
},
{
"cell_type": "markdown",
"id": "smaller-flush",
"metadata": {},
"source": [
"Nada mal, ¿Verdad?😊"
]
},
{
"cell_type": "markdown",
"id": "protecting-dallas",
"metadata": {},
"source": [
"\n",
"
5- No te ciñas a pandas y explora otros métodos de imputación pertenecientes a otras librerías como scikit-learn, fancyimpute, miceforest,etc.)
\n",
" \n",
"Te dejo un par de enlaces que considero que explican bastante bien la imputación múltiple iterativa e imputación KNN:\n",
"- Imputación KNN\n",
"- Imputación Iterativa\n"
]
},
{
"cell_type": "markdown",
"id": "clinical-watts",
"metadata": {},
"source": [
"
\n",
"¡Hasta la próxima pequeñx gran Egger! 🐣 Ya estás un pasito más cerca de lograr tus metas!\n",
"