<h3>MANIPULAR DATOS DE TIEMPO ‚åõ‚åõ‚åõ</h3> 

En este caso, utilizaremos el conjunto de datos de citas m√©dicas alojado en Kaggle (https://www.kaggle.com/joniarroba/noshowappointments). Este conjunto de datos consta de m√°s de 110.000 citas m√©dicas. 

La columna principal que utilizaremos para este Notebook son el <em>ScheduledDay</em> (fecha y hora en el que se program√≥ la cita). El objetivo es ver c√≥mo podemos manipular una columna que refleja el tiempo para adaptarlo a las necesidades del futuro modelo de IA. 

In [71]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Supongo que has guardado el dataset en la carpeta dataset ;), de lo contrario adaptar el path
df = pd.read_csv("dataset/cita_medica.csv")
df.head()

Unnamed: 0,PatientId,AppointmentID,Gender,ScheduledDay,AppointmentDay,Age,Neighbourhood,Scholarship,Hipertension,Diabetes,Alcoholism,Handcap,SMS_received,No-show
0,29872500000000.0,5642903,F,2016-04-29T18:38:08Z,2016-04-29T00:00:00Z,62,JARDIM DA PENHA,0,1,0,0,0,0,No
1,558997800000000.0,5642503,M,2016-04-29T16:08:27Z,2016-04-29T00:00:00Z,56,JARDIM DA PENHA,0,0,0,0,0,0,No
2,4262962000000.0,5642549,F,2016-04-29T16:19:04Z,2016-04-29T00:00:00Z,62,MATA DA PRAIA,0,0,0,0,0,0,No
3,867951200000.0,5642828,F,2016-04-29T17:29:31Z,2016-04-29T00:00:00Z,8,PONTAL DE CAMBURI,0,0,0,0,0,0,No
4,8841186000000.0,5642494,F,2016-04-29T16:07:23Z,2016-04-29T00:00:00Z,56,JARDIM DA PENHA,0,1,1,0,0,0,No


In [72]:
df.ScheduledDay.head()

0    2016-04-29T18:38:08Z
1    2016-04-29T16:08:27Z
2    2016-04-29T16:19:04Z
3    2016-04-29T17:29:31Z
4    2016-04-29T16:07:23Z
Name: ScheduledDay, dtype: object

Como se puede observar, el dtype de <em>ScheduledDay</em> es de tipo object, lo que significa que pandas entiende estos valores como strings. Para convertir estas cadenas en fechas podemos utilizar la funci√≥n de pandas <em>to_datetime</em>. 

Utilizar el par√°metro format para indicar espec√≠ficamente el formato puede ser una buena decisi√≥n. Si usas el par√°metro de formato, tienes que especificar qu√© hacer con los errores.



In [73]:
df['ScheduledDay'] = pd.to_datetime(df['ScheduledDay'], 
 format = '%Y-%m-%dT%H:%M:%SZ', 
 errors = 'coerce')
assert df.ScheduledDay.isnull().sum() == 0, 'missing ScheduledDay dates'

In [74]:
# Ver los cambios. Tipo datetime y un formato m√°s legible
df.ScheduledDay.head()

0   2016-04-29 18:38:08
1   2016-04-29 16:08:27
2   2016-04-29 16:19:04
3   2016-04-29 17:29:31
4   2016-04-29 16:07:23
Name: ScheduledDay, dtype: datetime64[ns]

Al convertir las cadenas en datetimes podemos empezar a utilizar otras propiedades de Pandas: https://pandas.pydata.org/pandas-docs/version/0.23/api.html#datetimelike-properties

B√°sicamente, con Pandas podr√°s desglosar la fecha y obtener el a√±o, el mes, la semana del a√±o, el d√≠a del mes, la hora, los minutos, los segundos, etc√©tera. Tambi√©n puede obtener el d√≠a de la semana (lunes = 0, domingo = 6).

In [75]:
df['A√±o_programado'] = df['ScheduledDay'].dt.year
df['Mes_programado'] = df['ScheduledDay'].dt.month
df['Semana_programada'] = df['ScheduledDay'].dt.isocalendar().week
df['D√≠a_programado'] = df['ScheduledDay'].dt.day
df['Hora_programado'] = df['ScheduledDay'].dt.hour
df['Minuto_programado'] = df['ScheduledDay'].dt.minute
df['D√≠a_semana_programado'] = df['ScheduledDay'].dt.dayofweek

In [76]:
df[['A√±o_programado','Mes_programado','Semana_programada','D√≠a_programado','Hora_programado',
    'Minuto_programado','D√≠a_semana_programado']].head()

Unnamed: 0,A√±o_programado,Mes_programado,Semana_programada,D√≠a_programado,Hora_programado,Minuto_programado,D√≠a_semana_programado
0,2016,4,17,29,18,38,4
1,2016,4,17,29,16,8,4
2,2016,4,17,29,16,19,4
3,2016,4,17,29,17,29,4
4,2016,4,17,29,16,7,4


Enhorabuena. Has conseguido organizar la informaci√≥n en columnas separadas, despu√©s te quedar√°s con las que te aporten valor.
Si has llegado hasta aqu√≠ est√°s en un punto muy interesante de tu aprendizaje. Sigue empe√±√°ndote de este modo y conseguir√°s todo lo que te propongas.

¬°Fuerza! üí™üí™üí™