### Práctica Descenso de Gradiente

#### Objetivo: construir tu propio algoritmo de Descenso de Gradiente para optimizar los pesos de la red del ejemplo de la tarea (con nodos $x_1, x_2, x_3$ y $y_1$)

##### Cargamos la librería NumPy

In [None]:
# Import Libraries
import numpy as np

##### Generamos las funciones de activación y pérdida, junto con sus gradientes

In [None]:
# Función de activación sigmoide
activation = lambda x: 1/(1+np.exp(-x))
# Gradiente de la función sigmoide
gradient_activation = lambda x: activation(x)*(1 - activation(x))

# Output de la red (suma de pesos e inputs seguido de la función de activación)
yPred = lambda x_1, x_2, x_3, w_1, w_2, w_3: activation(np.dot([x_1, x_2, x_3], [w_1, w_2, w_3]))
# Gradiente del output en función de los pesos
gradient_yPred_1 = lambda x_1, x_2, x_3, w_1, w_2, w_3: gradient_activation(np.dot([x_1, x_2, x_3], [w_1, w_2, w_3]))*x_1
gradient_yPred_2 = lambda x_1, x_2, x_3, w_1, w_2, w_3: gradient_activation(np.dot([x_1, x_2, x_3], [w_1, w_2, w_3]))*x_2
gradient_yPred_3 = lambda x_1, x_2, x_3, w_1, w_2, w_3: gradient_activation(np.dot([x_1, x_2, x_3], [w_1, w_2, w_3]))*x_3

# La función de pérdida o error (MSE entre output de red y dato real)
error = lambda real, x_1, x_2, x_3, w_1, w_2, w_3: (yPred(x_1, x_2, x_3, w_1, w_2, w_3) - real)**2
# Gradiente  de la función de pérdida en función de los pesos
gradient_error_1 = lambda real, x_1, x_2, x_3, w_1, w_2, w_3: 2*(yPred(x_1, x_2, x_3, w_1, w_2, w_3) - real)*gradient_yPred_1(x_1, x_2, x_3, w_1, w_2, w_3)
gradient_error_2 = lambda real, x_1, x_2, x_3, w_1, w_2, w_3: 2*(yPred(x_1, x_2, x_3, w_1, w_2, w_3) - real)*gradient_yPred_2(x_1, x_2, x_3, w_1, w_2, w_3)
gradient_error_3 = lambda real, x_1, x_2, x_3, w_1, w_2, w_3: 2*(yPred(x_1, x_2, x_3, w_1, w_2, w_3) - real)*gradient_yPred_3(x_1, x_2, x_3, w_1, w_2, w_3)

##### Inicializamos la red y los hiperparámetros (los mismos que en el ejemplo de la tarea)

In [None]:
real = 0.5
x1, x2, x3 = 1, 3, -1.5
learning_rate = 0.1

##### Generamos la simulación cuya primera iteración ya hemos hecho en la tarea, a mano

In [None]:
w1, w2, w3 = 1, 0.5, -1
print('Valor inicial de la función de pérdida', error(real, x1, x2, x3, w1, w2, w3))
print('Output inicial', yPred(x1, x2, x3, w1, w2, w3))
k = 0
while k < 1000:
    d = [gradient_error_1(real, x1, x2, x3, w1, w2, w3), 
         gradient_error_2(real, x1, x2, x3, w1, w2, w3), 
         gradient_error_3(real, x1, x2, x3, w1, w2, w3)]
    norm = np.linalg.norm(d)
    if norm < 0.025:
        print('Óptimo encontrado')
        break
    else:
        w1, w2, w3 = w1 - learning_rate*d[0], w2 - learning_rate*d[1], w3 - learning_rate*d[2]
        print('Nuevos pesos:', w1, w2, w3)
        print(f'Error en iteración {k} es:', error(real, x1, x2, x3, w1, w2, w3))
    k += 1
print('Pesos óptimos:', w1, w2, w3)
print('Output final', yPred(x1, x2, x3, w1, w2, w3))

##### Hemos pasado de un $0.2323373$ de error a un $0.0001526$, y los pesos se han optimizado desde $(1, 0.5, -1)$ a $(0.6775, -0.4675, -0.51625552)$. Además, hemos empezado con un output de $0.982$ y se ha mejorado a  $0.5123525$, ya que el dato real es $0.5$.

##### Probemos ahora el mismo algoritmo, pero ahora con unos pesos iniciales diferentes: $(1, 1, 3)$.

In [None]:
w1, w2, w3 = 1, 1, 3
print('Valor inicial de la función de pérdida', error(real, x1, x2, x3, w1, w2, w3))
print('Output inicial', yPred(x1, x2, x3, w1, w2, w3))
k = 0
while k < 1000:
    d = [gradient_error_1(real, x1, x2, x3, w1, w2, w3), 
         gradient_error_2(real, x1, x2, x3, w1, w2, w3), 
         gradient_error_3(real, x1, x2, x3, w1, w2, w3)]
    norm = np.linalg.norm(d)
    if norm < 0.025:
        print('Óptimo encontrado')
        break
    else:
        w1, w2, w3 = w1 - learning_rate*d[0], w2 - learning_rate*d[1], w3 - learning_rate*d[2]
        print('Nuevos pesos:', w1, w2, w3)
        print(f'Error en iteración {k} es:', error(real, x1, x2, x3, w1, w2, w3))
    k += 1
print('Pesos óptimos:', w1, w2, w3)
print('Output final', yPred(x1, x2, x3, w1, w2, w3))

##### Hemos pasado de un $0.015$ de error a un $0.0001655$, y los pesos se han optimizado desde $(1, 1, 3)$ a $(1.0366, 1.11, 2.945)$. Además, hemos empezado con un output de $0.37754$ y se ha llegado a  $0.487$ (que es mejor, ya que el dato real es $0.5$).

#### ¡Ahora te toca a ti! Prueba diferentes pesos iniciales, cambia el $\texttt{learning}$_$\texttt{rate}$, el número de iteraciones... incluso puedes cambiar los inputs iniciales $x_1, x_2, x_3$ y el dato real. Y ya para nota, intenta crear un algoritmo de Descenso de Gradiente para una red diferente a la del ejemplo. ¡Ánimo!