Hola que tal.
No había escuchado tel tema, pero cuando usas las 2das derivadas sobre una función es para que encuentres más rapido el óptimo, es decir, el mínimo o máximo, (la solución), así que me imagino que al usar redes neuronales con 2das derivadas, encontrarás más rápido la solución.
Ahora, eso de la matríz Hessiana es la matríz de 2das derivadas de una función de n variables, por ejemplo, si tienes la siguiente función:
f(x1,x2) = x1^2 + x2^2
df/dx1 = 2x1 primeras
df/dx2 = 2x2 derivadas
df/dx1^2 = 2 df/dx1x2 = 0 segundas
df/dx2x1 = 0 df/dx2^2 = 2 derivadas
por lo que la matríz Hessiana es una matríz simétrica de nXn producida por las segundas derivadas
Matríz Hessiana de f(x1,x2)
|2 0|
|0 2|
Espero se entienda lo que trate de decir.
Hasta luego.