Hola que tal.
No había escuchado tel tema, pero cuando usas las 2das derivadas sobre una función es para que encuentres más rapido el óptimo, es decir, el mínimo o máximo, (la solución), así que me imagino que al usar redes neuronales con 2das derivadas, encontrarás más rápido la solución.
Ahora, eso de la matríz Hessiana es la matríz de 2das derivadas de una función de n variables, por ejemplo, si tienes la siguiente función:
-   
- f(x1,x2) = x1^2 + x2^2 
-   
- df/dx1 = 2x1                   primeras 
- df/dx2 = 2x2                   derivadas 
-   
- df/dx1^2 = 2                   df/dx1x2 = 0           segundas 
- df/dx2x1 = 0                   df/dx2^2 = 2           derivadas 
-   
-   
por lo que la matríz Hessiana es una matríz simétrica de nXn producida por las segundas derivadas
-   
- Matríz Hessiana de f(x1,x2) 
- |2  0| 
- |0  2| 
-   
-   
Espero se entienda lo que trate de decir.
Hasta luego.