Hola, que tal.
No creo que te sea necesario convertir la voz a texto, además de que este es un prceso un poco complicado.
Lo que te recomiendo es que hagas un analisis con la frecuencia o amplitud del sonido percibido y apartir de este dato, generes algun valor en un rango, ya sean números enteros o reales y aprtir de ahí realices las acciones correspondientes.
Espero te sirva esta sugerencia.
Hasta luego.