a no ser que consigas un componente ya hecho... creeeme que sera un infierno.
Que sabes acerca de algoritmos de reduccion de ruido, convolucion, filtrado, mezcla etc. de sonidos?
En el caso que ya tengas un buen conocimiento al respecto y un dominio adecuado del tema, debes pensar en hacerlo a traves de una red neuronal de autoaprendizaje que sea capaz de diferenciar un sonido de otro y de establecer bajo que parametros un sonido puede equivaler a una letra, consonante, consonante - letra, consonante consonante, letra- letra etc....
tambien debes entrar a evaluar las caracteristicas de timbre, frecuencia, amplitud, modulacion etc etc...
es decir cuantas combinaciones diferentes de esas caracteristicas producen un sonido que podamos identificar como la letra A?
miles , o millones, incluso cada persona tiene algo diferente pero igual la A se oye como una A.
ASi que tambien debes alimentar la red neuronal con informacion acerca de que caracteristicas debe evaluar y con que tolerancia de valores para distinguir un sonido de otro encada letra o combinacion posible...
mejor dicho necesitas un grupo de investigacion y de buenos matematicos y fisicos para hacer eso... y mucha paciencia y seguramente recursos...
Mejor busca si y hay algo hecho y utilizalo... sino puedes tardar años... muchos años