Necesito reconocimiento de fonemas (preferiblemente en iOS pero puede estar basado en el servidor) para un programa de lectura fonética. ¿Qué es un reconocedor de fonemas preciso con un modelo acústico que utiliza niños de 4 a 9 años de edad? ¿O al menos una base de datos de voces infantiles (equivalente a TIMIT)?

Esto es algo de lo que sé un poco porque mi tesis doctoral se tituló Word Isolation in Speech by Phonetic Analysis. Eso fue hace más de 30 años cuando estábamos usando computadoras con una fracción de la potencia de un iPhone. De hecho, esa fue la razón por la que tomamos un enfoque basado en la percepción humana en lugar del procesamiento de la señal digital de fuerza bruta. La conversión del habla acústica en características fonéticas se logró utilizando hardware especialmente diseñado y redujo enormemente el requisito computacional en la coincidencia de las expresiones con un vocabulario. También nos dio a los investigadores una comprensión mucho mejor del contenido de información del habla. Además, nuestro enfoque en ese momento era considerablemente mejor que los modelos DSP en el manejo de múltiples altavoces y habla continua. Lamentablemente, a medida que la energía y el almacenamiento de la computadora se han vuelto más baratos, ha prevalecido el enfoque de cálculo numérico puro. También puede ser que las características fonéticas evolucionen dentro de la red neuronal como variables ocultas, pero el hecho es que muchos diseñadores humanos de algoritmos ASR a menudo son ajenos a los fundamentos fonéticos del habla humana. Con suerte, esto cambiará a medida que alcancemos los límites de lo que se puede lograr ignorando el modelo humano. (Para una discusión más extensa sobre la inteligencia artificial, las redes neuronales y la ropa nueva del rey ). Mientras tanto, y para responder a la pregunta, el único enfoque que conozco es utilizar varios servicios ASR que producen texto y luego convertir el texto a fonemas.

El reconocimiento preciso de fonemas para el habla infantil aún no existe. Los adultos son mucho más fáciles de reconocer e incluso en TIMIT los mejores resultados modernos con redes LSTM el error sigue siendo del 20%.

La base de datos del habla infantil se llama The CMU Kids Corpus.