Esto es algo de lo que sé un poco porque mi tesis doctoral se tituló Word Isolation in Speech by Phonetic Analysis. Eso fue hace más de 30 años cuando estábamos usando computadoras con una fracción de la potencia de un iPhone. De hecho, esa fue la razón por la que tomamos un enfoque basado en la percepción humana en lugar del procesamiento de la señal digital de fuerza bruta. La conversión del habla acústica en características fonéticas se logró utilizando hardware especialmente diseñado y redujo enormemente el requisito computacional en la coincidencia de las expresiones con un vocabulario. También nos dio a los investigadores una comprensión mucho mejor del contenido de información del habla. Además, nuestro enfoque en ese momento era considerablemente mejor que los modelos DSP en el manejo de múltiples altavoces y habla continua. Lamentablemente, a medida que la energía y el almacenamiento de la computadora se han vuelto más baratos, ha prevalecido el enfoque de cálculo numérico puro. También puede ser que las características fonéticas evolucionen dentro de la red neuronal como variables ocultas, pero el hecho es que muchos diseñadores humanos de algoritmos ASR a menudo son ajenos a los fundamentos fonéticos del habla humana. Con suerte, esto cambiará a medida que alcancemos los límites de lo que se puede lograr ignorando el modelo humano. (Para una discusión más extensa sobre la inteligencia artificial, las redes neuronales y la ropa nueva del rey ). Mientras tanto, y para responder a la pregunta, el único enfoque que conozco es utilizar varios servicios ASR que producen texto y luego convertir el texto a fonemas.
Necesito reconocimiento de fonemas (preferiblemente en iOS pero puede estar basado en el servidor) para un programa de lectura fonética. ¿Qué es un reconocedor de fonemas preciso con un modelo acústico que utiliza niños de 4 a 9 años de edad? ¿O al menos una base de datos de voces infantiles (equivalente a TIMIT)?
Related Content
¿Por qué siempre se activa Bluetooth después de una actualización de iOS?
¿Por qué muchos juegos de Android / iOS no comparten los datos del juego entre sí?
¿Cuáles son algunos consejos y trucos poco conocidos de iPhone / iOS 9?
El reconocimiento preciso de fonemas para el habla infantil aún no existe. Los adultos son mucho más fáciles de reconocer e incluso en TIMIT los mejores resultados modernos con redes LSTM el error sigue siendo del 20%.
La base de datos del habla infantil se llama The CMU Kids Corpus.
More Interesting
¿Qué es esto y por qué apagó mi iPhone? ¿Como funciona?
¿Cómo hago una copia de seguridad de mi lista de lectura de Safari?
¿Por qué mi aplicación iOS no recibe descargas?
¿Es posible omitir una cuenta de iCloud en un dispositivo con iOS 10.2 y superior?
¿Por qué Apple ha limitado el motor Nitro JavaScript en iOS 4.3 a Safari?
¿Cuántas versiones más de iOS admitirá el iPhone 6?
¿Por qué recibo el error 'EXC_BAD_INSTRUCTION'?
¿Qué aplicaciones de teléfono se necesitan en 2016 para iOS y Android?
¿Por qué no hay una aplicación de iOS para Amazon Cloud Player? (edición publicada en junio de 2012)
¿Dará algunos consejos para crear aplicaciones (Android, iOS y Windows)?