Es un experimento interesante para probar, pero en teoría debería funcionar mal.
El reconocimiento de voz automático (ASR), o voz a texto, se entrena en base al reconocimiento de patrones del habla humana. Intenta encontrar la mejor coincidencia entre una serie desconocida de señales acústicas y una lista de combinaciones de secuencia aceptables de esos sonidos para un idioma determinado. Está prediciendo lo que es más probable que sea correcto.
La síntesis de voz, o texto a voz (TTS), se ejecuta en principios completamente diferentes. En general, no se trata de predecir nada, ya que todo el texto está allí. (Aunque tiene que tomar decisiones, como si “St.” se pronuncia “calle” o “santo”, y si “Houston” se pronuncia como la ciudad de Texas o la calle de Nueva York). Está formando una corriente de sonido y siguiendo diferentes reglas para tratar de hacer que suene lo más humano posible. TTS se pone cada vez mejor cada año, pero sigue siendo un poco antinatural, como cualquiera que escuchara a Siri le diría.
- ¿Cómo puede deshabilitar las conversaciones entrelazadas para Gmail en iOS?
- Específicamente, ¿por qué el iPhone 4 no puede pasar iOS 7.1.2?
- ¿Hasta cuándo se puede usar un iPhone después de que deja de recibir actualizaciones de iOS?
- ¿Cuánto dinero generaría una aplicación iOS a partir de 50k descargas solo de anuncios?
- Como desarrollador de iOS durante los últimos seis años, ahora estoy pensando en aprender nuevas tecnologías, pero no sé si elegir React Native o Android. ¿Cuáles son algunas recomendaciones?
Lo único que ambos pueden compartir es el mismo léxico o vocabulario; es decir, tener un diccionario de palabras y saber pronunciarlas. Están trabajando en el mismo libro de jugadas, si lo desea. Pero aparte de eso, ASR está operando independientemente de TTS, y el uso de la entrada TTS a un sistema ASR entrenado en patrones vocales de personas reales tendrá una tasa de error más alta que para el habla humana. (Teóricamente, al menos).