¿Por qué el reconocimiento de voz de Google para su interfaz de búsqueda en móviles (Android y iPhone) es tan bueno, pero su transcripción de mensajes de voz en Google Voice es tan pobre?

Aquí hay un par de desafíos en juego, y afectan a todos los sistemas de reconocimiento de voz que existen. Este es el por qué…

Si usa el sistema VR de Google en, por ejemplo, un teléfono Android, observará resultados fenomenales. Reconoce bien el habla natural, pero también parece obtener mucho más: como jerga, nombres de celebridades, ciudades, estados, etc. Si activa la opción de Resultados personalizados, comienza a construir una base de datos específicamente para * su voz *. Esto es lo que produce los mejores resultados. Y esa base de datos es una línea de base de los resultados de Google Voice. Además, creo que esos resultados se devuelven a Google Voice para ayudar a mejorarlo.

En una prueba formal de la realidad virtual contra Nuance y otros productos comerciales, descubrimos que funcionó tan bien o mejor. Y debido a su baja licencia y bajo costo, es un trato fenomenal.

Ahora … a su experiencia con la transcripción del correo de voz:

La transliteración de los correos de voz produce generalmente malos resultados porque la realidad virtual para el correo de voz es tan mala como se pone:

* No puede adaptar los resultados a una voz específica. Simplemente no sabe quién está llamando.

* Tiene que tratar con lenguaje y dialecto desconocido. Estas son cosas que puede resolver más fácilmente si sabe un poco sobre usted, pero no puede aplicar ese conocimiento a las personas que le dejan el correo de voz.

* Tiene que lidiar con el ruido de fondo. Muchas llamadas telefónicas están plagadas de ruidos terribles en el fondo: maquinaria, automóviles, aire, otras personas, niños gritando, cerrando refrigeradores, etc. Esto causa estragos en un sistema de realidad virtual.

* Muchos correos de voz simplemente no son posibles de comprender. Los recibo todo el tiempo, tengo que jugarlos una y otra vez antes de entender lo que dijo la persona, y muchas veces, nunca llego a ese punto.

* Y finalmente, las personas hablan a un ritmo normal y de una manera poco clara cuando no se dan cuenta de que están hablando con un sistema de realidad virtual. Por supuesto, un sistema de realidad virtual perfecto no debería requerir ningún cambio en el habla, pero como probablemente descubrió por experiencia, en los sistemas actuales puede mejorar enormemente los resultados si habla a un ritmo constante y agradable y pronuncia sus palabras.

A pesar de esto, los sistemas de realidad virtual producidos a partir de los conjuntos de datos recibidos por Google Voice, junto con sus transliteraciones * corregidas *, son asombrosamente buenas y están a la par o mejor que los esfuerzos comerciales “.

Gracias por el A2A, pero simplemente voy a recomendar la excelente respuesta de Dan Rudman.