Lingüística computacional: ¿Cómo funciona la voz a texto (particularmente cómo reconoce los límites de palabras) en el iPhone?

¡Hey HOLA! Puedo darte un poco de información por aquí. No sé si estoy 100 correcto pero lo intentaré.

Una máquina de voz a texto generalmente sigue estos pasos:

1. Acepte la entrada del micrófono como una señal PCM a 16 KHz.
Una vez que acepta esta entrada, Tiene que ser convertido a dominio de frecuencia. Porque no es posible hacer coincidir los patrones de voz del usuario y el patrón de palabra real en este formulario.

2. Conviértalo en dominio de frecuencia utilizando una transformada rápida de Fourier. (FFT)
Ahora se puede hacer la coincidencia de patrones.

3. Analice cada patrón de 1/100 en un segundo.
Cuando analizamos solo 100 patrones en un segundo, ahorramos mucha potencia del procesador en comparación con el análisis de 1/16000 de cada segundo en forma cruda. Esta coincidencia de patrones se realiza utilizando una gran base de datos de dichos patrones. Esta base de datos se llama como ‘Libro de códigos’.

4. Análisis de números de funciones.
Cada patrón en el Libro de códigos recibe un número de función. Hay 10-20 números de función para una sola letra. Dependen de lo que viene antes y después de la carta. Por ejemplo: ‘H’ es ‘Hola’ suena diferente y eso en ‘Cómo’. Es por eso que ambos casos tienen un número de característica diferente de ‘H’. De esta manera, toda la señal se convierte en una secuencia de números de función.

5. Cálculo de probabilidad.
La secuencia de salida de números de función puede contener algunos números de función incorrectos debido al ruido de fondo. Para corregir este error. Se calcula la probabilidad de números de características. Básicamente no se puede llamar probabilidad porque no suma 1. Entonces, llamémosle puntaje. La puntuación se calcula para cada número de función.
Ejemplo: considere que los números de característica de ‘B’ son 19, 22, 7, 97, 44 …
Los de ‘Y’ son 14, 163, 67, 59 …
Los de ‘E’ son 33, 97, 103, 47 …

Entonces la secuencia de números de funciones para ‘Bye’ será: 19, 19, 40, 44, 19, 22, 20, 14, 67, 71, 67, 67, 43, 47, 103, 103, 97.

Este vapor tiene algunos valores incorrectos, pero después del cálculo de la puntuación, se encuentra la palabra correcta.

De esta manera funciona.

Utiliza el modelo oculto de Markov. Puede buscar HMM para obtener una explicación detallada y completamente matemática. Pero creo que es bastante difícil de entender.

En caso de iOS. Todo esto sucede en la nube. Se llama procesamiento basado en la nube. Es por eso que necesita conexión a Internet para voz a texto. En la Mac, puede descargar voz a texto sin conexión.

Chicos, dime si estoy equivocado.

¡Gracias! 🙂