¿Puede el software de reconocimiento de voz determinar si varias personas están hablando?

Depende del software de reconocimiento de voz. Cada paquete, y hay varios, tiene sus propias características y capacidades en comparación con otro. Obviamente hay un “estado del arte” que es un punto de intersección entre los paquetes más populares, pero hay diferencias notables.

Si está interesado en aprender más, haga una búsqueda en la web para “separación de fuente ciega”. Esta es la técnica de procesamiento de señal digital (DSP) más comúnmente involucrada en la “demuxing” o separación de múltiples voces del flujo de audio de un conjunto de micrófonos. La lectura adicional podría incluir una búsqueda del “efecto cóctel”, que describe la capacidad del cerebro para enfocarse selectiva y exitosamente en voces individuales mezcladas en un evento en el que varias personas hablan simultáneamente (como en una fiesta cóctel), mientras filtran todo otras voces y fuentes de sonido en la sala.

Estoy completamente especulando aquí, pero supongo que el dispositivo Echo de Amazon, un dispositivo doméstico orientado al consumidor que contiene una matriz de micrófonos y responde a los comandos de voz, utiliza una técnica de este tipo. He escuchado muchos informes de que puede responder de manera robusta a varias personas que hablan en la misma habitación con otras fuentes de sonido como TV, radio, etc., reproduciéndose al mismo tiempo.

Koemei tiene una solución de reconocimiento de voz multiparte que tiene la capacidad de identificar y transcribir múltiples tareas de reconocimiento de voz. Verifique un producto que integra la API de koemei: http://www.dev-audio.com o http://www.koemei.com

Siguiendo la respuesta de Temitope, el producto Microcone Recorder desarrollado por nosotros en Dev-Audio puede determinar si varias personas están hablando. Distingue a las personas en función de su ubicación alrededor del dispositivo USB Microcone (utilizando la tecnología de matriz de micrófonos), y luego envía una secuencia de audio separada a través del software de reconocimiento de voz (a través de la API Koemei) para transcribir lo que dijo cada persona. Puede ver un breve video de demostración de QuickTime de la detección de actividad de voz en varias personas en esta página: http://www.dev-audio.com/product