¿Por qué los asistentes virtuales como Siri no son más inteligentes?

AI y su aplicación en VA (asistentes virtuales) solo están comenzando ahora, pero también están teniendo cuidado de cómo recorrer este camino.

En cuanto a su primera pregunta: Sí, tienen una gran cantidad de datos de asistencia humana, pero Apple es extremadamente, y afortunadamente cautelosa con la forma en que maneja las interacciones y los datos humanos.

Las regulaciones de protección de datos regionales y nacionales se volverán más estrictas a principios de 2018, lo que hará que los datos de interacción con el consumidor y la IA estén sujetos a auditoría. Esa es una de las principales razones para no seguir adelante y hacer una especie de piloto (s) completo para comprender al consumidor más profundamente (según los auditores invasivos).

En cuanto a su segunda pregunta, creo que poner todas las cosas (toneladas de modelos de inteligencia artificial entrenados) en la nube y esperar que las personas consuman y se suscriban a este servicio de inteligencia artificial de manera ubicua será un gran desafío.

argumentaría que se trata de un consumidor para un proveedor de servicios como una relación uno a uno, pero las regulaciones que se establecerán por el nacional o las entidades lo verán en las relaciones individuales que hay entre el servicio de inteligencia artificial y consumidores individuales.

Es bastante posible que la aceptación a escala real y masiva de un Asistente virtual tan asistido por aire pueda provenir de jugadores de código abierto, como este

Como alternativa a estos líderes del mercado, Montgomery y su equipo crearon Mycroft, el primer asistente de voz AI de código abierto del mundo [1]

El que más decide en todo esto seremos nosotros: los consumidores.

Cuánto vamos a dejar que este servicio ingrese a nuestro sistema y cuáles son los riesgos y beneficios futuros serán preguntas importantes para abordar.

Notas al pie

[1] Este asistente de voz AI de código abierto desafía a Siri y Alexa por la superioridad del mercado

Siri, Alexa y Philip, etc. son interfaces de voz desarrolladas durante más de las últimas dos décadas. El guión es principalmente teatro. Al igual que otro software que se beneficia de la Ley de Moore, la enorme potencia de la CPU, la GPU y los grandes recuerdos de las computadoras modernas, han estado haciendo mejores demostraciones.

En estas condiciones restringidas y silenciosas, han atraído a los gerentes de productos, son dispositivos fáciles de crear para Hollywood, y existe un optimismo irracional en la ingeniería de computadoras de que el enfoque actual continuará mostrando mejoras, y esta es la única razón por la que los vemos.

Se ha dicho que cumplen con la regla de ingeniería ad hoc 80/20. Funcionan lo suficientemente bien en condiciones ideales y restringidas.

Para mejorar el determinismo de estas interfaces, recientemente han estado ofreciendo respuestas a los usuarios, dejando de lado la necesidad de reconocimiento.

Por otro lado, escribí una patente sobre las respuestas de chat ofrecidas en 1998 y construí una herramienta de producción para estas interfaces, posteriormente licenciada a Microsoft, para un producto que desarrollé para Phil Goldman (WebTV) al principio, llamado Click-Chat. El uso reciente de esta técnica puede ser una violación, aunque creo que la patente ha expirado.

El problema es que los usuarios humanos de interfaces naturales que utilizan el reconocimiento de voz requieren una mejor comprensión y comprensión de la señal que 80/20. Requieren determinismo en una interfaz y cosas como ClickChat pueden proporcionar eso.

Las aplicaciones que usan interfaces de reconocimiento proporcionan la inteligencia percibida, pero no importa cuán inteligente sea la aplicación si la entrada a estas aplicaciones solo cumple con los criterios 80/20.

El nivel de error persistente que ven los usuarios y la delicadeza de los ingenieros puede ser brevemente entretenido, pero los llevará a abandonar la interfaz en el futuro.

Debido a esta falla general en el reconocimiento de voz, predigo que finalmente se eliminará para el caso general y habrá un uso intensivo de tecnologías como Click-Chat que dependen del teatro, buenas habilidades de escritura y producción, y no requiere voz reconocimiento.

Estas probabilidades de 80/20 solo ven una leve mejora con el volumen de inteligencia artificial de procesamiento de datos de Google o Watson.

TL; DR : Es fácil hacer que algo se vea bien como una “demostración”. Pero hacer que funcione a escala para muchos tipos diferentes de personas y que se ejecute en un teléfono (con potencia de cómputo limitada y solo micrófonos OK) es muchísimo más difícil. Lo digo por experiencia.

Es fácil hacer que una demostración de un agente de conversación se vea bien, pero eso no significa que esté cerca de estar lista para el horario estelar. Lo sé porque lo hice.

Aquí hay un video de lo que pude construir hace 15 años:

Mirándolo ingenuamente, puedo imaginar a alguien que no sabe cómo se construyó: “No hemos progresado tanto en 15 años, ¿verdad? O eso, o la persona que construyó esto fue un genio sin descubrir “.

Ninguno de ellos es cierto ( especialmente el segundo).

Lo que hice fue tratar de empujar los límites para mostrar a la gente lo que podría ser posible. Eso significa que publiqué este sistema con un conjunto conocido de limitaciones. En este caso:

  • Solo sabía sobre un cierto conjunto de temas.
  • Fue entrenado específicamente en mi voz.
  • Solo se probó en entornos silenciosos.
  • Tenía una conectividad de red perfecta e hizo la mayor parte del procesamiento en el servidor, no en el teléfono en sí.

Entonces, en el video que incluye en la pregunta, se muestran muchos de los mismos “trucos” que usé hace una década y media:

  • Se utiliza un micrófono de mano.
  • Ese robot probablemente cuesta alrededor de $ 100,000 en piezas y equipos informáticos, por lo que alrededor de 100 veces lo que está disponible en un teléfono. Sin mencionar la conectividad de red.
  • Se está utilizando en un ambiente tranquilo.

Para responder a esta pregunta, debe preguntarse qué sucede cuando entabla una conversación con una persona. Sigue sucediendo mucho porque el cerebro humano está bien adaptado para tener conversaciones.

Envías tus saludos y respondes lo habitual, ¿cómo estás? Estoy bien, gracias. Entonces la persona daría una solicitud. Hay un millón de formas de abordar la tarea, pero el cerebro humano está adaptado para elegir la forma más sensata desde el punto de vista social y técnico. Un asistente virtual tiene un paso adicional para descubrir cuál es la forma más “social y técnicamente sensible” de hacer la tarea antes de hacerlo realmente.

El cerebro humano también comprende el contexto de la situación porque podemos entender las diferentes emociones que causan diferentes tonos y adaptarnos desde allí. Los asistentes virtuales tienen dificultades para comprender los tonos.

Al final, el cerebro y los sentidos humanos son seriamente subestimados por personas que creen que los asistentes virtuales pueden eventualmente actuar como seres humanos reales.