Alexa, Siri y Google no entienden una palabra que dices

Los asistentes de voz como Alexa, Google Assistant y Siri han recorrido un largo camino en los últimos años. Pero, a pesar de todas sus mejoras, una cosa los detiene: no te entienden. Dependen demasiado de comandos de voz específicos.

El reconocimiento de voz es solo un truco de magia

Un dicho de Echo dot

Los asistentes de voz no te entienden. De todos modos, no realmente. Cuando habla con Google Home o Amazon Echo, esencialmente convierte sus palabras en una cadena de texto y luego las compara con los comandos esperados. Si encuentra una coincidencia exacta, sigue un conjunto de instrucciones. Si no es así, busca una alternativa de qué hacer en función de la información que tiene, y si eso no funciona, aparece un mensaje de error como «Lo siento, pero no lo sé. . » Es poco más que un juego de magia de manos para engañarte haciéndote creer que entiende.

No puede usar pistas contextuales para hacer la mejor conjetura, ni siquiera usar una comprensión de temas similares para informar sus decisiones. Tampoco es difícil hacer tropezar a los asistentes de voz. Si bien puedes preguntarle a Alexa «¿Trabajas para la NSA?» y obtenga una respuesta, si pregunta «¿Eres secretamente parte de la NSA?» obtienes una respuesta de «No lo sé» (al menos en el momento de escribir este artículo).

Los humanos, que entienden genuinamente el habla, no funcionan así. Suponga que le pregunta a un humano: “¿Qué es ese klarvain en el cielo? El que es arqueado y lleno de rayas de colores como rojo, naranja, amarillo y azul ”. A pesar de que klarvain es una palabra inventada, la persona a la que le preguntaste probablemente podría deducir del contexto que estás describiendo un arco iris.

Si bien podría argumentar que un humano está convirtiendo el discurso en ideas, un humano puede aplicar su conocimiento y comprensión para concluir una respuesta. Si le preguntas a un humano si trabaja en secreto para la NSA, te responderá sí o no, incluso si esa respuesta es mentira. Un humano no diría «No lo sé» a una pregunta como esa. Que los humanos puedan mentir es algo que viene con una comprensión real.

Los asistentes de voz no pueden ir más allá de su programación

Los asistentes de voz se limitan en última instancia a los parámetros esperados programados, y deambular fuera de ellos interrumpirá el proceso. Ese hecho muestra cuando entran en juego dispositivos de terceros. Por lo general, el comando para interactuar con ellos es muy difícil de manejar, lo que equivale a «decirle al fabricante del dispositivo que ordene un argumento opcional». Un ejemplo exacto sería: «Dígale a Whirlpool que pause la secadora». Para un ejemplo aún más difícil de recordar, el Habilidad de Alexa de Ginebra controla algunos hornos de GE. Un usuario de la habilidad debe recordar «decirle a Geneva» no «decirle a GE» y luego el resto del comando. Y aunque puede pedirle que precaliente el horno a 350 grados, no puede seguir con una solicitud para aumentar la temperatura otros 50 grados. Sin embargo, un humano podría seguir estas solicitudes.

Amazon y Google han trabajado muy duro para superar estos obstáculos, y se nota. Donde antes tenía que seguir la secuencia anterior para controlar una cerradura inteligente, ahora puede decir «cerrar la puerta de entrada». Alexa solía confundirse con “cuéntame un chiste de perros”, pero pide uno hoy y funcionará. Han agregado variaciones a los comandos que usa, pero en última instancia, aún debe saber cuál es el comando correcto para decirlo. Debe utilizar la sintaxis correcta, en el orden correcto.

Y si crees que se parece mucho a una línea de comandos, no te equivocas.

Los asistentes de voz son una elegante línea de comandos

Un símbolo del sistema con texto de búsqueda

Una línea de comandos se define de manera estricta para realizar tareas simples, pero solo si conoce la sintaxis adecuada. Si se sale de esa sintaxis correcta y escribe dyr en lugar de dir, el símbolo del sistema le dará un mensaje de error. Puede usar alias para recordar comandos más fácilmente, pero debe tener una idea de cuáles eran los comandos originales, cómo funcionan y cómo usar los alias de manera eficiente. Si no se toma el tiempo para aprender los entresijos de la línea de comandos, nunca obtendrá mucho de ella.

Los asistentes de voz no son diferentes. Necesita saber la forma correcta de decir un comando o hacer una pregunta. Y necesita saber cómo configurar grupos para Google y Alexa, por qué es esencial agrupar sus dispositivos y cómo nombrar sus dispositivos inteligentes. Si no sigue estos pasos necesarios, sentirá la frustración de pedirle a su asistente de voz que apague el estudio solo para que se le pregunte «qué estudio» debe desactivarse.

Incluso cuando usa la sintaxis correcta en el orden correcto, el proceso puede fallar. O con la respuesta incorrecta emitida o con un resultado sorprendente. Dos Google Homes en la misma casa pueden dar el clima para ubicaciones ligeramente diferentes, aunque tengan acceso a la misma información de cuenta de usuario y conexión a Internet.

En el ejemplo anterior, se da el comando «Establecer un temporizador para media hora». El centro de Google Home creó un temporizador llamado «Hora» y luego preguntó cuánto tiempo debería durar el temporizador. Y, sin embargo, repetir el mismo comando otras tres veces funcionó correctamente y creó un temporizador de 30 minutos. El uso del comando «Establecer un temporizador para 30 minutos» funciona correctamente de manera más consistente.

Si bien hablar con Google Home o Echo puede ser más fluido, los asistentes de voz y las líneas de comando debajo del capó funcionan de la misma manera. Es posible que no necesite aprender un nuevo idioma, pero sí necesita aprender un nuevo dialecto.

La comprensión limitada de los asistentes de voz limitará el crecimiento

Un centro de Google Home y un punto Echo frente a un enchufe inteligente y una bombilla

Nada de esto impide que los asistentes de voz como Google Assistant y Alexa funcionen lo suficientemente bien (aunque Cortana es una historia diferente). Google Assistant y Alexa buscan en línea preguntas de manera decente, aunque no es sorprendente que Google sea mejor en la búsqueda y pueda responder preguntas básicas como conversiones de medición y matemáticas simples. Con un hogar inteligente configurado correctamente y un usuario bien capacitado, la mayoría de los comandos del hogar inteligente funcionarán según lo previsto. Pero esto se logró con trabajo y esfuerzo, no con comprensión intelectual.

Los temporizadores y alarmas solían ser simplistas. Con el tiempo, se agregó el nombre y luego la capacidad de agregar tiempo a un temporizador. Pasaron de lo simplista a lo más complicado. Los asistentes de voz pueden responder más preguntas y cada día trae nuevas habilidades y funciones. Pero eso no es producto del crecimiento personal que proviene del aprendizaje y la comprensión.

Y nada de eso ofrece la capacidad inherente de usar lo que se conoce para alcanzar lo desconocido. Por cada comando y pregunta que funcione, siempre habrá tres que no. Sin un avance en la IA que otorgue una capacidad de comprensión similar a la humana, los asistentes de voz no son asistentes en absoluto. Son solo líneas de comando de voz, útiles en el escenario correcto, pero limitadas a aquellos escenarios que han sido programados para comprender.

En otras palabras: las máquinas están aprendiendo cosas, pero no pueden entenderlas.