Cómo Alexa escucha las palabras de activación

Alexa siempre está escuchando pero no grabando continuamente. No envía nada a los servidores en la nube hasta que te escucha decir la palabra de activación (Alexa, Echo o Computadora). Pero escuchar las palabras para despertar es más difícil de lo que piensas.

El hardware Echo no es tan inteligente. Sin Internet, cualquier solicitud o pregunta que haga fallará. Esto se debe a que sus órdenes se envían a la nube para su interpretación y decisiones. Amazon no quiere que se graben todas las conversaciones que tiene frente a un altavoz inteligente, sino solo los comandos que le da al altavoz inteligente. Por esta razón, la empresa emplea una palabra de activación para llamar la atención del hablante inteligente. Para lograr esto, Amazon usa una combinación de micrófonos afinados, un búfer de memoria corto y entrenamiento de redes neuronales.

Los micrófonos afinados señalan su voz

Amazon Echo dot 3 con el anillo LED azul claro encendido.El LED azul claro siempre estará orientado hacia la dirección de su voz.

Los altavoces del asistente de voz, como Echo y Echo Dot, suelen tener varios micrófonos incorporados. El Echo Dot, por ejemplo, tiene siete. Esa matriz brinda a los dispositivos varias capacidades, desde escuchar comandos hablados a distancia, hasta separar el ruido de fondo de las voces.

Este último es especialmente útil para la detección de palabras de activación. Usando sus múltiples micrófonos, el Echo puede señalar su ubicación en relación con donde está sentado y escuchar en esa dirección mientras ignora el resto de la habitación.

Ves esto en acción cada vez que usas la palabra de activación. Párese al lado de un Echo o Echo Dot y diga la palabra de activación. Observe que el anillo se ilumina en azul oscuro y luego en un azul más claro a medida que circula y «apunta» hacia usted. Ahora, muévase varios pasos hacia un lado y diga la palabra de activación una vez más. Observe que las luces celestes le siguen.

Saber dónde se encuentra ayuda a que el dispositivo se enfoque mejor en usted y sintonice los ruidos provenientes de otros lugares.

La memoria corta evita que el altavoz sostenga demasiado

Los dispositivos Echo tienen mucho espacio de almacenamiento, pero no usan mucho. Según Rohit Prasad, vicepresidente de Amazon y científico jefe de Alexa Artificial Intelligence, un eco solo puede almacenar físicamente unos segundos de audio.

Al reducir su capacidad, Amazon no solo le brinda más privacidad (es un lugar menos donde se almacena su voz) sino que también evita que Echo escuche conversaciones completas, lo que limita su enfoque a encontrar la palabra clave.

Imagínese que tiene una cinta de tres segundos y una grabadora. Supongamos que después de llegar al final, la cinta se repite una y otra vez hasta el principio. Si comenzaras a grabar una conversación, todo lo que dijiste hace cuatro segundos se borrará y se grabará de inmediato. Eso es lo que hace un Amazon Echo.

Graba continuamente pero borra todo lo que acaba de grabar al mismo tiempo. Esa poca capacidad de atención significa que todo lo que puede escuchar es la palabra «Alexa» y no mucho más. Sin embargo, tres segundos es suficiente para que esa palabra se registre, se examine y se actúe de manera apropiada.

El entrenamiento de redes neuronales ayuda con la coincidencia de patrones

Un diagrama de flujo de las capas del algoritmo de Amazon.Una representación de las capas utilizadas por los algoritmos de Amazon.

Finalmente, Amazon depende de entrenamiento de redes neuronales para enseñarle al Echo cómo combinar patrones. Al igual que otras formas de aprendizaje automático, Amazon entrena sus algoritmos alimentándolos instancia tras instancia de la palabra Alexa (o Computadora o Echo, según la palabra de activación que la empresa esté capacitando).

La idea es cubrir cada inflexión y acento, pero también el contexto. Amazon quiere que su Echo reconozca la diferencia cuando le habla, cuando habla de ello o, quizás, cuando habla con una persona llamada Alexa. Los micrófonos direccionales también ayudan con ese objetivo.

Con cada palabra que escucha el Echo, el audio pasa por capas de algoritmos. Cada capa está diseñada para descartar falsos positivos, buscando sonidos parecidos o pistas de contexto. Si pasa la verificación de una capa, la palabra pasa a la siguiente. Finalmente, cuando el dispositivo local decide que escuchó la palabra de activación, comienza a grabar y transmitir el audio a los servidores en la nube de Amazon. Amazon emplea cuatro algoritmos: uno para cada palabra de activación (Alexa, Computadora, Echo) y otro para Alexa Guard, que trata sonidos específicos, como la rotura de cristales, como una palabra de activación.

Pero incluso cuando se produce una coincidencia, Amazon sigue ejecutando comprobaciones más complicadas. ¿Ha notado que cuando alguien pronuncia la palabra Alexa en un programa de televisión o comercial, por lo general no obtiene una respuesta de su Echo? Eso es porque Amazon también realiza una verificación en la nube.

Las comprobaciones en la nube descartan algunos falsos positivos

Hombre del comercial de Alexa mirando su cepillo de dientes Echo iluminado.Esta hilarante comercial de Alexa no despertará tu eco.

Cuando las empresas hacen comerciales con Alexa, pueden enviar el audio a Amazon. La compañía ejecuta el audio a través de algoritmos de coincidencia de patrones similares que se utilizan para identificar la palabra de activación. Una vez que esa instancia exacta está completamente catalogada, se agrega a una base de datos.

Como parte del proceso al llegar a la nube, su Echo incluye información sobre la palabra de activación que escuchó y verifica esa base de datos. Siempre que encuentra una coincidencia, Amazon le indica a su Echo que ignore la palabra de activación, apague y descarte cualquier audio grabado.

Además, Amazon busca instancias de la palabra de activación pronunciada simultáneamente. No todas las empresas envían audio a Amazon, por lo que se le ocurrió una novedosa solución de respaldo. Después de comprobar si hay una coincidencia en la base de datos, la empresa compara la impresión de la palabra de activación con cualquier otra instancia que se presente al mismo tiempo. Es poco probable que dos personas que dicen que Alexa simultáneamente suenen exactamente iguales, por lo que si hay una coincidencia, Amazon sabe que es probable que sea un comercial o un programa de televisión e ignora la solicitud.

A pesar de todas las comprobaciones, todavía se producen falsos positivos. Puedes escuchar lo que ha grabado tu Echo en Centro de privacidad de Amazon, y probablemente encontrará al menos un falso positivo en el grupo. Pero la tecnología se mejora continuamente y, eventualmente, a Amazon le gustaría que funcione sin una palabra de alerta.