¿Cómo funciona Alexa? ¿Cómo identifica Alexa quién está hablando?

¿Cómo funciona Alexa?  ¿Cómo identifica Alexa quién está hablando?

Alexa de Amazon guarda el perfil de voz de los usuarios, a partir del cual crea modelos acústicos que se guardan en la nube. Al recibir / escuchar un nuevo comando, compara la entrada con los modelos acústicos e identifica al usuario.

El habla es el modo natural de comunicación entre las personas. Si observa cómo fluye una conversación, se hace evidente lo fácil que es hablar, lo fundamental que es para nuestra forma de ser. Y con razón, ya que permite la transferencia rápida de información llena de los ricos matices del idioma, la cultura, los gestos y el tono.

Este modo de entrada no se ha utilizado en gran medida en lo que respecta a la interacción hombre-ordenador; Para la mayor parte de nuestra comunicación con las computadoras, hemos utilizado teclados, mouse y pantallas táctiles con nuestros pulgares y dedos.

Sin embargo, esto no es por falta de imaginación, ya que la ciencia ficción ha estado plagada de personajes con voz que ayudan a los protagonistas humanos, desde JARVIS ayudando a Tony Stark a construir un traje volador de siguiente nivel en Iron Man hasta Samantha ayudando al personaje principal de Her a salir de un rutina y descubre lo que realmente significa el amor.

Ilustración del concepto de vector de asistencia virtual (arte siberiano) s

La ciencia ficción ha estado plagada de asistencia de voz futurista. (Crédito de la foto: Arte siberiano / Shutterstock)

Aunque el estado actual de la asistencia por voz no se acerca a las capacidades de JARVIS o Samantha, hemos visto la adopción en el mercado masivo de dispositivos habilitados para voz en los últimos años. Entre estos, el líder del mercado que ha aniquilado a su competencia y posee el 70% de la participación de mercado en los EE. UU. Es Amazon Echo.

Le permite reproducir música y juegos, ordenar cosas de Amazon, configurar recordatorios, transmitir podcasts, hacer listas de tareas pendientes y automatizar las luces del hogar, junto con muchas otras funcionalidades que son agregadas por Amazon o desarrolladores externos que se basan en la plataforma Alexa.

¡Toda esta funcionalidad es impulsada solo por su voz! La pregunta es, ¿cómo reconoce Alexa quién está dando los comandos? Intentemos comprender el contexto en torno a Amazon Echo para tener una mejor idea de cómo ocurre esta magia detrás de escena.

La concepción de Alexa

Amazon comenzó a desarrollar sus altavoces inteligentes habilitados por voz en su oficina Lab126. Este es propiedad total de Amazon, está situado en Silicon Valley y es responsable de su investigación, desarrollo y hardware informático. El dispositivo Echo fue concebido en 2010 como un intento de Amazon para ampliar su rango de su lector electrónico Kindle.

El dispositivo se lanzó mucho más tarde y la venta inicial fue solo por invitación, aunque estuvo ampliamente disponible en julio de 2015. En la primera versión, el dispositivo se envió con un control remoto, ya que había ambigüedad entre los creadores sobre si el altavoz solo bastaría para registrar comandos de voz. Después de que los consumidores usaran el primer lote de este producto, quedó claro que el dispositivo era experto por sí solo y el control remoto se eliminó gradualmente en versiones posteriores.

Amazon Echo desempacado

Amazon Echo de primera generación con control remoto. (Crédito de la foto: brewbooks / Wikimedia Commons)

La palabra de activación (la palabra que el dispositivo está esperando escuchar antes de registrar un comando) para el dispositivo durante el desarrollo del dispositivo fue ‘Amazon’ y el dispositivo se llamó Amazon Flash. Sin embargo, el equipo de desarrollo consideró que Amazon es una palabra muy común, que se usa en conversaciones y durante comerciales de televisión, por lo que esto podría activar el dispositivo sin querer y hacer que pida algo a Amazon. Sugirieron ‘Alexa’ como la palabra de activación y Amazon Echo como el nombre del dispositivo, lo que parece una decisión que ha valido la pena. Dicho esto, un usuario puede cambiar la palabra de activación a ‘Amazon’, ‘Echo’ o ‘Computadora’ si lo desea.

El dispositivo ha sido adoptado incondicionalmente no solo por los consumidores, sino también por los desarrolladores. En septiembre de 2019, la cantidad de habilidades que Alexa podía realizar era de 100,000, todas las cuales dependen del ecosistema robusto que Amazon ha construido.

El ecosistema de Alexa: el viaje de tu voz

En enero de 2019, Amazon informó que había vendido 100 millones de dispositivos Alexa. Alexa está integrada en muchos de los productos lanzados por Amazon, así como en productos de terceros. Amazon ha creado una plataforma para dispositivos habilitados para voz y habilidades de terceros que los desarrolladores pueden usar sin necesidad de espacio en el servidor mientras capacitan a Alexa para realizar tareas particulares.

El Echo en sí no alberga gran parte del poder de procesamiento para reconocer comandos y cumplirlos. Tiene una serie de micrófonos con un altavoz cilíndrico. El procesamiento se realiza a través de la gigantesca infraestructura de computación en la nube que Amazon ya tiene: AWS (Amazon Web Services). Una pequeña computadora en el dispositivo sigue escuchando constantemente su palabra de activación, después de lo cual registra el comando que usted da.

Cuando le ordena algo a Alexa, la computadora interna envía el comando a la nube, que luego es interpretado por el Servicio de voz de Alexa (AVS). El comando es desglosado por AVS y se toman las acciones necesarias, dependiendo del tipo de habilidad, es decir, si es una habilidad interna o desarrollada por un tercero. Luego, las acciones se transmiten al Echo y se las entregan a usted. Todo esto se hace a través de tu WiFi, en segundos, sin ni siquiera un susurro. ¡La siguiente parte interesante llega cuando reconoce tu voz!

alexa detrás de la escena

Entre bastidores

¿Cómo reconoce Alexa tu voz? – Perfiles de voz

Cuando le ordena a Alexa que realice una determinada tarea, antepone su comando con la palabra de activación (‘Alexa’, ‘Amazon’, ‘Echo’ o ‘Computadora’). Su voz se detecta como la entrada analógica en este caso y debe convertirse a un formato digital para que el dispositivo comprenda su comando y realice la acción necesaria.

Aquí es donde entran los convertidores de analógico a digital, lo que hace Alexa con su Reconocimiento automático de voz (ASR). Este proceso de aprendizaje profundo permite a Alexa convertir los sonidos hablados en palabras, lo que lo convierte en el primer paso para habilitar la asistencia habilitada por voz.

Cuando comienza a usar Alexa, crea su perfil de voz único en su base de datos, que se almacena en la nube. Este perfil es una colección de sus muestras de voz, que utiliza para crear modelos acústicos de las características de su voz. Cuando lo ordena en el futuro, usa sus modelos acústicos para compararlo con las muestras de voz entrantes y verifica si, de hecho, es usted quien está hablando en el otro extremo. Utiliza el mismo proceso para diferenciar entre varios usuarios en el mismo hogar.

Concepto de altavoz inteligente (metamorworks) s

El reconocimiento automático de voz permite la conversión de sonidos hablados en palabras. (Crédito de la foto: metamorworks / Shutterstock)

Cuando accede a una aplicación de terceros con su voz, asigna un identificador numérico de su voz a la habilidad, lo que le permite distinguir su voz de la de otros usuarios. Puede personalizar su configuración para todas las habilidades proporcionadas por Alexa y asignar diferentes privilegios a diferentes usuarios.

Así que adelante, crea tu perfil de voz y personaliza tu Echo. Y si aún no ha conseguido uno, puede obtener más información y elegir uno aquí.