BLOG / consejos

8 consejos para crear buenas Skills

Nieves Ábalos el amazon alexaalexa skillsVUI / VUXcontexto

Técnicas de diseño de conversaciones para crear buenas Alexa Skills

¿Estás desarrollando alguna Skill para Alexa? ¿Te cuesta que pase la certificación? ¿Tienes pocos usuarios y/o no vuelven?

Muchas de las Skills tienen valoraciones bajas o pocos usuarios recurrentes por causas que se pueden resolver con un buen diseño de la interacción (VUI)1. Además de ésto, tu Alexa Skill no debe tener errores de implementación (que hagan que la interacción se corte inesperadamente o responda indebidamente).

En este post te damos 8 consejos para crear una buena Skill para Alexa, en base a nuestra experiencia en Monoceros con interfaces conversacionales, y más concretamente, desarrollando la Skill de “Veo veo”.

1️⃣ Diseña qué va a hacer tu skill. Luego, simplifica la interacción.

¿Sabes qué le van a pedir a tu Skill tus usuarios?, ¿te has imaginado qué va a responder?

El primer paso en el diseño de conversaciones, es escribir esos ejemplos de conversaciones entre tu Skill y tus usuarios. Y sí, es como si estuvieras escribiendo un guión de película.

Empieza en papel con una primera idea de cómo sería la interacción. Puedes utilizar herramientas para guiones como Amazon Storywriter (en español no admite tildes, pero es sencillo y rápido de utilizar).

Amazon StoryWriter

No te olvides de ensayar esas conversaciones en voz alta, estarás creando tu primer prototipo de Skill. Lo que no funcione, simplifícalo.

Truco: Si evitas tener muchos intents2, controlarás mejor las respuestas y evitarás que se produzcan errores que hagan parecer que tu skill no funciona bien.

2️⃣ Acota las posibles respuestas de tus usuarios

Acaba siempre tus frases con alguna pregunta (no sólo es requisito para pasar la certificación de Amazon). Es la manera natural que tenemos de solicitar información en una conversación.

Lo interesante es diseñar la conversación para que la pregunta acote las posibles respuestas de tus usuarios. Que no sea una pregunta abierta con infinidad de respuestas. Por ejemplo, preguntas cerradas a sí o no.

Además esas posibles respuestas deben estar recogidas (entrenadas en tu modelo de interacción3) en alguno de tus intents. Para las respuestas de sí o no, mejor utiliza los built-in intents4 AMAZON.YesIntent y AMAZON.NoIntent.

3️⃣ ¿Qué pasa si el usuario no responde?

Muchas veces no llega respuesta, ya sea por el ruido, o porque el usuario no sabe qué responder. Acuérdate de los reprompts5 y utilizalos para repetir la frase anterior y/o darle un tiempo a tus usuarios para que piensen qué responder.

4️⃣ El intent que no debes olvidar incluir: ¡ayuda!

Es muy probable que alguien no sepa cómo interactuar con tu Skill. ¿Cómo funciona? ¿qué puede hacer y qué frase tiene que decir para que le entienda? Seguramente pidan ayuda a tu Skill.

Incluye el built-in intent de Ayuda (AMAZON.HelpIntent), para dar información sobre cómo usar la Skill a tus usuarios. Quizás tengas que añadir expresiones extra a ese built-in intent en función de tu funcionalidad.

Truco: Si además, sabes en qué momento exacto de la conversación te piden ayuda (por ejemplo, cuál fue el anterior intent), puedes afinar y dar más información en base al contexto de la interacción.

5️⃣ Explicaciones y respuestas cortas y concisas

Como se explica en la guía de diseño de Alexa, estás escribiendo para el oído (estás hablándoles a tus usuarios), no para la vista.

Evita escribir frases muy largas, sin separarlas por comas o puntos. Sé conciso con la información. Las frases monótonas y largas hacen la interacción pobre y la información será más difícil de recordar.

6️⃣ Voz y pantalla: son complementarias.

¿Además tu skill es multimodal (se puede usar con voz o tocando la pantalla)?

En la pantalla deberías mostrar información complementaria a lo que aportas por voz, no la misma información. Con complementaria nos referimos a mostrar texto o imágenes que apoyen la información del audio. Y recuerda diseñar siempre primero para la voz (ya que hay usuarios con dispositivos sin pantalla como el Echo Dot, Echo o Echo Plus).

Por ejemplo, cuando le pides a Alexa el tiempo, su respuesta por voz y la visual son diferentes:

Alexa: “El tiempo en Madrid es de 33ºC con cielos nublados, el martes 31 ºC con cielos parcialmente nublados, el miércoles …, ”

Alexa da el pronóstico del tiempo en un Echo Spot

7️⃣ Respuestas variadas…

Utiliza expresiones diferentes para el mismo tipo de respuestas. Utilizar las mismas respuestas hace que la interacción sea repetitiva y tus usuarios no se enganchen tanto con el contenido. Por ejemplo: si te dan las gracias, responde de manera aleatoria “de nada”, “no hay de qué”, etc.

8️⃣ … y enriquecidas

Utiliza audios de sonidos que enriquezcan la experiencia, apoyando las respuestas de Alexa. Utiliza SSML6 en tus respuestas y no te olvides de añadir los speechcons^7 para expresiones como “hola” o “gracias”.

¿Quieres probar un ejemplo real de interacción?

Si quieres probar cómo queda una Skill que utiliza todos estos consejos, puedes probar “Veo veo” actívala aquí.

Si no tienes dispositivos Echo (y no quieres probarlo en la aplicación móvil de Amazon Alexa), también puedes ver el siguiente vídeo para hacerte una idea de interacción (aunque no muestra todos los ejemplos):

Recursos útiles

  • Recomendamos leer la guía de diseño de Alexa para encontrar más consejos sobre cómo crear buenas Skills: Voice | Alexa Design Guide.


  1. VUI viene de las siglas Voice User Interfaces, y nos referimos a todas las interfaces en las que la interacción es principalmente por voz. Más información en Wikipedia.

  2. Los intents en Alexa representan las acciones que quieren llevar a cabo tus usuarios. Aprende más en la documentación de Alexa.

  3. El modelo de interacción en Alexa lo forman frases de ejemplo, los intents y la información importante o slots que permiten llevar a cabo las acciones, entre otras cosas. Aprende más en la documentación de Alexa.

  4. Los built-in intents en Alexa son intents ya entrenados por Amazon con frases de ejemplo, normalmente de acciones comunes. Lee más en la documentación de Alexa.

  5. Los reprompts son las respuestas de tu Skill a situaciones inesperadas, como que tu usuario no responde o lo que dice no es entendido por ninguno de los intents definidos. Lee más sobre las respuestas de Alexa en la documentación.

  6. SSML (Speech Synthesis Markup Language) un lenguaje de marcado para sintetizadores de voz. Es como un HTML + CSS de las respuestas por voz. Lee más en Wikipedia.

  7. Speechcons de Amazon Alexa en Español.