07 julio 2020

Avances “audibles” en el sector editorial

Voice Control Ilustration by Freepik

A principios del pasado mes de mayo hubo un encuentro online organizado por Digital Book World donde se habló sobre las diferentes tendencias y avances “audibles” en el sector editorial.

Bradley Metrock, que lleva los podcasts de Voicefirst y es CEO de Scorepublishing, fue el encargado de ponernos al día de estas novedades que vienen con fuerza en lo que al formato audio se refiere. Se puede ver su intervención en este vídeo en abierto.

Lo primero que queda en evidencia es que hoy en día toda empresa necesita una estrategia para la tecnología de voz. Como hemos visto en repetidas ocasiones, los asistentes de voz, los altavoces inteligentes y demás tecnologías de audio están disfrutando de un notable crecimiento y adopción.

Señala Metrock como elemento a tener en cuenta que a medida que los asistentes de voz se vuelven más orientados al contexto, también se volverán más proactivos, encontrando nuevas formas de servirnos y mejorar nuestras vidas, al tiempo que desafían nuestras nociones de privacidad y seguridad.

La aparición de la voz, que sirve como puerta de entrada para la inteligencia artificial y el aprendizaje automático, ya está dejando huella en una amplia variedad de industrias.

Avances en las búsquedas por voz

Para ello es fundamental estar preparado en los entornos de búsqueda online. De otro modo, los costes podrían ser enormes. Se calcula que los errores de búsqueda por voz podrían haberle costado en 2019 a los libros que aparecen en la lista de los más vendidos de New York Times casi 17 millones.

No era un cálculo real, era un cálculo predictivo sobre las consecuencias del pobre descubrimiento de búsqueda ofrecido por los cinco principales asistentes de voz (Alexa de Amazon, Asistente de Google, Siri de Apple, Cortana de Microsoft y Bixby de Samsung). Pero es un porcentaje que se acercará cada vez más a la realidad si las editoriales y los asistentes de voz no se adaptan a las necesidades de búsqueda por voz cuanto antes.

Las consultas con las que se hizo este cálculo incluían sólo el título y el nombre del autor, así como precedidas por tres frases: “Quiero leer”, “Quiero escuchar” y “Quiero pedir”. En general, apenas el 43.2% de estas consultas básicas fueron reconocidas.

El asistente de voz de Google hizo lo mejor, respondiendo con éxito el 72.5% de las consultas, mientras que Siri lo hizo peor, respondiendo sólo el 15% correctamente. A pesar de su dominio de la venta de libros, Alexa de Amazon se quedó en medio con un 44.2% de aciertos.

El futuro de las búsquedas por audio, y de los contenidos en audio, no se limitan a ofrecer resultados por comandos de voz. El futuro de este tipo de tecnología se basará en su capacidad cada vez mayor para que los ordenadores y los humanos interactúen entre ellos. En este caso, el contexto va a ser fundamental. Por ejemplo, a la hora de pensar en crear un contenido no es lo mismo hacer lo con vistas a que este sea escuchado en el coche o en casa.

El tiempo y la atención son otros. Por tanto, los enfoques deberían ser diferentes en cada contexto de escucha. De hecho, bajo este modelo contextual y de personalización Amazon ha creado Alexa Guard, una nueva función de los dispositivos Echo que actúa unos oídos que  pueden vigilar el domicilio o el coche, ya que pueden reconocer un sonido no habitual –como un cristal roto o una voz desconocida- y avisar a su dueño. Para ello es necesario que sepa una serie de cosas sobre su sueño.

La importancia de estos aparatos de voz de reconocer las peculiaridades de sus dueños ha hecho que Google, junto a la Sociedad canadiense de personas con síndrome de Down, estén trabajando en un programa para que los asistentes de voz sepan comunicarse con ellos. Juntos están consiguiendo gracias a un proceso de aprendizaje automático en el que las personas con síndrome de Down han leído oraciones en voz alta que luego ha asimilado Google, que su asistente logre comprender a las personas con tal síndrome.

Como vemos, en todos los casos es fundamental que el creador de estas funcionalidades conozca al que va a ser su usuario final, y esto también en los casos en los que funcionalidades como las Alexa Skills, por ejemplo, aplicadas al sector editorial, y no sólo para comandos de órdenes o búsqueda. Por eso es importante que, para comenzar,  las consultas sean cada vez atinadas y no se llegue al nivel de fallos que hemos comentado con las listas de los libros más vendidos.

En un momento es que se presume que pronto, por ejemplo, la página web de una editorial, podrá  incluir sus propios podcasts o partes de sus audiolibros como muestra o adelanto a la manera de los primeros capítulos de un ebook, es básico que los asistentes de voz sepan llevar a los usuarios al contenido que buscan pasando por el que ofrecen las páginas web de las editoriales. Por supuesto, también directamente a aquellas Skills que hayan creado las editoriales para este tipo de altavoces inteligentes.

Para esto también va a jugar un papel fundamental el SEO y los metadatos amoldados a las búsquedas por voz. En el sector editorial se va a tener que estar muy atento el modo en que los usuarios van a buscar ahora sus contenidos, porque el lenguaje natural -cada vez más comprensible para los algoritmos y la inteligencia artificial-, va a regir las búsquedas, y el contexto lo va a ser todo.

Casos en el sector editorial

Ya vimos con anterioridad un avance sobre el uso de los asistentes de voz en el mundo editorial y una introducción a las Skill de Amazon en este sector. Estas Skills son funcionalidades extra añadidas por terceros que se pueden instalar en su asistente de voz. A día de hoy el catálogo de Skills  no para de crecer, también en el entorno de la edición.

Además de los ejemplos que vimos en el mencionado artículo, hay otros en los que Bradley Metrock pone en acento y que vale la pena aunque sea ver de manera sucinta.

Uno de los casos que más se menciona en muchos foros es el de Simon & Schuster y su “Biblioteca Stephen King”. Una Skill de Alexa que hace a los lectores una variedad de preguntas antes de presentarles la novela de Stephen King que vayan leer a continuación. Muchas de esas preguntas ni siquiera están relacionadas con los libros de King, pero con las respuestas genera resultados de manera personal en el contexto único del usuario. Así, si Stephen King ha escrito más de 50 libros, según las respuestas esta Skill dice el orden que debería  seguir el usuario. A partir de aquí éste sólo deberá decir: “Alexa, abre la biblioteca Stephen King”.

Otro de ellos es “The Wayne investigation”, para adoradores de historias de superhéroes y cómics. Basándose en Batman vs Superman de CD Cómics, han creado esta Skill siguiendo las bases del modelo “elige tu propia aventura”. Bajo la famosa pregunta “¿quién mató a Thomas y Martha Wayne”, este misterioso juego con Alexa guía a los usuarios mientras recorren las calles de Gotham para investigar el asesinato de los padres del joven Bruce Wayne, más conocido como Batman. Hay que  navegar por los callejones sin salida de la historia para encontrar el camino que resuelve el crimen.

Hay uno especialmente diseñado para niños pequeños de 3 a 7 años que está teniendo mucho éxito. Se trata de Chompers. Una Skill para facilitar la hora de lavarse los dientes de los más pequeños con esta recreación en audio para el cepillado de dientes matutino y nocturno de niños. Cuando sea la hora de cepillarse los dientes, no hay más que decir: «Alexa, inicia Champers». Entonces los niños escucharán chistes, acertijos, historias, anécdotas divertidas, canciones sencillas y más contenido que los mantendrán riendo, y cepillando, durante los dos minutos completos que recomiendan los dentistas. Para ayudar a desarrollar buenos hábitos de cepillado, Chompers cuenta las veces que se cepilla.

No podía faltar una Skill dedicada a Harry Potter. Se trata de un concurso oficial de Harry Potter, presentado por Pottermore Publishing y Audible, que enmarca cada pregunta y respuesta utilizando extractos de los populares audiolibros narrados por Jim Dale. Los jugadores también pueden escapar al Mundo Mágico por un breve momento a diario con una narración excepcional, un rico diseño de sonido, música y extractos de los audiolibros de Harry Potter. Hay tres nuevas preguntas cada día, con la posibilidad de desbloquear una pregunta extra, y dos niveles. Todas las preguntas se basan en los libros, y no en las películas.

Cómo empezar

Bradley Metrock da algunos consejos para comenzar a establecer relaciones con los equipos de Amazon Alexa y Google Assistant con el fin de que en el sector editorial se comience a desarrollar Skills e historias en audio como las que hemos visto.

1: Los editores deben auditar las posibilidades de trabajar en proyectos de voz a partir de su catálogo.

2: A medida que las brechas y deficiencias aparezcan con los asistentes de voz, conviene comunicarse e con los equipos de voz de estas compañías tecnológicas para informar del problema y preguntarles cuál es la mejor manera de solucionarlo.

3: Además de eso, una forma fácil de evitar que Alexa y el Asistente de Google proporcionen información incorrecta o incompleta es crear una habilidad de Alexa de terceros o una acción de Google Home.

Lo importante va a ser, una vez adentrado en este mundo de las Skills o similar, poder controlar las respuestas proporcionadas a consultas específicas y garantizar el control de calidad por la propia editorial.

La base de instalación de la tecnología del concepto “voice first” es tan grande y cada brecha o fallo –como hemos visto en los casos de las búsquedas por voz-  es tan costosa que la editorial tendrá que estar muy pendiente.

Lo siguiente ya es sólo atreverse a dar el salto y adentrarse en este nuevo mundo de las historias en audio interactivas.

Leave a Reply