Hacia dónde vamos. ¿Cómo será el mundo del libro en el año 2025?
«Hacia dónde vamos, ¿cómo será el mundo del libro en el año 2025?» será el tema de la conversación inaugural encargada de abrir la IV edición del Congreso del Libro Electrónico de Barbastro.
Para hablar sobre un futuro no tan lejano, la cita contará con los expertos en big data y lingüística computacional Alberto Betella y Lauren Romeo, quienes charlarán con el periodista Daniel Seseña, director del programa Cámara Abierta de TVE, el impacto de las tecnologías más punteras en el mundo del libro.
Con motivo de esta conversación, la organización del IV Congreso del Libro Electrónico ha entrevistado a Lauren Romeo, experta neurolingüista y Directora Científica del proyecto Tekstum, para adelantar varios de los temas de la conversión inaugural
-Big Data, Inteligencia Artificial, Neurolingüística…¿estamos al comienzo de algo que cambiará la manera de leer o que ya la ha empezado a cambiar? ¿De qué manera la ha transformado y qué nos queda por ver a medio/largo plazo?
Big Data, Inteligencia Artificial y Lingüística Computacional: representan palabras técnicas que son relativamente nuevas al léxico convencional pero sus aplicaciones ya llevan mucho tiempo impulsando y transformando no solo cómo leemos, sino también cómo accedemos, interpretamos y procesamos datos en general.
Netflix, por ejemplo, usó información obtenida de sus suscriptores para garantizar el éxito de su serie House of Cards. Antes de que la serie se emitiera, Netflix ya sabía que sería un gran éxito con los suscriptores debido a su conocimiento profundo de lo que vieron, lo que terminaron de ver y las series o películas que disfrutaron. La películas de la franquicia de Marvel también utilizan un análisis de Big Data para detectar qué personajes y relaciones maximizaría el interés de la audiencia así como para generar ideas sobre tramas y arquetipos para sus personajes a la hora de hacer una película nueva.
Hoy en día, podemos ver claramente cómo esta transformación está cambiando el mundo del libro, específicamente en cómo leemos y cómo consumimos libros. Por ejemplo, muchos editores, autores e incluso libros ahora tienen cuentas en redes sociales (Twitter, Facebook, etc.) para poder administrar y promover su presencia “online” y su interacción con los lectores. También podemos ver esta tendencia en el crecimiento y el interés en colecciones digitales creadas cuidadosamente por los lectores en plataformas como Goodreads. Por último, ahora tenemos métodos digitales para leer libros, (las tabletas, lectores digitales y otras aplicaciones), lo que proporciona una gran cantidad de datos útiles e interesantes sobre el comportamiento del lector.
Estas transformaciones, en combinación con los datos de las redes sociales, proporcionan una visión clara y directa del comportamiento de los lectores que de manera simple no era posible ni disponible antes. Las acciones que se pueden derivar de estas revelaciones moldean e influyen en la creación de contenido, así como en estrategias de marketing y comercialización con altas probabilidades de éxito tanto desde la perspectiva de los lectores como desde la perspectiva de los editores.
Como ya hemos visto en los casos de Netflix y Marvel, los datos generados por los usuarios no son un tema trivial y cuando se manejan correctamente, el poder de estos datos permite un éxito sin precedentes. Ya estamos recopilando estos datos para los libros, y el próximo paso será encontrar el equilibrio entre el uso de datos y la creatividad de sus aplicaciones para el mercado del libro.
– ¿Cómo afectan al sector del libro digital? ¿Qué beneficios puede traer? Este tipo de tecnología ¿es más beneficiosa para el lector o para las empresas del sector de libro?
Hasta ahora, uno de los mayores indicadores de éxito de un libro ha sido sus ventas. En los últimos años, debido a la aparición del e-libro, grandes cantidades de datos de los usuarios pueden ser recopilados a través de lectores electrónicos o tabletas. La comprensión de estos datos va mucho más allá de las cifras de ventas y nos ofrece una idea sobre cómo los lectores experimentan los libros.
Los lectores electrónicos y las tabletas, como el Kindle, el Nook o el iPad ya están recopilando datos a través de sus aplicaciones. Los datos miden, por ejemplo, el tiempo promedio de lectura de un libro, cuando los lectores están leyendo (por la mañana o por la noche) y cómo los lectores interactúan con libros de ciertos géneros, sólo para mencionar algunos ejemplos concretos. Este tipo de datos permite a los editores conocer y comprender mejor el comportamiento de los lectores, lo que por un lado promueve la publicación de libros que atraen más íntimamente a los lectores, mientras que por otro se pueden identificar y sugerir recomendaciones más personalizadas de libros ya existentes que mejor reflejan lo que quiere y lo que espera un lector.
Los beneficios de estos datos son realmente positivos tanto para los lectores como para los editores. Los lectores descubren más material que refleja y satisface con mayor exactitud sus necesidades, mientras que los editores fomentan la creación de libros aún mejores, que a su vez generan beneficios al identificar lo que los lectores quieren leer.
-Los datos masivos están cada vez más presentes en nuestra vida y sin embargo no nos damos cuenta. ¿Qué aplicaciones del día a día usan esta tecnología? ¿De dónde sacan los datos? ¿Se podría entender su importancia y magnitud sin las redes sociales?
Casi todo lo que hacemos y todas las aplicaciones con las que interactuamos recopilan datos nuestros de una forma u otra: desde sitios web, móviles, televisores, despertadores, etc. Se extraen estos datos de muchas maneras diferentes a través de: cookies para monitorizar la navegación web, señales GPS en teléfonos celulares, sensores en despertadores que siguen nuestros patrones de sueño, etc. Sin embargo, estamos también creando nuestros propios datos en un nivel “consciente” a través de medios sociales. La cantidad de datos que creamos cada día es asombrosa. Se ha estimado que cada día más de 4,3 mil millones de comentarios se publican en Facebook, se envían más de 500 millones de tweets, 3,6 mil millones de usuarios da un “me gusta” en Instagram y se suben a YouTube más de 4 millones de horas de contenidos. ¡Eso es cada día! Los conocimientos que se pueden extraer sobre los usuarios, sus actividades y sus intereses son prácticamente ilimitados.
Tekstum Solutions, donde actualmente soy la Directora Científica, aprovecha este tipo de datos utilizando la información contextual de comentarios y tweets para ofrecer información cualitativa del mercado del libro a los distintos agentes del sector. A través de un algoritmo propio basado en tecnología Big Data e Inteligencia Artificial que descubre las emociones, sentimientos y sensaciones que una obra transmite a sus lectores, proporcionamos un análisis científico en tiempo real de las opiniones, comentarios y reseñas que los lectores realizan en plataformas literarias, blogs y redes sociales. Nos permite proporcionar recomendaciones que van más allá de simples listas de los más vendidos, metadatos editoriales o puntuaciones con estrellas que no contemplan los matices que pudieran existir entre ellas. Además nuestro sistema permite optimizar tanto la venta de los libros como la venta de experiencias, centrándose tanto en las necesidades de los lectores como en las necesidades de los editores.
Lo que estamos haciendo en Tekstum Solutions es sólo un ejemplo de muchos de los usos potenciales para estos datos. Las aplicaciones y usos para este tipo de datos benefician tanto a los usuarios como a las empresas, ya que las recomendaciones y los resultados de búsqueda, por ejemplo, están más personalizados y ajustados a usuarios específicos, garantizando así una mejor experiencia del consumidor y al mismo tiempo, asegurando una mayor probabilidad de éxito.
– ¿Cómo se enseña a una máquina a interpretar sentimientos? ¿Cómo reconoce la ironía?
Se enseña una máquina a interpretar sentimientos usando técnicas del campo “Procesamiento de Lenguaje Natural” (PLN). El método PLN típicamente utilizado para identificar y clasificar los diferentes sentimientos dentro de un texto se llama «Análisis de Sentimiento». Este método identifica y clasifica automáticamente la opinión de un texto como positivo, negativo o neutro (es decir, que no contiene ningún sentimiento). Es capaz de clasificar automáticamente el sentimiento porque busca patrones ocultos en grandes volúmenes de datos cualitativos y luego usa esta información para aprender características comunes en el uso del lenguaje que indican un sentimiento específico. Por lo tanto, cada patrón es indicativo de un sentimiento particular: consisten de patrones gramaticales, tendencias lexicales, tonalidad, uso de vocabulario particular, coloquialismos, frases, etc. Al aprender de estos patrones textuales, se puede predecir la opinión de un texto desconocido debido a sus similitudes con otros contextos indicativos de un sentimiento específico.
Mediante técnicas de PLN se puede detectar también lenguaje figurativo como por ejemplo la ironía. La ironía se utiliza para expresar lo contrario de lo que uno dice. Al igual que la detección del sentimiento, es típicamente enmarcado como un problema de clasificación, donde el objetivo es clasificar un texto como ironía o no. A través del uso de robustos patrones gramaticales y léxicos que son indicativos de estructuras irónicas, un sistema de detección puede aprender de la información extraída de estos patrones y utilizar este conocimiento para determinar la probabilidad de que un texto desconocido también contenga ironía.
– Ya hay programas informáticos que escriben noticias deportivas ¿Habrá algún momento en que la tecnología escriba libros exitosos y no se note la diferencia con un escritor de carne y hueso?
¡Ya hemos llegado a este punto! Este fenómeno no sólo se ve en los programas informáticos que escriben noticias deportivas, sino que también ha habido grandes avances en programas informáticos que pueden generar noticias y artículos de negocios bien escritos, poesía, narrativas y más a menudo, novelas.
Estos programas no solo generan y crean contenido, sino lo hacen de una manera tan cerca al lenguaje natural humano que es cada vez más difícil distinguir entre la prosa generada artificialmente y lo que los humanos escriben. En 2015, en el periódico estadounidense New York Times, se publicó una encuesta para identificar si diferentes textos, tal como noticias de negocios o poesías, habían sido escritos por humanos o algoritmos (¡y no es fácil!). Mientras que en 2011 un estudiante de la Universidad de Duke presentó una poesía generada por un algoritmo a una prestigiosa revista literaria que aprobó la prueba de Turing cuando fue aceptada para su publicación. En los últimos años, también hemos visto el nacimiento del Mes Nacional de la Generación de una Novela (National Novel Generation Month), un spin-off del popular Mes Nacional de la Escritura de una Novela (National Novel Writing Month), donde en lugar de escribir novelas, los participantes escriben el código de un algoritmo que puede generar una novela de al menos 50.000 palabras (no obstante la definición de “novela” ha estado sujeta a interpretación). En 2015, hubo más de 500 entradas. También estamos viendo este fenómeno en la industria, como la empresa estadounidense Narrative Science que genera informes de negocios bien escritos, relevantes y atractivos que prácticamente son indistinguibles de los informes escritos por humanos. La empresa cuenta con clientes de algunas de las empresas más grandes del mundo.
Si bien la historia es un indicador, este fenómeno seguirá creciendo. Los algoritmos para crear y generar contenido seguirán mejorando. Llegará el día en que la distinción entre lo creado por el ser humano y lo creado por algoritmos será imposible de detectar.
– En el mundo académico ¿Cómo puede cambiar el estudio de la filología? ¿Qué se puede descubrir mediante estas herramientas que antes era imposible? ¿Se tendrá que dar programación en las facultades de humanidades?
Tener acceso a la tecnología abre ampliamente las puertas para una comprensión más profunda de un tema. Este aspecto ha cambiado drásticamente en los últimos 30 años, cuando los ordenadores no eran tan accesibles o ubicuos como lo son hoy en día.
En el pasado, la investigación lingüística era extremadamente lenta y engorrosa. A veces llevaba años para que los investigadores recopilaran datos y sacaran conclusiones. Hoy en día, utilizando técnicas y métodos de la lingüística computacional o PLN, junto con el acceso a grandes cantidades de datos, podemos observar estructuras gramaticales, lexicales o incluso semánticas entre muchos idiomas diferentes y en diferentes espacios, tiempos e incluso contextos culturales de manera rápida, económica y en gran detalle. Esta agilidad permite que la investigación sea más eficaz, y esto es imprescindible para mantenerse al día con los cambios continuos del lenguaje humano real.
Para poder darse cuenta de las extraordinarias posibilidades que la tecnología nos puede ofrecer, es necesario que nos familiaricemos con la informática a una edad temprana. Ya deberíamos aclimatar a los estudiantes a los lenguajes de programación en la escuela primaria (¡o incluso antes!) invirtiendo el mismo tiempo que dedicaríamos a cualquier otra asignatura en el currículo.
– ¿El mercado español va a buen ritmo respecto a otros idiomas en el uso del Big Data e Inteligencia Artificial?
El mercado español va a un muy buen ritmo. El español es la segunda lengua más hablada del mundo (después del chino mandarín) con más de 400 millones de hablantes y se refleja definitivamente en el desarrollo de herramientas y recursos aquí en España que pueden procesar, analizar y aprender de él.
Se tiene que reconocer que muchas de las grandes empresas internacionalmente conocidas (como Google y Amazon), tienen presencia en el territorio español. Por otro lado, España es una sede con muchas “Startups” innovadoras y prestigiosas (como Typeform, Wallapop, Marfeel y Tekstum sólo para nombrar unas pocas) que utilizan Big Data, Inteligencia Artificial y PLN de una manera u otra. Además de la presencia en la industria, hay muchos departamentos de investigación muy potentes en las universidades nacionales dedicados a estos temas que constantemente publican resultados innovadores en estos campos. Es un momento muy emocionante para el mercado de tecnología en España.