Red neuronal profunda aprende a juzgar libros por sus cubiertas
Un algoritmo de visión artificial puede distinguir el género de un libro mirando su portada. Esto allana el camino para que los sistemas de IA diseñen las cubiertas por sí mismos.por Emerging Technology del arXiv
El modismo "nunca juzgues un libro por su portada" advierte contra la evaluación de algo puramente por la forma en que se ve. Y, sin embargo, las portadas de los libros están diseñadas para darles a los lectores una idea del contenido, hacer que quieran tomar un libro y leerlo. Las buenas portadas de libros están diseñadas para ser juzgadas.
Y los humanos somos bastante buenos en eso. Es relativamente sencillo elegir un libro de cocina o una biografía o una guía de viaje con tan solo mirar la portada.
Y eso plantea una pregunta interesante: ¿las máquinas también pueden juzgar los libros por sus cubiertas? Ya sabemos que juzgan a las personas por sus tapas.
Hoy recibimos una respuesta gracias al trabajo de Brian Kenji Iwana y Seiichi Uchida en la Universidad de Kyushu en Japón. Estos chicos han entrenado una red neuronal profunda para estudiar portadas de libros y determinar la categoría de libro de donde provienen.
Su método es directo. Iwana y Uchida descargaron 137.788 portadas de libros únicos de Amazon.com junto con el género del libro. Hay 20 géneros posibles, pero cuando un libro se incluyó en más de una categoría, los investigadores utilizaron solo el primero.
Luego, el par usó el 80 por ciento del conjunto de datos para entrenar una red neuronal y reconocer el género mirando la imagen de portada. Su red neuronal tiene cuatro capas, cada una con hasta 512 neuronas, que juntas aprenden a reconocer la correlación entre el diseño de la portada y el género. El par usó otro 10 por ciento del conjunto de datos para validar el modelo y luego probaron la red neuronal en el 10 por ciento final para ver qué tan bien categoriza las cubiertas que nunca ha visto.
Los resultados hacen una lectura interesante. El algoritmo enumeró el género correcto en sus tres opciones principales más del 40 por ciento del tiempo y encontró el género exacto más del 20 por ciento del tiempo. Eso es significativamente mejor que el azar. "Esto muestra que la clasificación de diseños de portadas de libros es posible, aunque es una tarea muy difícil", dicen Iwana y Uchida.
Algunas categorías resultan más fáciles de reconocer que otras. Por ejemplo, los libros de viaje y libros sobre computación y tecnología son relativamente fáciles de detectar para la red neuronal porque los diseñadores de libros usan consistentemente imágenes y diseños similares para estos géneros.
La red neuronal también descubrió que los libros de cocina eran fáciles de reconocer si usaban imágenes de alimentos, pero eran completamente ambiguos si usaban un diseño diferente, como una imagen del chef.
Las biografías y las memorias también eran problemáticas y el algoritmo a menudo seleccionaba la historia como categoría. Curiosamente, para muchos de estos libros, la historia es el género secundario enumerado en Amazon, lo que sugiere que el algoritmo no fue engañado por completo.
El algoritmo también confundió los libros para niños con cómics y novelas gráficas, así como libros de medicina y libros de ciencias. Quizás eso también es comprensible dadas las similitudes entre estas categorías.
Hay una falla en este trabajo. Iwana y Uchida no han comparado el rendimiento de su red neuronal con la capacidad de los humanos de reconocer los géneros de los libros por sus portadas. Eso sería un experimento interesante y uno que sería relativamente sencillo de hacer con un servicio de crowdsourcing en línea como Amazon Mechanical Turk.
Hasta que se haga ese trabajo, no hay forma de saber si las máquinas son mejores en esta tarea que los humanos. Aunque, sin importar lo buenos que sean los humanos en esta tarea, seguramente es sólo cuestión de tiempo antes de que las máquinas los superen.
Sin embargo, este es un trabajo interesante que podría ayudar a los diseñadores a mejorar sus habilidades cuando se trata de portadas de libros. Un resultado más probable, sin embargo, es que podría usarse para entrenar máquinas para diseñar portadas de libros sin necesidad de aportes humanos. Y eso significa que el diseño de la portada del libro es solo otro trabajo que se asignará a los libros de historia.