13 enero 2025

Whisk, nueva herramienta para crear imágenes con IA

Whisk es un nuevo agente en el campo de la inteligencia artificial generativa. Se trata de una nueva herramienta de IA desarrollada por Google Labs.

Ha sido diseñada para generar imágenes, para lo cual utiliza ilustraciones como indicaciones, en lugar de sólo descripciones de texto.

De este modo, los usuarios definen el tema, escena y estilo de la imagen que desean crear, con la posibilidad de proponer varios para cada caso.

La compañía dice que su herramienta está destinada a la exploración visual rápida en lugar de modificaciones precisas. Así, los resultados no son aún perfectos, pero tienen funciones de edición para corregir imprecisiones.

Al crear imágenes utilizando otras imágenes como puntos de partida y, además, poder combinar el modelo Imagen 3 con las capacidades de comprensión visual de Gemini, Whisk genera imágenes únicas basadas en temas, escenas y estilos proporcionados por el usuario.

Esta herramienta facilita entonces la visualización y recomposición de ideas de forma diferente. Si el usuario no tiene imágenes, Whisk puede ofrecerlas generadas por las conclusiones a las que llega su IA. De todas formas, el usuario también puede agregar detalles de texto adicionales si así lo desea.

Una vez que se proporcionan las indicaciones, Whisk genera las imágenes y descripciones de texto correspondientes para cada una de ellas, lo que permite a los usuarios guardarlas, descargarlas o refinarlas agregando más texto o editando la imagen directamente.

Como hemos adelantado, Whisk confía en Gemini para producir una descripción de las imágenes, antes de impulsarlas a Imagen 3, la herramienta de generación de imágenes.

El modelo Gemini genera automáticamente y en segundo plano una descripción detallada de las imágenes proporcionadas, que luego es procesada por el modelo de generación de imágenes más nuevo de Google, Imagen 3. Este proceso captura la esencia de las imágenes proporcionadas, lo que les permite ser remezcladas de manera más creativa, señalan los propios desarrolladores.

Como decimos, esta solución está diseñada para una exploración visual rápida, en lugar de para cambios precisos a nivel de píxeles. Su objetivo es fomentar la experimentación y la creatividad al permitir a los usuarios probar rápidamente diferentes ideas y descargar las que les gustan, siguiendo un poco el ejemplo de Grok.

La herramienta de momento sólo está disponible en los Estados Unidos, No obstante, Google pronto distinguirá las imágenes generadas o modificadas por IA en sus resultados de búsqueda, indicando claramente su origen.

Una herramienta de IA más que sumar a la infinitamente creciente lista de ellas.

Leave a Reply