La inteligencia artificial está cambiando el mundo del arte de maneras notables. Una de las fascinantes aplicaciones de la IA en el segmento del arte es a través de la utilización de generadores de arte descriptivo. Estos generadores tienen la capacidad de examinar e interpretar imágenes y generar piezas de arte completamente nuevas basadas en su análisis.
En este artículo, analizamos tres generadores de arte de IA de este tipo: MidJourney, Stable Diffusion y Microsoft Bing Image Creator, y cuál de los tres se destaca en la generación de los mejores resultados según las indicaciones.
Tabla de contenido
Medio viaje
MidJourney, fundado por David Holz, es un generador de arte de IA que utiliza el aprendizaje automático para identificar patrones y características en obras de arte existentes, que luego se pueden utilizar para crear nuevas piezas.
MidJourney ingresó a la versión beta abierta el 12 de julio de 2022. Antes de lanzar MidJourney, Holz cofundó Leap Motion, una startup que transformó las interfaces de usuario utilizando captura de video y gestos con las manos. En 2019, vendió Leap Motion a Ultrahaptics.
Con MidJourney ganando popularidad, Holz ha compartido sus ideas sobre la tecnología y su influencia en el arte y la sociedad. Holz considera a los artistas clientes de MidJourney, no competidores, y cree que la plataforma puede facilitar una mayor creatividad y experimentación en la fase de ideación.
Sin embargo, existen preocupaciones sobre la posible infracción de derechos de autor del conjunto de entrenamiento de MidJourney, que puede incluir obras con derechos de autor de otros artistas.
Holz enfatiza que MidJourney está diseñado para mejorar las capacidades humanas en lugar de reemplazarlas. Lo compara con los autos y explica que el hecho de que los autos sean más rápidos que los humanos no significa que debamos cortarnos las piernas.
Al utilizar la generación de imágenes de IA de MidJourney, los artistas pueden explorar nuevas posibilidades y generar numerosas ideas antes de crear sus propias obras.
Difusión estable
Stable Diffusion es un modelo de aprendizaje automático de código abierto que puede generar imágenes a partir de texto, modificar imágenes basadas en texto o completar detalles en imágenes de baja resolución o con pocos detalles. Ha sido entrenado en miles de millones de imágenes y puede producir resultados comparables a los que obtendría con DALL-E 2 y MidJourney.
Emad Mostaque, fundador y CEO de Stability AI, es la empresa responsable de Stable Diffusion. Stable Diffusion es un modelo de difusión latente desarrollado por el grupo CompVis en LMU Munich, y fue diseñado por Patrick Esser y Robin Rombach, quienes crearon previamente la arquitectura del modelo de difusión latente utilizada por Stable Diffusion.
Una colaboración entre Stability AI, CompVis LMU, Runway, EleutherAI y LAION ha hecho que Stable Diffusion esté disponible para el público.
La difusión estable se puede implementar en varias plataformas, incluidos los dispositivos Windows y Apple. El uso de la implementación en el dispositivo en una aplicación puede salvaguardar la privacidad del usuario, lo cual es preferible a un enfoque basado en servidor.
Creador de imágenes de Microsoft Bing
Microsoft presentó una nueva herramienta llamada Bing Image Creator, que permite a los usuarios crear sus propias imágenes directamente dentro de Microsoft Edge. La compañía ha lanzado un conjunto de herramientas para creadores diseñadas para estimular la creatividad y la autoexpresión. La herramienta permite a los usuarios crear imágenes personalizadas para compartir sus actualizaciones de vida o para cualquier otro propósito que puedan necesitar.
Los usuarios pueden acceder fácilmente a Image Creator desde la barra lateral de Microsoft Edge. Microsoft ha tomado medidas proactivas para garantizar que la herramienta se use de manera responsable y no facilite la difusión de contenido ofensivo.
La empresa ha establecido una política de contenido que prohíbe el uso de Image Creator para ciertos casos, y los usuarios pueden denunciar cualquier infracción de esta política. Además, Microsoft ha implementado tecnología para abordar posibles sesgos que podrían surgir en la tecnología de imagen generativa.
En este artículo, nos embarcaremos en un viaje para evaluar los resultados de cada generador de imágenes de IA descriptivo cuando se le solicite con mensajes de texto idénticos.
Mensaje 1: Papá Noel moderno en un trineo tirado por renos en un día cálido y soleado en una carretera
Mensaje 2: Un primer plano de un animal con ojos grandes, capturando su inocencia y ternura
Pregunta 3: Un astronauta humano que juega a aterrizar en un nuevo planeta es bienvenido por criaturas alienígenas hostiles que sacan sus armas.
Pregunta 4: Arte abstracto moderno de la portada de un libro de una novela basada en la ciudad de Nueva York en colores llamativos y brillantes
Pregunta 5: Un hombre que decide entre dos platos: uno con pizza y otro con una hamburguesa con queso
Pregunta 6: Un guerrero herido monta su caballo en una montaña nevada con una espada en la mano
Pregunta 7: Una imagen abstracta con diferentes tonos que muestra el movimiento y el flujo del agua
Pregunta 8: Salmón en un río con frondosos árboles verdes al fondo
Pregunta 9: Un vaso de agua sobre una mesa con un limón exprimido con la mano
Pregunta 10: Vista del horizonte en un desierto desde el punto de vista de las personas que montan un elefante en él
Pregunta 11: Un bosque donde el papel moneda crece en los árboles y los pájaros están hechos de monedas
Pregunta 12: Cuenco de ramen, cel shading, iluminación nocturna, fotorrealista
Pregunta 13: Elon Musk es pobre y está desempleado
Veredicto
Al evaluar los resultados de MidJourney, Stable Diffusion y Bing Image Creator, es evidente que no hay un ganador definitivo.
Cada generador interpreta las indicaciones de una manera distintiva, con similitudes que se encuentran en los resultados de Bing Image Creator y MidJourney. La difusión estable es eficiente cuando las indicaciones tienen descripciones claras, pero a menudo toman las palabras demasiado literalmente. Si bien MidJourney y Bing Image Creator generalmente son exitosos, ocasionalmente producen resultados que no se corresponden con las indicaciones.
En particular, Bing Image Creator tiene cuidado al generar resultados abusivos o incitadores, emitiendo un mensaje de advertencia cuando se le solicita que cree una imagen de Elon Musk pobre y desempleado. La adopción de tales medidas de protección por parte de Microsoft es encomiable.
Mientras tanto, la experiencia en redes neuronales de MidJourney generó una imagen de un Elon Musk desamparado y desamparado. Por lo tanto, se puede concluir que cada generador atenderá a su respectiva base de usuarios.