[ad_1]
La inteligencia artificial se ha enfrentado con frecuencia a los humanos en combates creativos. Puede vencer a los grandes maestros en el ajedrez, crear sinfonías, sacar poemas sinceros y ahora crear arte detallado a partir de un aviso breve y redactado.
El equipo de OpenAI ha creado recientemente una poderosa pieza de software, capaz de producir una amplia gama de imágenes en segundos, solo con una cadena de palabras.
Este programa se conoce como Dall-E 2 y se creó para revolucionar la forma en que usamos la IA con imágenes. Hablamos con Aditya Ramesh, uno de los ingenieros principales de Dall-E 2 para comprender mejor lo que hace, sus limitaciones y el futuro que podría tener.
¿Qué hace Dall-E 2?
En 2021, la empresa de desarrollo de investigación de IA OpenAI creó un programa conocido como ‘Dall-E’, una combinación de los nombres Salvador Dali y pared-e. Este software pudo tomar un aviso redactado y crear una imagen generada por IA completamente única.
Por ejemplo, ‘un zorro en un árbol’ mostraría una foto de un zorro sentado en un árbol, o la búsqueda ‘astronauta con un panecillo en la mano’ mostraría… bueno, ya ves a dónde va esto.

Si bien esto fue ciertamente impresionante, las imágenes a menudo eran borrosas, no del todo precisas y tomaban un tiempo crearlas. Ahora, OpenAI ha realizado grandes mejoras en el software, creando Dall-E 2, una nueva iteración poderosa que funciona a un nivel mucho más alto.
Junto con algunas otras características nuevas, la diferencia clave con este segundo modelo es una gran mejora en la resolución de la imagen, latencias más bajas (cuánto tiempo tarda en crearse la imagen) y un algoritmo más inteligente para crear las imágenes.
El software no solo crea una imagen en un solo estilo, puede agregar diferentes técnicas de arte a su solicitud, ingresando estilos de dibujo, pintura al óleo, un modelo de plastilina, tejido de lana, dibujado en la pared de una cueva o incluso como un póster de película de los años 60.
“Dall-E es un asistente muy útil que amplifica lo que una persona puede hacer normalmente, pero realmente depende de la creatividad de la persona que lo usa. Un artista o alguien más creativo puede crear cosas realmente interesantes”, dice Ramesh.
Un aprendiz de todo
Además de la capacidad de la tecnología para producir imágenes solo con indicaciones escritas, Dall-E 2 tiene otras dos técnicas inteligentes: pintura y variaciones. Estas dos aplicaciones funcionan de manera similar al resto de Dall-E, solo que con un giro.
Con la pintura interna, puede tomar una imagen existente y editarle nuevas características o cambiar partes de ella. Si tienes una imagen de salón, puedes añadir una alfombra nueva, un perro en el sofá, cambiar el cuadro de la pared o incluso tirar un elefante en la habitación… porque eso siempre sale bien.

Variations es otro servicio que requiere una imagen existente. Introduzca una foto, una ilustración o algún otro tipo de imagen y la herramienta de variación de Dall-E creará cientos de sus propias versiones.
Podrías darle una foto de un Teletubby, y lo replicará, creando versiones similares. Una pintura antigua de un samurái creará otras similares, incluso podrías tomar una foto de algún grafiti que veas y obtener resultados similares.
También puede usar esta herramienta para combinar dos imágenes en una extraña colaboración. Mezcla un dragón y un corgi, o un arcoíris y una maceta para generar macetas con algo de color.

Limitaciones de Dall-E 2
Si bien no hay dudas sobre lo impresionante que es esta tecnología, no deja de tener sus limitaciones.
Un problema que enfrenta es la confusión de ciertas palabras o frases. Por ejemplo, cuando ingresamos ‘un agujero negro dentro de una caja’, Dall-E 2 devolvió un agujero que era negro dentro de una caja, en lugar del cuerpo cósmico que buscábamos.

Esto puede suceder a menudo cuando una palabra tiene múltiples significados, las frases pueden malinterpretarse o si se usan coloquialismos. Esto es de esperarse de una inteligencia artificial que toma el significado literal de sus palabras.
“Algo más a lo que hay que acostumbrarse con el sistema es cómo funcionan las indicaciones y los estilos artísticos. Cuando escribe algo, es posible que la imagen inicial no sea correcta y, aunque técnicamente coincida con su solicitud, no logra por completo la sensación o la idea que tenía en la cabeza. Esto puede tomar un tiempo para acostumbrarse y algunos ajustes menores”, dice Ramesh.
Otra área en la que Dall-E puede confundirse es con la ‘mezcla variable’. “Si le pides al modelo que dibuje un cubo rojo encima de un cubo azul, a veces se confunde y hace lo contrario. Creo que podemos arreglar esto con bastante facilidad en futuras iteraciones del sistema”, dice Ramesh.
La lucha contra los estereotipos y el aporte humano
Como todas las cosas buenas en Internet, no pasa mucho tiempo antes de que surja un problema clave: ¿cómo se puede usar esta tecnología de manera poco ética? Y sin mencionar el problema adicional de la historia de AI de aprender un comportamiento grosero de la gente de Internet.

Cuando se trata de una tecnología en torno a la creación de imágenes por IA, parece obvio que esto podría manipularse de muchas maneras: la propaganda, las noticias falsas y las imágenes manipuladas vienen a la mente como las rutas obvias.
Para evitar esto, el equipo de OpenAI detrás de Dall-E ha implementado una política de seguridad para todas las imágenes en la plataforma que funciona en tres etapas. La primera etapa consiste en filtrar los datos que incluyen una infracción importante. Esto incluye violencia, contenido sexual e imágenes que el equipo consideraría inapropiadas.
La segunda etapa es un filtro que busca puntos más sutiles que son difíciles de detectar. Esto podría ser contenido político o propaganda de alguna forma. Finalmente, en su forma actual, cada imagen producida por Dall-E es revisada por un ser humano, pero esta no es una etapa viable a largo plazo a medida que crece el producto.
A pesar del uso de esta política, el equipo es claramente consciente de los próximos avances de este producto. Han enumerado los riesgos y limitaciones de Dall-E, detallando la cantidad de problemas que podrían enfrentar.
Esto cubre una gran cantidad de problemas. Por ejemplo, las imágenes a menudo pueden mostrar prejuicios o estereotipos, como el uso del término boda, que se refiere principalmente a bodas occidentales. O la búsqueda de abogados muestra una mayoría de hombres mayores blancos, con enfermeras haciendo lo mismo con las mujeres.
Estos no son problemas nuevos en absoluto y es algo con lo que Google ha estado lidiando durante años. A menudo, la generación de imágenes puede seguir los prejuicios que se ven en la sociedad.

También hay formas de engañar a Dall-E para que produzca contenido que el término busca filtrar. Si bien la sangre activaría el filtro de violencia, un usuario podría escribir “un charco de ketchup” o algo similar en un intento de sortearlo.
Junto con la política de seguridad del equipo, tienen una política de contenido clara que los usuarios deben cumplir.
Futuro de Dall-E
Entonces, la tecnología está disponible y claramente funciona bien, pero ¿qué sigue para el equipo Dall-E 2? En este momento, el software se está implementando lentamente a través de una lista de espera sin planes claros de abrirlo al público en general todavía.
Al lanzar lentamente su producto, el grupo OpenAI puede monitorear su crecimiento, desarrollar sus procedimientos de seguridad y preparar su producto para los probables millones de personas que pronto estarán imputando sus comandos.
“Queremos poner esta investigación en manos de las personas, pero por el momento, solo estamos interesados en recibir comentarios sobre cómo las personas usan la plataforma. Definitivamente estamos interesados en implementar esta tecnología más ampliamente, pero actualmente no tenemos planes de comercialización”, dice Ramesh.
Lee mas:
[ad_2]
Source by [author_name]