Meta presenta CM3leon su nueva generación de imágenes mediante IA con eficiencia mejorada

Meta dio a conocer su proyecto más reciente, CM3leon (pronunciado como «camaleón»), como parte de su investigación en curso sobre nuevos modelos de IA generativa.
CM3leon es un modelo básico multimodal para la creación de texto a imagen e imagen a texto que se puede utilizar para generar automáticamente títulos de fotos.
Los métodos que Meta está empleando para construir CM3leon y el rendimiento que Meta afirma que el modelo básico es capaz de lograr son lo que son novedosos.
Los sistemas actuales de generación de texto a imagen dependen en gran medida del uso de modelos de difusión, de ahí el nombre de Stable Diffusion. CM3leon utiliza un enfoque alternativo: un modelo autorregresivo basado en tokens.
Por el contrario, se sabe que los modelos autorregresivos basados en tokens también producen resultados sólidos, con una coherencia de imagen global aún mejor en particular, pero son mucho más costosos de entrenar y usar para inferencias. CM3leon logra un rendimiento de última generación para la generación de texto a imagen, a pesar de haber sido entrenado con cinco veces menos computación que los métodos anteriores basados en transformadores. Si deseas saber más visita la publicación del blog de Meta.