Nos complace anunciar el lanzamiento y el código abierto de HunyuanImage 3.0, el modelo de texto a imagen de código abierto más grande y poderoso hasta la fecha, con más de 80 mil millones de parámetros totales, de los cuales 13 mil millones se activan por token durante la inferencia. El efecto es completamente comparable al modelo insignia de código cerrado de la industria. 🚀🚀🚀 HunyuanImage 3.0 se origina a partir de nuestro modelo de lenguaje grande multimodal nativo desarrollado internamente, con un ajuste fino y un entrenamiento posterior centrado en la generación de texto a imagen. Esta base única le da al modelo un poderoso conjunto de capacidades: ✅Razonar con conocimiento del mundo ✅Comprender indicaciones complejas de mil palabras ✅Genere texto preciso dentro de las imágenes A diferencia de los modelos tradicionales de generación de imágenes de arquitectura DiT, la arquitectura MoE de HunyuanImage 3.0 utiliza un enfoque basado en transfusiones para acoplar profundamente la difusión y el entrenamiento de LLM para un sistema único y potente. Construido sobre Hunyuan-A13B, HunyuanImage 3.0 se entrenó en un conjunto de datos masivo: 5 mil millones de pares de imagen y texto, fotogramas de video, datos de imagen y texto intercalados y 6 billones de tokens de corpus de texto. Este entrenamiento híbrido a través de la generación multimodal, la comprensión y las capacidades de LLM permite que el modelo integre sin problemas múltiples tareas. Ya sea que sea ilustrador, diseñador o creador, esto está diseñado para reducir su flujo de trabajo de horas a minutos. HunyuanImage 3.0 puede generar texto intrincado, cómics detallados, emojis expresivos e ilustraciones animadas y atractivas para contenido educativo. La versión actual se centra únicamente en la generación de texto a imagen y las actualizaciones futuras incluirán imagen a imagen, edición de imágenes, interacción de varios turnos y más. 👉🏻Pruébalo ahora: 🔗GitHub: 🤗Cara de abrazo: