我们很高兴地宣布 HunyuanImage 3.0 的发布和开源——迄今为止最大的、最强大的开源文本到图像模型,拥有超过 800 亿个总参数,其中在推理过程中每个令牌激活 130 亿个。其效果完全可与行业旗舰闭源模型相媲美。🚀🚀🚀 HunyuanImage 3.0 源自我们内部开发的原生多模态大型语言模型,经过微调和后期训练,专注于文本到图像的生成。这一独特的基础赋予了模型强大的能力: ✅ 理解世界知识 ✅ 理解复杂的千字提示 ✅ 在图像中生成精确的文本 与传统的 DiT 架构图像生成模型不同,HunyuanImage 3.0 的 MoE 架构采用基于输血的方法,深度耦合扩散和 LLM 训练,形成一个强大的单一系统。基于 Hunyuan-A13B,HunyuanImage 3.0 在一个庞大的数据集上进行了训练:50 亿个图像-文本对、视频帧、交错的图像-文本数据,以及 6 万亿个文本语料库的令牌。这种跨多模态生成、理解和 LLM 能力的混合训练使模型能够无缝整合多项任务。 无论您是插画师、设计师还是创作者,这一工具旨在将您的工作流程从数小时缩短到数分钟。HunyuanImage 3.0 可以生成复杂的文本、详细的漫画、生动的表情符号以及生动有趣的教育内容插图。 当前版本仅专注于文本到图像的生成,未来的更新将包括图像到图像、图像编辑、多轮交互等功能。 👉🏻 立即尝试: 🔗 GitHub: 🤗 Hugging Face: