一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们很高兴地宣布 HunyuanImage 3.0 的发布和开源——迄今为止最大的、最强大的开源文本到图像模型，拥有超过 800 亿个总参数，其中在推理过程中每个令牌激活 130 亿个。其效果完全可与行业旗舰闭源模型相媲美。🚀🚀🚀 HunyuanImage 3.0 源自我们内部开发的原生多模态大型语言模型，经过微调和后期训练，专注于文本到图像的生成。这一独特的基础赋予了模型强大的能力： ✅ 理解世界知识 ✅ 理解复杂的千字提示 ✅ 在图像中生成精确的文本与传统的 DiT 架构图像生成模型不同，HunyuanImage 3.0 的 MoE 架构采用基于输血的方法，深度耦合扩散和 LLM 训练，形成一个强大的单一系统。基于 Hunyuan-A13B，HunyuanImage 3.0 在一个庞大的数据集上进行了训练：50 亿个图像-文本对、视频帧、交错的图像-文本数据，以及 6 万亿个文本语料库的令牌。这种跨多模态生成、理解和 LLM 能力的混合训练使模型能够无缝整合多项任务。无论您是插画师、设计师还是创作者，这一工具旨在将您的工作流程从数小时缩短到数分钟。HunyuanImage 3.0 可以生成复杂的文本、详细的漫画、生动的表情符号以及生动有趣的教育内容插图。当前版本仅专注于文本到图像的生成，未来的更新将包括图像到图像、图像编辑、多轮交互等功能。 👉🏻 立即尝试： 🔗 GitHub： 🤗 Hugging Face：