热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
为图像生成添加推理功能真是太酷了。
这个模型 - Hunyuan Image 3 - 可以做一些事情,比如解方程组并提供逐步指导。
而且它是开源的!真高兴看到这一点。
(提示只是两个方程 + 请求解释)


16 小时前
我们很高兴地宣布 HunyuanImage 3.0 的发布和开源——迄今为止最大的、最强大的开源文本到图像模型,拥有超过 800 亿个总参数,其中在推理过程中每个令牌激活 130 亿个。其效果完全可与行业旗舰闭源模型相媲美。🚀🚀🚀
HunyuanImage 3.0 源自我们内部开发的原生多模态大型语言模型,经过微调和后期训练,专注于文本到图像的生成。这一独特的基础赋予了模型强大的能力:
✅ 理解世界知识
✅ 理解复杂的千字提示
✅ 在图像中生成精确的文本
与传统的 DiT 架构图像生成模型不同,HunyuanImage 3.0 的 MoE 架构采用基于输血的方法,深度耦合扩散和 LLM 训练,形成一个强大的单一系统。基于 Hunyuan-A13B,HunyuanImage 3.0 在一个庞大的数据集上进行了训练:50 亿个图像-文本对、视频帧、交错的图像-文本数据,以及 6 万亿个文本语料库的令牌。这种跨多模态生成、理解和 LLM 能力的混合训练使模型能够无缝整合多项任务。
无论您是插画师、设计师还是创作者,这一工具旨在将您的工作流程从数小时缩短到数分钟。HunyuanImage 3.0 可以生成复杂的文本、详细的漫画、生动的表情符号以及生动有趣的教育内容插图。
当前版本仅专注于文本到图像的生成,未来的更新将包括图像到图像、图像编辑、多轮交互等功能。
👉🏻 立即尝试:
🔗 GitHub:
🤗 Hugging Face:
它还可以提供实际有效的逐步图解。
在这里,我请求了一个关于如何画猫头鹰的五步指南。

7.85K
热门
排行
收藏