熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們很高興地宣布 HunyuanImage 3.0 的發布和開源——迄今為止最大的、最強大的開源文本到圖像模型,擁有超過 800 億個總參數,其中在推理過程中每個標記激活 130 億個參數。其效果完全可與行業的旗艦閉源模型相媲美。🚀🚀🚀
HunyuanImage 3.0 源自我們內部開發的原生多模態大型語言模型,並專注於文本到圖像生成的微調和後期訓練。這一獨特的基礎賦予了模型強大的能力:
✅ 理解世界知識
✅ 理解複雜的千字提示
✅ 在圖像中生成精確的文本
不同於傳統的 DiT 架構圖像生成模型,HunyuanImage 3.0 的 MoE 架構使用基於輸血的方法,將擴散和 LLM 訓練深度耦合為一個強大的系統。基於 Hunyuan-A13B,HunyuanImage 3.0 在一個龐大的數據集上進行訓練:50 億對圖像-文本,視頻幀,交錯的圖像-文本數據,以及 6 兆個文本語料的標記。這種跨多模態生成、理解和 LLM 能力的混合訓練使模型能夠無縫整合多個任務。
無論您是插畫師、設計師還是創作者,這個模型旨在將您的工作流程從幾小時縮短到幾分鐘。HunyuanImage 3.0 可以生成精緻的文本、詳細的漫畫、生動的表情符號和生動有趣的插圖,用於教育內容。
當前版本僅專注於文本到圖像生成,未來的更新將包括圖像到圖像、圖像編輯、多輪互動等功能。
👉🏻 現在就試試:
🔗 GitHub:
🤗 Hugging Face:
熱門
排行
收藏