一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我們很高興地宣布 HunyuanImage 3.0 的發布和開源——迄今為止最大的、最強大的開源文本到圖像模型，擁有超過 800 億個總參數，其中在推理過程中每個標記激活 130 億個參數。其效果完全可與行業的旗艦閉源模型相媲美。🚀🚀🚀 HunyuanImage 3.0 源自我們內部開發的原生多模態大型語言模型，並專注於文本到圖像生成的微調和後期訓練。這一獨特的基礎賦予了模型強大的能力： ✅ 理解世界知識 ✅ 理解複雜的千字提示 ✅ 在圖像中生成精確的文本不同於傳統的 DiT 架構圖像生成模型，HunyuanImage 3.0 的 MoE 架構使用基於輸血的方法，將擴散和 LLM 訓練深度耦合為一個強大的系統。基於 Hunyuan-A13B，HunyuanImage 3.0 在一個龐大的數據集上進行訓練：50 億對圖像-文本，視頻幀，交錯的圖像-文本數據，以及 6 兆個文本語料的標記。這種跨多模態生成、理解和 LLM 能力的混合訓練使模型能夠無縫整合多個任務。無論您是插畫師、設計師還是創作者，這個模型旨在將您的工作流程從幾小時縮短到幾分鐘。HunyuanImage 3.0 可以生成精緻的文本、詳細的漫畫、生動的表情符號和生動有趣的插圖，用於教育內容。當前版本僅專注於文本到圖像生成，未來的更新將包括圖像到圖像、圖像編輯、多輪互動等功能。 👉🏻 現在就試試： 🔗 GitHub： 🤗 Hugging Face：