為圖像生成添加推理是非常酷的。 這個模型 - Hunyuan Image 3 - 可以做一些事情,比如解決方程組並提供逐步指南。 而且它是開源的!很高興看到這一點。 (提示只是兩個方程 + 要求解釋)
Hunyuan
Hunyuan2025年9月28日
我們很高興地宣布 HunyuanImage 3.0 的發布和開源——迄今為止最大的、最強大的開源文本到圖像模型,擁有超過 800 億個總參數,其中在推理過程中每個標記激活 130 億個參數。其效果完全可與行業的旗艦閉源模型相媲美。🚀🚀🚀 HunyuanImage 3.0 源自我們內部開發的原生多模態大型語言模型,並專注於文本到圖像生成的微調和後期訓練。這一獨特的基礎賦予了模型強大的能力: ✅ 理解世界知識 ✅ 理解複雜的千字提示 ✅ 在圖像中生成精確的文本 不同於傳統的 DiT 架構圖像生成模型,HunyuanImage 3.0 的 MoE 架構使用基於輸血的方法,將擴散和 LLM 訓練深度耦合為一個強大的系統。基於 Hunyuan-A13B,HunyuanImage 3.0 在一個龐大的數據集上進行訓練:50 億對圖像-文本,視頻幀,交錯的圖像-文本數據,以及 6 兆個文本語料的標記。這種跨多模態生成、理解和 LLM 能力的混合訓練使模型能夠無縫整合多個任務。 無論您是插畫師、設計師還是創作者,這個模型旨在將您的工作流程從幾小時縮短到幾分鐘。HunyuanImage 3.0 可以生成精緻的文本、詳細的漫畫、生動的表情符號和生動有趣的插圖,用於教育內容。 當前版本僅專注於文本到圖像生成,未來的更新將包括圖像到圖像、圖像編輯、多輪互動等功能。 👉🏻 現在就試試: 🔗 GitHub: 🤗 Hugging Face:
它還可以提供實際可用的逐步圖解。 在這裡,我要求了一個五步驟的指南,教我如何畫一隻貓頭鷹。
10.22K