Siamo entusiasti di annunciare il rilascio e l'open-source di HunyuanImage 3.0 — il modello open-source text-to-image più grande e potente mai realizzato, con oltre 80 miliardi di parametri totali, di cui 13 miliardi attivati per token durante l'inferenza. L'effetto è completamente comparabile a quello del modello closed-source di punta del settore.🚀🚀🚀 HunyuanImage 3.0 origina dal nostro modello linguistico multimodale nativo sviluppato internamente, con fine-tuning e post-training focalizzati sulla generazione di immagini da testo. Questa base unica conferisce al modello un potente insieme di capacità: ✅Ragionare con conoscenze del mondo ✅Comprendere comandi complessi di mille parole ✅Generare testo preciso all'interno delle immagini Diverso dai tradizionali modelli di generazione di immagini DiT, l'architettura MoE di HunyuanImage 3.0 utilizza un approccio basato su Transfusion per accoppiare profondamente la Diffusione e l'addestramento LLM in un unico sistema potente. Costruito su Hunyuan-A13B, HunyuanImage 3.0 è stato addestrato su un enorme dataset: 5 miliardi di coppie immagine-testo, fotogrammi video, dati immagine-testo intercalati e 6 trilioni di token di corpora testuali. Questo addestramento ibrido attraverso generazione multimodale, comprensione e capacità LLM consente al modello di integrare senza soluzione di continuità più compiti. Che tu sia un illustratore, un designer o un creatore, questo è progettato per ridurre il tuo flusso di lavoro da ore a minuti. HunyuanImage 3.0 può generare testo intricato, fumetti dettagliati, emoji espressive e illustrazioni vivaci e coinvolgenti per contenuti educativi. L'attuale rilascio si concentra esclusivamente sulla generazione di immagini da testo e gli aggiornamenti futuri includeranno generazione di immagini da immagini, editing di immagini, interazione multi-turno e altro ancora. 👉🏻Provalo ora: 🔗GitHub: 🤗Hugging Face: