Suntem încântați să anunțăm lansarea și open-source a HunyuanImage 3.0 - cel mai mare și mai puternic model text-to-image open-source de până acum, cu peste 80 de miliarde de parametri totali, dintre care 13 miliarde sunt activați per token în timpul inferenței. Efectul este complet comparabil cu modelul emblematic al industriei. 🚀🚀🚀 HunyuanImage 3.0 provine din modelul nostru nativ de limbaj multimodal dezvoltat intern, cu reglare fină și post-antrenament axat pe generarea de text în imagine. Această bază unică oferă modelului un set puternic de capabilități: ✅Raționează cu cunoașterea lumii ✅Înțelegeți solicitări complexe, de o mie de cuvinte ✅Generați text precis în imagini Diferită de modelele tradiționale de generare a imaginilor cu arhitectură DiT, arhitectura MoE a HunyuanImage 3.0 folosește o abordare bazată pe transfuzie pentru a cupla profund antrenamentul Diffusion și LLM pentru un singur sistem puternic. Construit pe Hunyuan-A13B, HunyuanImage 3.0 a fost antrenat pe un set de date masiv: 5 miliarde de perechi imagine-text, cadre video, date imagine-text intercalate și 6 trilioane de jetoane de corpuri text. Această instruire hibridă prin generare multimodală, înțelegere și capabilități LLM permite modelului să integreze fără probleme mai multe sarcini. Indiferent dacă sunteți ilustrator, designer sau creator, acesta este construit pentru a vă reduce fluxul de lucru de la ore la minute. HunyuanImage 3.0 poate genera text complicat, benzi desenate detaliate, emoji-uri expresive și ilustrații vii și captivante pentru conținut educațional. Versiunea actuală se concentrează exclusiv pe generarea de text în imagine, iar actualizările viitoare vor include imagine-imagine, editare de imagini, interacțiune cu mai multe rotații și multe altele. 👉🏻Încercați-l acum: 🔗GitHub: 🤗Îmbrățișarea feței: