S potěšením oznamujeme vydání a open-source HunyuanImage 3.0 – dosud největší a nejvýkonnější open-source model převodu textu na obrázek s více než 80 miliardami celkových parametrů, z nichž 13 miliard je aktivováno na token během inference. Efekt je zcela srovnatelný s vlajkovou lodí odvětví s uzavřeným zdrojovým kódem. 🚀🚀🚀 HunyuanImage 3.0 vychází z našeho interně vyvinutého nativního multimodálního velkého jazykového modelu, s jemným laděním a následným trénováním zaměřeným na generování textu na obrázek. Tento jedinečný základ dává modelu výkonnou sadu funkcí: ✅Rozum se znalostmi světa ✅Porozumění složitým výzvám o tisíci slovech ✅Generování přesného textu v obrazech Na rozdíl od tradičních modelů generování obrazu architektury DiT, architektura MoE HunyuanImage 3.0 používá přístup založený na Transfuzi k hlubokému propojení Difúze a LLM školení pro jeden výkonný systém. HunyuanImage 3.0, postavený na Hunyuan-A13B, byl trénován na obrovském souboru dat: 5 miliard párů obrázek-text, video rámečky, prokládaná obrazová a textová data a 6 bilionů tokenů textových korpusů. Toto hybridní školení napříč multimodální generací, porozuměním a schopnostmi LLM umožňuje modelu bezproblémově integrovat více úkolů. Ať už jste ilustrátor, designér nebo tvůrce, je navržen tak, aby zkrátil váš pracovní postup z hodin na minuty. HunyuanImage 3.0 dokáže generovat složitý text, detailní komiksy, výrazné emotikony a živé, poutavé ilustrace pro vzdělávací obsah. Aktuální verze se zaměřuje výhradně na generování textu na obrázek a budoucí aktualizace budou zahrnovat obraz na obrázek, úpravy obrázků, víceotáčkovou interakci a další. 👉🏻Vyzkoušejte to nyní: 🔗Zdroj: 🤗Objímající obličej: