Z radością ogłaszamy wydanie i otwarte źródło HunyuanImage 3.0 — największego i najpotężniejszego otwartego modelu tekst-na-obraz do tej pory, z ponad 80 miliardami parametrów, z czego 13 miliardów jest aktywowanych na token podczas wnioskowania. Efekt jest całkowicie porównywalny z flagowym modelem zamkniętego źródła w branży.🚀🚀🚀 HunyuanImage 3.0 pochodzi z naszego wewnętrznie opracowanego natywnego multimodalnego dużego modelu językowego, z dostosowaniem i treningiem po szkoleniu skoncentrowanym na generacji tekst-na-obraz. Ta unikalna podstawa daje modelowi potężny zestaw możliwości: ✅Rozumienie wiedzy o świecie ✅Zrozumienie złożonych, tysiącosłownych podpowiedzi ✅Generowanie precyzyjnego tekstu w obrazach Inny niż tradycyjne modele generacji obrazów oparte na architekturze DiT, architektura MoE HunyuanImage 3.0 wykorzystuje podejście oparte na transfuzji, aby głęboko połączyć trening Diffusion i LLM w jeden, potężny system. Zbudowany na Hunyuan-A13B, HunyuanImage 3.0 był trenowany na ogromnym zbiorze danych: 5 miliardów par obraz-tekst, klatek wideo, przeplatanych danych obraz-tekst oraz 6 bilionów tokenów korpusów tekstowych. To hybrydowe szkolenie w zakresie multimodalnej generacji, rozumienia i możliwości LLM pozwala modelowi na płynne integrowanie wielu zadań. Niezależnie od tego, czy jesteś ilustratorem, projektantem, czy twórcą, ten model został stworzony, aby skrócić Twój czas pracy z godzin do minut. HunyuanImage 3.0 może generować skomplikowany tekst, szczegółowe komiksy, ekspresyjne emotikony i żywe, angażujące ilustracje do treści edukacyjnych. Obecne wydanie koncentruje się wyłącznie na generacji tekst-na-obraz, a przyszłe aktualizacje będą obejmować generację obraz-na-obraz, edytowanie obrazów, interakcje wieloetapowe i więcej. 👉🏻Wypróbuj to teraz: 🔗GitHub: 🤗Hugging Face: