Ми раді оголосити про випуск і відкритий вихідний код HunyuanImage 3.0 — найбільшої та найпотужнішої моделі перетворення тексту в зображення з відкритим вихідним кодом на сьогоднішній день, з більш ніж 80 мільярдами загальних параметрів, з яких 13 мільярдів активуються на токен під час логічного висновку. Ефект можна порівняти з флагманською моделлю галузі із закритим вихідним кодом. 🚀🚀🚀 HunyuanImage 3.0 походить від нашої внутрішньо розробленої рідної мультимодальної великої мовної моделі, з тонким налаштуванням і пост-навчанням, зосередженим на генерації тексту в зображення. Ця унікальна основа наділяє модель потужним набором можливостей: ✅Розум зі світовими знаннями ✅Розуміння складних підказок, що складаються з тисячі слів ✅Створюйте точний текст на зображеннях На відміну від традиційних моделей генерації зображень DiT, архітектура MoE HunyuanImage 3.0 використовує підхід, заснований на переливанні, для глибокого поєднання навчання Diffusion і LLM для єдиної, потужної системи. Побудований на Hunyuan-A13B, HunyuanImage 3.0 був навчений на величезному наборі даних: 5 мільярдів пар зображення-текст, відеокадри, перемежовані зображення-текстові дані та 6 трильйонів токенів текстових корпусів. Це гібридне навчання з урахуванням мультимодальної генерації, розуміння та можливостей LLM дозволяє моделі безперешкодно інтегрувати кілька завдань. Незалежно від того, чи є ви ілюстратором, дизайнером або творцем, цей сервіс створений для того, щоб скоротити ваш робочий процес з годин до хвилин. HunyuanImage 3.0 може генерувати складний текст, деталізовані комікси, виразні емодзі та живі, захоплюючі ілюстрації для освітнього контенту. Поточний випуск зосереджений виключно на генерації тексту в зображення, а майбутні оновлення включатимуть перетворення зображення на зображення, редагування зображень, багатоходову взаємодію тощо. 👉🏻Спробуйте зараз: 🔗GitHub: 🤗Обіймаюче обличчя: