Добавление логики в генерацию изображений довольно круто. Эта модель - Hunyuan Image 3 - может делать такие вещи, как решать систему уравнений и предоставлять пошаговое руководство. И она с открытым исходным кодом! Рад это видеть. (запрос состоял всего из двух уравнений + просьба объяснить)
Hunyuan
Hunyuan28 сент., 10:45
Мы рады объявить о выпуске и открытом исходном коде HunyuanImage 3.0 — самой крупной и мощной модели текст-в-изображение с открытым исходным кодом на сегодняшний день, с более чем 80 миллиардами параметров, из которых 13 миллиардов активируются на токен во время вывода. Эффект полностью сопоставим с флагманской закрытой моделью отрасли.🚀🚀🚀 HunyuanImage 3.0 происходит от нашей внутренне разработанной нативной мультимодальной большой языковой модели, с тонкой настройкой и постобучением, сосредоточенными на генерации текстов в изображения. Эта уникальная основа придаёт модели мощный набор возможностей: ✅ Рассуждать с учетом мировых знаний ✅ Понимать сложные, тысячесловные подсказки ✅ Генерировать точный текст внутри изображений В отличие от традиционных моделей генерации изображений архитектуры DiT, архитектура MoE HunyuanImage 3.0 использует подход на основе трансфузии для глубокого связывания диффузии и обучения LLM в единую мощную систему. Основанная на Hunyuan-A13B, HunyuanImage 3.0 была обучена на огромном наборе данных: 5 миллиардов пар изображений и текстов, кадров видео, чередующихся данных изображений и текстов, и 6 триллионов токенов текстовых корпусов. Это гибридное обучение в области мультимодальной генерации, понимания и возможностей LLM позволяет модели бесшовно интегрировать несколько задач. Будь вы иллюстратором, дизайнером или создателем, это создано для того, чтобы сократить ваше время работы с часов до минут. HunyuanImage 3.0 может генерировать сложные тексты, детализированные комиксы, выразительные эмодзи и живые, увлекательные иллюстрации для образовательного контента. Текущий релиз сосредоточен исключительно на генерации текстов в изображения, а будущие обновления будут включать генерацию изображений в изображения, редактирование изображений, многократное взаимодействие и многое другое. 👉🏻 Попробуйте сейчас: 🔗 GitHub: 🤗 Hugging Face:
Он также может предоставить пошаговые диаграммы, которые действительно работают. Здесь я попросил пятитактное руководство о том, как нарисовать сову.
9,37K