Estamos entusiasmados em anunciar o lançamento e o código aberto do HunyuanImage 3.0 — o maior e mais poderoso modelo de texto para imagem de código aberto até hoje, com mais de 80 bilhões de parâmetros no total, dos quais 13 bilhões são ativados por token durante a inferência. O efeito é completamente comparável ao modelo fechado de referência da indústria.🚀🚀🚀 O HunyuanImage 3.0 origina-se do nosso modelo de linguagem grande multimodal nativo desenvolvido internamente, com ajuste fino e pós-treinamento focados na geração de texto para imagem. Esta base única confere ao modelo um poderoso conjunto de capacidades: ✅Raciocinar com conhecimento do mundo ✅Compreender prompts complexos de mil palavras ✅Gerar texto preciso dentro das imagens Diferente dos modelos tradicionais de geração de imagem com arquitetura DiT, a arquitetura MoE do HunyuanImage 3.0 utiliza uma abordagem baseada em Transfusão para acoplar profundamente o treinamento de Difusão e LLM em um único sistema poderoso. Construído sobre o Hunyuan-A13B, o HunyuanImage 3.0 foi treinado em um enorme conjunto de dados: 5 bilhões de pares de imagem-texto, quadros de vídeo, dados de imagem-texto intercalados e 6 trilhões de tokens de corpora de texto. Este treinamento híbrido em geração multimodal, compreensão e capacidades de LLM permite que o modelo integre perfeitamente múltiplas tarefas. Se você é um ilustrador, designer ou criador, isso foi feito para reduzir seu fluxo de trabalho de horas para minutos. O HunyuanImage 3.0 pode gerar texto intrincado, quadrinhos detalhados, emojis expressivos e ilustrações vibrantes e envolventes para conteúdo educacional. O lançamento atual foca exclusivamente na geração de texto para imagem e atualizações futuras incluirão geração de imagem para imagem, edição de imagem, interação em múltiplas etapas e mais. 👉🏻Experimente agora: 🔗GitHub: 🤗Hugging Face: