Vi er glade for å kunngjøre utgivelsen og åpen kildekode av HunyuanImage 3.0 – den største og kraftigste åpen kildekode-tekst-til-bilde-modellen til dags dato, med over 80 milliarder totale parametere, hvorav 13 milliarder aktiveres per token under inferens. Effekten er helt sammenlignbar med bransjens flaggskip med lukket kildekode. 🚀🚀🚀 HunyuanImage 3.0 stammer fra vår internt utviklede native multimodale store språkmodell, med finjustering og ettertrening fokusert på tekst-til-bilde-generering. Dette unike fundamentet gir modellen et kraftig sett med funksjoner: ✅Resonnere med verdenskunnskap ✅Forstå komplekse spørsmål på tusen ord ✅Generer presis tekst i bilder Forskjellig fra tradisjonelle DiT-arkitekturbildegenereringsmodeller, bruker HunyuanImage 3.0s MoE-arkitektur en transfusjonsbasert tilnærming for å koble diffusjon og LLM-trening dypt for et enkelt, kraftig system. HunyuanImage 3.0 er bygget på Hunyuan-A13B, og ble trent på et massivt datasett: 5 milliarder bilde-tekstpar, videorammer, sammenflettede bilde-tekst-data og 6 billioner tokens med tekstkorpus. Denne hybridopplæringen på tvers av multimodal generering, forståelse og LLM-funksjoner gjør at modellen sømløst kan integrere flere oppgaver. Enten du er illustratør, designer eller skaper, er dette bygget for å kutte arbeidsflyten din fra timer til minutter. HunyuanImage 3.0 kan generere intrikat tekst, detaljerte tegneserier, uttrykksfulle emojier og livlige, engasjerende illustrasjoner for pedagogisk innhold. Den nåværende utgivelsen fokuserer utelukkende på tekst-til-bilde-generering, og fremtidige oppdateringer vil inkludere bilde-til-bilde, bilderedigering, interaksjon med flere svinger og mer. 👉🏻Prøv det nå: 🔗GitHub: 🤗Klemmende ansikt: