トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
画像生成に推論を追加するのはとてもクールです。
このモデル (Hunyuan Image 3) は、方程式系を解くなどのことを行い、ステップバイステップのガイドを提供します。
しかもオープンソースです!見るのが大好きです。
(プロンプトは2つの方程式+説明を求めるだけでした)


13時間前
HunyuanImage 3.0 のリリースとオープンソースを発表できることを嬉しく思います — これまでで最大かつ最も強力なオープンソースのテキストから画像へのモデルであり、合計 800 億を超えるパラメーターがあり、そのうち 130 億が推論中にトークンごとにアクティブ化されます。その効果は、業界の主力クローズドソースモデルに完全に匹敵します。 🚀🚀🚀
HunyuanImage 3.0 は、社内で開発されたネイティブのマルチモーダル大規模言語モデルに由来しており、テキストから画像への生成に重点を置いた微調整と事後トレーニングが行われています。この独自の基盤により、モデルに強力な機能セットが与えられます。
✅世界の知識で推理する
✅複雑な1000語のプロンプトを理解する
✅画像内に正確なテキストを生成
従来の DiT アーキテクチャ画像生成モデルとは異なり、HunyuanImage 3.0 の MoE アーキテクチャは、輸血ベースのアプローチを使用して、単一の強力なシステムのために拡散と LLM トレーニングを深く結合します。Hunyuan-A13B 上に構築された HunyuanImage 3.0 は、50 億の画像とテキストのペア、ビデオ フレーム、インターリーブされた画像とテキスト データ、および 6 兆トークンのテキスト コーパスを含む大規模なデータセットでトレーニングされました。マルチモーダル生成、理解、LLM 機能にわたるこのハイブリッド トレーニングにより、モデルは複数のタスクをシームレスに統合できます。
イラストレーター、デザイナー、クリエイターのいずれであっても、これはワークフローを数時間から数分に短縮するために構築されています。HunyuanImage 3.0 は、教育コンテンツ用の複雑なテキスト、詳細なコミック、表現力豊かな絵文字、生き生きとした魅力的なイラストを生成できます。
現在のリリースはテキストから画像への生成のみに焦点を当てており、将来のアップデートには、画像から画像への変換、画像編集、マルチターン インタラクションなどが含まれます。
👉🏻今すぐ試す:
🔗ギットハブ:
🤗ハグ顔:
また、実際に機能するステップバイステップの図を提供することもできます。
ここでは、フクロウのスケッチ方法に関する5つのステップのガイドをお願いしました。

6.69K
トップ
ランキング
お気に入り