10分で、このナバナの「Smells Like Teen Spirit」のミュージックビデオ全体をAIを使って作った。 これが私の完全なワークフローと私が使用した👇すべてのプロンプトです
使用されたコアツールは、GoogleのVeo 3でした。 ただし、最初に、プロンプトの言語を釘付けにする必要がありました。「ニルヴァーナ ミュージック ビデオ」のような一般的なプロンプトは大惨事だったでしょう。
そこで、(ChatGPT) GPT-4o をブレインストーミング パートナーとして使用し、グランジの雰囲気を捉える語彙を構築するのに役立ちました。 プロンプト: 「ニルヴァーナの 1991 年のヒット曲「Smells Like Teen Spirit」の 90 年代のグランジの雰囲気を定義するキーワードを提供し、ミュージック ビデオの美学を捉えてください。」
ChatGPT は重要なキーワードのリストを思いつきました。 -ザラザラした、1990年代スタイル -ハンドヘルドビデオカメラ映像 -満員のシアトル講堂 -ムーディーで薄暗い高校の廊下 -ディストピアのエネルギー -露出オーバーステージライト
美的語彙セットを使って、Veo 3で何十もの短いクリップを生成し始めました。 Bロールの予算が無制限の監督になったようなものです。
メインのコンサート映像を取得するには、エネルギーと場所について具体的にプロンプトを作成する必要がありました。 プロンプト: 「1990年代にシアトルの混雑した高校の講堂で、10代のロックバンドがエネルギッシュなライブショーを演奏するワイドで映画のようなショット。」
このビデオには、混沌としたファンレベルの視点が必要でした。ここでは、視点のプロンプトが驚異的に機能しました。 プロンプト: 「群衆の中から肩の高さのザラザラしたハメ撮りショットが、ぼやけて露出オーバーのステージライトを向けました。バンドの輪郭しか見えません。」
コンサートを中心に「ストーリー」を構築するために、私は古典的で不安な高校のシーンが欲しかったのです。 プロンプト: 「1990年代の薄暗い高校の廊下を、カメラがティーンエイジャーからティーンエイジャーへとスナップしながら、素早く不機嫌なカメラの連射シーケンスが切り裂かれます。」
時々、トランジションやテクスチャとして使用できるクリップを得るために、純粋な美学を求めました。 プロンプト: 「ダークなムードで 1990 年代のシアトルのグランジ ミュージにインスパイアされたビデオを生成します」
ここで、ヒューマン・イン・ザ・ループの部分が非常に重要になります。 これで、7秒のクリップでいっぱいのフォルダーができました。すべてをCapwingというシンプルなビデオエディタにインポートしました。 AIは撮影監督でしたが、私は監督でした。
Capwing では、最高のクリップをつなぎ合わせ、曲の有名な静かさ、大音量、静かなダイナミクスにカットを同期させました。 混沌としたエネルギッシュなショットは、コーラスが鳴った直後にヒットしなければならなかった。ここでストーリーテリングと味が大きな違いを生むのです。
@clairevo (HOW I AI Podcast) は次のように述べています。
AIはまだ完璧ではありませんが、60年代と70年代のアーティストは、録音機器に関して同様の制約に直面していました。 私が作ったのはファンフィクションで、90年代の私のお気に入りのサウンドへのラブレターでした。しかし、アイデアは、オリジナルメディアを作成するためのツールが手に入ったということです。
アイデアと実行の間の距離はかつてないほど短くなりました。 ツールはここにあり、アクセスしやすく、信じられないほど強力です。皆さんへのアドバイスはシンプルです。
1.93K