在10分鐘內,我使用AI創建了整個Nirvana的《Smells Like Teen Spirit》音樂視頻。 這是我的完整工作流程和我使用的每個提示 👇
使用的核心工具是 Google 的 Veo 3。 然而,首先,我需要確定提示的語言。一個像 "Nirvana 音樂視頻" 這樣的通用提示將會是一場災難。
所以,我使用了 (ChatGPT) GPT-4o 作為頭腦風暴的夥伴,幫助我建立一個能捕捉到 grunge 氛圍的詞彙。 提示:"提供定義 1991 年 Nirvana 的熱門歌曲 'Smells Like Teen Spirit' 的 '90 年代 grunge 氛圍的關鍵詞,捕捉音樂錄影帶的美學。"
ChatGPT 提出了關鍵字的清單: - 粗獷的,1990年代風格 - 手持攝影機錄影 - 擁擠的西雅圖禮堂 - 情緒化,昏暗的高中走廊 - 反烏托邦的能量 - 過度曝光的舞台燈光
在我設定好美學詞彙後,我開始在Veo 3中生成數十個短片。 這就像是一位擁有無限預算的B-roll導演!
要獲得主要的音樂會畫面,提示必須具體說明能量和地點。 提示:"一個寬廣的電影鏡頭,拍攝一支青少年搖滾樂隊在1990年代的西雅圖一所擁擠的高中禮堂中進行高能量的現場表演。"
這段影片需要那種混亂的、粉絲級的視角。這裡的第一人稱提示效果非常好。 提示:"從人群中拍攝的粗糙肩膀高度的視角,對準模糊的、過度曝光的舞台燈光。你只能看到樂隊的輪廓。"
為了圍繞音樂會建立「故事」,我想要那些經典的、充滿焦慮的高中場景。 提示:"快速的鏡頭切換,穿過昏暗的1990年代高中走廊,鏡頭從一個青少年切換到另一個。"
有時候我只是為了純粹的美學而提示,以獲得我可以用作過渡或質感的片段。 提示:"生成一個受1990年代西雅圖垃圾音樂啟發的、帶有黑暗氛圍的視頻"
這就是人類參與過程如此重要的地方。 我現在有一個充滿7秒片段的資料夾。我將所有內容匯入一個名為Capwing的簡單視頻編輯器。 AI是攝影師,但我是導演。
在 Capwing 中,我將最佳片段拼接在一起,將剪接與歌曲著名的安靜-響亮-安靜的動態同步。 這些混亂而充滿活力的鏡頭必須在副歌響起時恰到好處。這就是故事講述和品味發揮重要作用的地方。
這是 @clairevo (HOW I AI Podcast) 說的:
AI 還不完美,但在 60 和 70 年代的藝術家們面對著類似的錄音設備限制。 我創作的是粉絲小說,對我最喜愛的 90 年代聲音的情書。但重點是我們現在擁有創造原創媒體的工具。
想法與執行之間的距離從未如此之短。 工具已經在這裡,它們觸手可及,並且功能強大。我對每個人的建議很簡單:去玩吧。
1.94K