På 10 minuter skapade jag hela den här musikvideon till Nirvanas "Smells Like Teen Spirit" med hjälp av AI. Här är mitt fullständiga arbetsflöde och alla uppmaningar jag använde 👇
Kärnverktyget som användes var Googles Veo 3. Men först behövde jag spika språket för uppmaningarna. En generisk uppmaning som "Nirvana musikvideo" skulle ha varit en katastrof.
Så jag använde (ChatGPT) GPT-4o som en brainstormingpartner för att hjälpa mig att bygga upp ett ordförråd som skulle fånga grunge-vibbarna. UPPMANING: "Ange nyckelord som definierar 90-talets grunge-vibbar i 1991 års hit 'Smells Like Teen Spirit' av Nirvana, som fångar musikvideons estetik."
ChatGPT tog fram en lista över viktiga nyckelord: -Grynig 1990-talsstil -Filmer från handhållna videokameror -Fullsatt auditorium i Seattle -Lynnig, svagt upplyst high school-korridor -Dystopisk energi -Överexponerade scenljus
Med mitt estetiska ordförråd inställt började jag generera dussintals korta klipp i Veo 3. Det är som att vara en regissör med en obegränsad budget för B-roll!
För att få de viktigaste konsertbilderna var uppmaningarna tvungna att vara specifika om energin och platsen. PROMPT: "En bred, filmisk bild av ett tonårigt rockband som spelar en högenergisk liveshow i en fullsatt aula på en high school i Seattle på 1990-talet."
Videon behövde det där kaotiska,-perspektivet. En point-of-view-prompt gjorde underverk här. PROMPT: "En grynig POV i axelhöjd som sköts inifrån publiken, riktad mot de suddiga, överexponerade scenljusen. Du ser bara konturerna av bandet."
För att bygga upp "berättelsen" kring konserten ville jag ha de där klassiska, ångestfyllda high school-scenerna. PROMPT: "En snabb sekvens av snabba, stämningsfulla kameror skär genom en svagt upplyst high school-korridor från 1990-talet, medan kameran går från en tonåring till nästa."
Ibland bad jag bara om ren estetik för att få klipp som jag kunde använda som övergångar eller textur. UPPMANING: "skapa en video som är inspirerad av 1990-talets Seattle grungemusik med en mörk stämning"
Det är här som human-in-the-loop-delen är så viktig. Jag hade nu en mapp full med 7-sekundersklipp. Jag importerade allt till en enkel videoredigerare som heter Capwing. AI var filmfotografen, men jag var regissören.
I Capwing sydde jag ihop de bästa klippen och synkroniserade klippen till låtens berömda tysta-HÖGT-tysta-dynamik. De kaotiska, högenergiska skotten var tvungna att landa precis när refrängen träffade. Det är här storytelling och smak gör hela skillnaden.
Här är vad @clairevo (How i AI Podcast) sa:
AI är inte perfekt ännu, men artister på 60- och 70-talen stod inför liknande begränsningar när det gällde inspelningsutrustning. Det jag skapade var fiction, ett kärleksbrev till mina favoritljud från 90-talet. Men tanken är att vi nu har verktygen för att skapa originalmedia.
Avståndet mellan idé och genomförande har aldrig varit kortare. Verktygen finns här, de är tillgängliga och de är otroligt kraftfulla. Mitt råd till alla är enkelt: gå och spela.
1,93K