Det er nå kommet to svært gode tekst-til-video-tjenester, fra de to største aktørene på markedet. Sora fra ChatGPT og Veo3 fra Google. Særlig den siste imponerer med skummelt realistisk video! (se eksempelet lenger ned på siden.)
Nøkkelen til å lage god video med KI er den samme som nøkkelen til å lage gode bilder, og for den sakens skyld gode tekster med KI: Lag en god prompt!
Først og fremst: Når det gjelder video (og ofte bilder), så anbefaler jeg absolutt å skrive prompten på engelsk. Det er simpelthen fordi KI-modellene, som jo er trent på veldig mye mer engelskspråklig tekst enn norskspråklig tekst, ser ut til å tolke instruksene/promptene bedre når de er skrevet på engelsk.
Prompt engineering for tekst-til-video
Det finnes foreløpig ikke noe rammeverk for å lage gode prompter som fagmiljøene er enige om. Jeg har derfor laget meg en egen modell (som blir et morsomt akronym på norsk!) som jeg bruker både i egen prompting og når jeg underviser.
Denne modellen er slik:
SKAPE-modellen
SKAPE er altså et akronym, som står for disse fem elementene:
- S = Scene. Beskriv omgivelser etc. for videoen.
- K = Karakterer. Hvilke personer/enheter skal være med i videoen?
- A = Action. Hva skal egentlig skje i videoen?
- P = Poeng. Hva er hensikten med videoen?
- E = Ekstra. Er det noe annet du bør legge til, som vil kunne gjøre prompten bedre?
La oss pakke ut disse elementene én etter én:
Scene
Beskriv settingen eller scenen for videoen. Hvor skal handlingen foregå? Er det ute eller inne? Hva slags rom? Hva slags landskap? Når på dagen? Når på året?
Det er nyttig å tenke veldig visuelt på dette. Se scenen for deg og beskriv elementer du vil skal være med. Beskriv eventuelt også hvor i utsnittet de skal stå/være. (KI-tjenester er fortsatt ikke så nøyaktige at de klarer å matche absolutt alt, men det er bare et spørsmål om tid. Vi kan like gjerne legge oss til gode vaner fra starten.)
Karakterer
Hvem skal agere i videoen? Husk å beskrive personer med så mange relevante attributter som mulig. Kjønn? Alder? Hudfarge? Hårfarge? … Hva skal de ha på seg? Hva slags type person(er) er det snakk om?
Husk at det ofte synes på mennesker hva de tenker på og hvilken sinnsstemning de er i, så si gjerne «en trist kvinne i slitte klær» og liknende. Bruk adjektiver!
Action
Hva skal egentlig skje i videoen? Her kan du godt være detaljert, og ikke bare si «… kommer inn i rommet», men beskriv om vedkommende kommer fra venstre eller fra høyre, om hen inn utenfra eller fra et annet rom og så videre. Går hen? Subber hen? Løper hen?
Jo mer du beskriver, jo bedre kontroll har du på sluttresultatet.
Poeng
Hva er egentlig poenget med å lage denne videoen? Ønsker du å formidle en stemning, eller oppnå noe annet spesielt? Skal tilskueren tenke noe bestemt? Føle noe bestemt? Ønsker du at brukeren skal kjøpe noe av deg, eller komme på arrangementet ditt, eller prøver du å få til noe helt annet?
Har du en bestemt konvertering du arbeider mot, så ikke glem å oppgi denne. («Hensikten er at tilskuer skal kommentere på posten».)
Ekstra
Her gir du KI’en alle andre relevante opplysninger som du tror kan hjelpe den å gi deg bedre resultater. Det kan for eksempel være info om i hvilken kanal videoen skal brukes, hvem som er målgruppen, om videoen skal passe inn i en gitt sjanger eller andre ting.
Husk at det også går an å lime din foreløpige prompt inn i for eksempel ChatGPT og be den gi deg en forbedret prompt.
Eksempel på video-prompt
Her er et eksempel på en videoprompt som følger SKAPE-rammeverket:
A dimly lit, rustic library filled with towering bookshelves. Dust motes dance in the single shaft of sunlight filtering through a high window. An antique globe sits on a heavy wooden desk, surrounded by stacks of old, leather-bound books. There is a curious, elderly woman with spectacles perched on her nose, wearing a cozy knitted cardigan. She moves with a gentle, deliberate grace. The woman enters the library, walks to the desk, and carefully picks up one of the books. She opens it, and as she reads, the pages begin to glow faintly. As the glow intensifies, she looks up, a look of wonder on her face, and the camera slowly zooms in on her eyes reflecting the light. The point of the video is to evoke a sense of wonder and the magic of discovery found within old books and forgotten places. Mysterious, magical, and nostalgic tone, with a hint of quiet awe.
Den røde teksten er S (Scene), den orange teksten er K (Karakter), den blå teksten er A (Action), den grønne teksten er P (Poeng) og den brune teksten er E (Ekstra).
Under ser du denne prompten utført av Veo 3:
Det som foreløpig ser ut til å være den største svakheten i tekst-til-video, er faktisk handling. Det er ikke spesielt vanskelig å få inn de elementene man spesifiserer (i hvert fall de fleste av dem), men det å få elementene til å gjøre de handlingene du ber dem om (for eksempel å komme inn i rommet utenfra, eller transformere seg til noe annet), er ikke lett!
På den andre siden sett kan man avslutte setningen over på samme måten som de fleste andre setninger om begrensninger i KI: Med ordet foreløpig. Det er ikke lett, foreløpig. Men det kommer, og høyst sannsynlig kommer det raskere enn du tror!
Hvis du er interessert i prompting, så har jeg flere kurs.
Hvis du vil lære å gå «fra idé til video på 15 minutter» med KI, så er det ett av foredragene på AI-con 2025. Meld deg på så får du vite hvordan!