ChatGPT, Midjourney en Copilot: Van tekst naar script, beeld en geluid

29 november 2023 8 Minuten 1 Reacties
CHATGPT_7_©Gerd Altmann via Pixabay
FWD award

Wil je ook wel eens een goed script of fraaie captions schrijven, een bepaald (grafisch) beeld aanmaken en muziek of spraak genereren? En dat blijkt in de praktijk toch vaak lastiger dan gedacht? Stel dat zulks nu kan door het intypen van een paar korte tekstregels (prompts) en software met kunstmatige intelligentie doet de rest. Inmiddels beschikbaar voor ook de gewone amateur video- en fotograaf met programma’s zoals (Chat)GPT-4, Midjourney, Dall-E2, Copiiot, Typecast, Mubert en Diffusionweb.

Goede filmische of fotografische ideeën genoeg maar de uitvoer wil in de praktijk voor de onervaren hobbyist of die met twee linker creatieve handjes regelmatig lastig zijn. Kunstmatige intelligentie (AI) wil jou daar graag bij helpen. Even een paar korte tekstregels (prompts) invoeren en daar rollen de scripts, scenario’s, dialogen, grafische afbeeldingen, complete videoclips en soundtracks of podcasts uit de AI-software. Van handwerk, dat doet de AI dus voor jou, naar de focus op creatief denkwerk. Dromen worden realiteit en de sky is the limit wat er allemaal filmisch, (foto-)grafisch, copywriting en bij muziek mogelijk is.

Hype

Er valt momenteel in de pers veel te doen over kunstmatig intelligente programma’s die op basis van tekstinvoer en vraagstelling complete verhalen, beelden en ook geluid produceren. Werkstukken op school, boeken, foto’s, video, spraaksynthese en muziek of soundtrack, AI en deep learning staan in deze voor niets. Er is een ware hype ontstaan over programma’s die met een paar tekstregels van alles uit een grote database kunnen genereren.

Behalve voor taal zijn dergelijke softwareprogramma’s ook geschikt voor grafische beeldvorming, het generen van videoclips of soundtracks. Slimme AV-productie met tal van creatieve mogelijkheden tegen nauwelijks kosten en snel gedaan. En bij programmeerbare ontwerpen zoals het immersive virtuele videolandschap en de soundscape schrijven zij binnenkort de regels in computertaal uit.

GPT-4 als copywriter

Een uitkomst voor de leerling of student die even geen tijd heeft (of te lui is) voor het zelf schrijven van een werkstuk, samenvatting of scriptie, het programma GPT-4 van OpenAI doet dat wel even voor jou.

De naam GPT-4 staat voor Generative Pre-trained Transformer (version 4). In de praktijk gaat het om een slim en vindingrijk stukje AI-software dat erg goed is in het schrijven van teksten uit databasebronnen. GPT-4 kan essays schrijven, lange teksten analyseren, teksten inkorten (samenvatting maken) en versimpelen, ‘literatuur’ en filmscripts uit de AI-mouw schudden en vragen beantwoorden. Men noemt dat Large Language Models (LLM).Er is een aparte variant die ook computercode kan schrijven. Onder andere Copilot.

Alan Turing had het in de jaren 50 van de vorige eeuw al min of meer voorspeld: AI gaat de mensheid evenaren, zelfs bij het generen van tekst. Verder moet je natuurlijk niet vergeten dat AI en deep learning zelf ook met taal werken. Een uitstapje naar copywriting, scripts en storytelling ligt dan voor de hand.

Momenteel draait de hype in deze om de publieksversie ChatGPT. Daar kan iedereen mee aan de slag met wisselend een goed of toch wat dubieus resultaat. De vraag rijst of (Chat)GPT-4 de taak van copywriters, script- en scenarioschrijvers en verhalenvertellers kan overnemen. Tot op zekere hoogte wel. Het is echter allemaal niet foolproof en de LLM kan een bok schieten of een verkeerde gevoelswaarde/ beleving genereren. Als ondersteunende hulp is GPT al wel goed bruikbaar. Het script voor een blockbuster of movie-hit schrijven is ook voor AI geen sinecure.

Voorspellen en na-apen

De kern van GPT-4 en AI-consorten zit in het voorspellen van tekst afgeleid uit eerder via deep learning eigengemaakte bronnen. Het programma weet als het ware waar het met de taal naar toe moet als je opdrachten en vragen invoert. Ook spreekt men wel van slim na-apen. In de eigen database staan de zinsbouw voor tal van soorten tekst, wat mensen prettig vinden om te lezen en hoe je woorden logisch aan elkaar knoopt. Zo ook met geslaagde verhalen van series, films, documentaire en educatieve programma’s. Aan het onder de auteursknie daarvan krijgen gaat uiteraard een lange tijd van training en deep learning aan vooraf. Daarbij heeft GPT-4 geleerd wat het voorspelbare antwoord op de gestelde vragen is. En het grootste artificiële neurale netwerk dat tot op heden geconstrueerd is weet daar prima raad mee.

Van tekst naar beeld

Wat met tekst kan, gaat AI ook in beeld goed af. Prompts er in en de AI-software produceert bij de vraag passend beeld. Het creëren van foto’s, tekeningen, grafische beelden, illustraties en zelfs decors of evenement-settings gaat programma’s zoals Midjourney, Diffusionweb en Dall-E2 verrassend goed af. En videoclips of zelfs speelfilms staan al te trappelen Google en Meta zitten al ver in de experimentele fase van tekst naar video. En Quickvid schudt inmiddels al korte clips uit de AI-mouw. En er is een apart platform voor het generen van video uit tekst genaamd Synthesia.

Maar worden deze AI-pakketten dan straks de toekomst van de beeldver/bewerking? In ieder geval maken alle drie de genoemde AI-pakketten op basis van een ingevoerde korte beschrijvende tekst indrukwekkende afbeeldingen. In iedereen schuilt dan wel een kunstenaar mits je maar een goed uitgangs-idee hebt. Het grafisch ontwerpen van filmdecors, achtergronden voor theater en evenementen, gamescenery en VT/AR/MR-omgevingen lukt professioneel ogend goed. Net als wel een heel speciale foto samenstellen. In concreto verschuift de expertise van een designer steeds verder van ontwerpen naar bedenken. Handmatig Photoshoppen op basis van fotografie en stockfoto’s transformeert naar geautomatiseerde beeldbewerking. Ook het fotograferen op maat is regelmatig niet meer nodig. Je trekt het gewoon uit de database en past het met AI-prompts aan. Idem bij video. Met AI kent de creativiteit geen grenzen en gaat ver buiten het realisme en brengt de fantasie pas echt tot leven. En dat is beslist geen gek idee. Dromen worden waarheid, tijd en materiaal bespaard en weinig staat de fantasie meer in de weg.

Een andere toepassing betreft het snel kunnen maken van line-outs/schetsen en proefontwerpen. Tot slot zie je deze softwarebewerkingen in de postproduction integreren.

Wil je zelf met Midjourney aan de slag dan staat hier een eenvoudige handleiding. Moeilijk is het niet en je hebt zo daverende (foto-)grafische resultaten in de hobbyhand. Bij video tot op heden alleen nog korte clips, maar de groei zit er duidelijk in.

Geluid

Van tekst naar audio bestaat al langer in tal van vormen. Hier is momenteel een hele software-hausse aan de gang. De eenvoudigste vorm is die van tekst naar beeldprompts. Ondertiteling en commentaren bijvoorbeeld. Een flinke stap verder gaat het in elkaar draaien van podcasts en verslaglegging of interviews. En dan heb je ook nog de sprekende virtuele assistent, avatars, robots en hologrammen. In de popmuziek gaat het om via AI-prompts omzetten van woord in songteksten. AI bestormt de hitparade. Het genereren van een complete soundtrack en muziekcomposities behoort eveneens tot de mogelijkheden. Bekende voorbeelden zijn Mubert en Typcast.

Computertaal

Wat met tekst kan lukt ook met computertaal. Hier gooit het AI-programma Copilot van GitHub (Microsoft) hoge ogen. Voer natuurlijke taal als prompts in en Copilot zet deze om in coderingsopdrachten voor meerdere computertalen. Dat scheelt programmeurs een hoop tijd en er komen regelmatig nieuwe slimme oplossingen uit! Volgens de maker GitHub voert Copilot drie belangrijke taken uit:

  1. Bespaart veel onnodige tijd op het schijven van routines in de gebruikte programmeertalen.
  2. Het geven van suggesties om nog betere codes te schrijven. Ook het er uit halen van bugs.
  3. Het makkelijker onder de knie krijgen van complexe CODECs.

Copilot integreert direct in editors zoals Visual Studio, Neovim, Jet Brains en VS Code. Een spraakgestuurde versie is in ontwikkeling. Je kunt dit type programma’s inzetten voor het programmeren van virtual scenes en sound- of lightscapes.

Tot slot

Tekst, beeld en geluid genereren vanuit AI-prompts kan een flinke omwenteling voor de audiovisuele wereld beteken. Gemak bedient de maker en indirect ook diens kijker of bezoeker. En de bedenker behoedt zich niet meer druk te maken over het zelf aan de ontwerpslag te moeten. Natuurlijk zijn er vraagtekens. Gaat dit niet ten koste van de menselijke noot of inbreng? Zeker allemaal van hetzelfde? En wordt de productie-crew straks niet werkloos? Of de deur naar fakes staat nu zeker weid open? Dat valt allemaal best mee wat de creatieve bedenkers betreft. Die krijgen softwarematige AI-instrumenten aangereikt om al hun ideeën en dromen te verwezenlijken. Ga er natuurlijk wel ethisch mee om!

N.B.: Dit artikel is niet geschreven met behulp van. Chat GPT…

Reacties (1)