Achtergrond: Positieve Deepfaking bij videoproductie

02 januari 2023 + 10 minuten 0 Reacties
Deepfaking_Syntheticmedia18
FWD award

Deepfaking, oftewel synthetische media, valt heel goed te gebruiken voor positieve manipulatie van beeld en geluid. Deze vorm van creatieve artificiële intelligentie is bijvoorbeeld geschikt voor het scheppen van grafisch realistische scenes, lipsynchroon nasynchroniseren in vele talen, het al of niet holografisch neerzetten van (levende of overleden) personen en het uittesten van verschillende verhaallijnen of scenario’s. Het tijdperk van synthetische media biedt grenzeloze mogelijkheden en scheelt veel tijd en geld.

Deepfaking is een samentrekking van deep learning (AI machineleren) en faking. De met de computer en software toegepaste AV-technieken zijn levensecht, synchroon (beweging en  geluid) en immersive. Het valt voor de leek niet meer van de echte werkelijkheid te onderscheiden. Met de term faking kan je twee kanten uit: Nabootsen of ronduit vervalsen. Met name dat fake als vervalsen of nep heeft nogal veel negatieve aandacht in de pers en bij cybersecurity gekregen. Het opzettelijk negatief manipuleren van personen of gebeurtenissen met het doel om mensen te desinformeren, de opinie te beïnvloeden en schade aan de maatschappij toe te brengen. Een ware vloek bij cybercrime.

Volgens Marketingfacts, dat spreekt van de vierde mediarevolutie, zijn de positieve toepassingen momenteel sterk in opkomst. Er is geen ‘medium’ en geen ‘message’ meer, de realiteit is zelf het medium geworden. Een zege voor de vrijheid bij creatieve ontplooiing.

Andere ontwikkelingen in deze zijn deepfaking door influencers en slimme marketingtechnieken waarbij personen zich al of niet met vrienden en bekenden in een vakantieomgeving, nieuw ingericht huis, kledinglijn of een begeerde auto kunnen plaatsen. En in de nabije toekomst wellicht ‘Ontwerp jouw eigen Netflix-serie.’

De belangrijkste trends

We leven inmiddels in het tijdperk van synthetische media. En dan is het fact of fake, zowel ten goede als ten kwade! Wat kan je nu zoal met Deepfaking? De belangrijkste trends liggen bij de toepassingsgebieden:

  1. Contentcreatie, het creëren van volledig nieuwe en geloofwaardige videoclips en -films.
  2. Het onderling verwisselen van gezichten in video’s. Photoshoppen met filmische koppen. Bij de Harry Potter filmswerden zo de originele acteurs door Amerikaanse collega’ vervangen.
  3. Het nabootsen en/of genereren van stemmen. Dit zowel bij nasynchronisatie als het mensen geheel andere dingen laten zeggen.
  4. Het genereren van geloofwaardige teksten. Bijvoorbeeld bij nieuwsbulletins. Maar ook Avatars die de ingevoerde teksten levensecht met alle bijbehorende mimiek en emoties uitspreken. Een bekend voorbeeld in deze is de Dall-E-software van OpenAI.
  5. Digitale retouche waarbij je objecten in video of foto volledig wegpoetst.
  6. Heranimatie, het volledig opnieuw animeren van gezichten en bewegende personen of objecten.

De futuroloog Amy Webb van het Future To Day Institute sprak in het 2020 Tech Trends Report over synthetic media als de belangrijkste ontwikkeling voor de komende tien jaar. Een gigantische markt. Zeker voor de contentindustrie. De BBC noemt synthetische media de toekomst van contentcreatie. Bovendien kan iedereen er mee aan de slag. Zie onder andere de animaties en face switching bij TikTok.

Zeker ook in positieve zin

Zien is geloven zo luidt de titel van een VPRO-documentaire uit reeks Tegenlicht. Die laat zien dat je zowat alles geloofwaardig in beeld, woord en geluid kunt namaken. Gelukkig zijn zoals gezegd dezelfde technieken eveneens bruikbaar in positieve zin. Het scheppen van creatieve settings die anders niet of moeilijk realiseerbaar zouden zijn. Het veel werk uit handen nemen bij beeld- en geluidsbewerking. De creatieve mogelijkheden en immersive beleving aanzienlijk vergroten. Geheel zelfstandige AI content creation. Bovendien het veel tijd en geld kunnen besparen. En ook heel geschikt zijn voor het uitproberen van verhaallijnen, het onderzoeken van scenario’s en educatieve simulaties.

Tevens wordt deepfaking-technologie steeds meer toegankelijk en goedkoper. En daardoor een nieuwe en snel opkomende trend bij broadcasting, AV-productie, evenementen, gaming, onderwijs en commercials. De laatste tijd opvallende deepfakes waren onder andere het iedereen kan wervelend dansen met deepfake animaties en een valse (This is not) Morgan Freeman (Nederlandse productie van Bob de Jong).

Getrainde neurale netwerken

Bij de toepassing van het realistisch nabootsen van personen is er in de praktijk sprake van een zogenaamd getraind neuronetwerk. Dat wil zeggen het AI-netwerk moet leren (de deep learning) om een breed scala aan gezichtsuitdrukkingen, in allerlei verschillende soorten licht en vanuit elke denkbare hoek te herkennen. Dit inclusief de bewegingen van de mondmotoriek en ogen. Zo krijgt de kunstmatige intelligentie een diepgaand ‘begrip’ van niet alleen het uiterlijk maar ook de ‘essentie’ van de persoon in kwestie.

Heeft de-AI het wezen van de desbetreffende persoon onder de knie dan volgt de koppeling aan geavanceerde computer graphics, audio processing en tracking. Zo lukt het om een compleet realistisch nagebootste versie in een videoclip te plaatsen. Voorheen kostte dat allemaal veel tijd, geld en een grote hoeveelheid bestaand bronmateriaal. De meest recente versies van Deepfake-software hebben voldoende aan een handvol sleutelbeelden. Het tot leven wekken van iemand op basis van een schilderij is gewoon mogelijk. Bijvoorbeeld de Mona Lisa, of iets van Rembrandt of Salvador Dali. Het Samsung AI-lab in Rusland is hier al erg ver mee.

De Metahuman Creator bouwt naar wens levensechte mensen op voor videoproducties en presentaties. Ontwikkelaar Unreal Engine spreekt van High-Fidelity digitale mensen. Dan zijn er de ‘generative adversarial networks’ (GAN’s). Dit zijn twee concurrerende neurale netwerken die met elkaar samenwerken om geheel zelfstandig kunstmatige data te produceren die niet of nauwelijks van echt te onderscheiden zijn. Door elkaar voortdurend terugkoppeling te geven of het eindresultaat wel of niet echt is, blijven ze van elkaar leren. In elke nieuwe ronde wordt weer iets beters ontwikkeld en beoordeeld.

Nasynchronisatie

Een andere neurale techniek is om alleen de mondmotoriek onder handen te nemen en de spraak en/of taal zo aan te passen dat het net echt lijkt wat de persoon in kwestie vertelt. Bekend zijn de Deepfakes van Barak Obama die Donald Trump op de korrel neemt, de Marc Zuckerberg Deepfaking, een golf spelende Tom Cruise en de Poetin-persiflages. Adobe heeft daarvoor de eigen VoCo-software ontwikkeld, een soort stem-Photoshop dat nasynchroniseren door acteurs overbodig maakt. De Stanford, Cambridge, University College London en de Technische Universiteit van München introduceerden onlangs Synthesia software voor gezichtsheranimatie die geautomatiseerde en zeer overtuigende nasynchronisatie mogelijk maakt. Heel baanbrekend is dat deze technologie het mogelijk maakt automatisch nieuwsberichten te genereren.

Je kunt deze ook nog eens personaliseren voor individuele kijkers/luisteraars. die bovendien voor individuele kijkers gepersonaliseerd kunnen worden. Eveneens geschikt voor  trainingsdoeleinden met videomodules in meer dan veertig talen. Snel te ontwikkelen en content makkelijk en snel te creëren of wijzigen. Met deze technologie kun je ook tekst en slides binnen enkele minuten in videopresentaties omzetten, zonder dat je daar videobewerkingsvaardigheden voor nodig hebt. Een tweede voorbeeld is Respeecher voor de film- en animatie-industrie. Met slechts een handvol stemfragmenten kan deze software spraak met alle intonaties en emoties aanmaken. Modulate plakt in de module Voicewear de stemmen van spelers op gamefiguren (stemsubstitutie). De Flawless machine learning models focussen uitsluitend op de lipbewegingen en creëren nieuwe prefect vertaalde versies en plakken deze automatisch op het hoofd van de acteur/spreker.

Volledige gesproken tekstgeneratie

Nog verder gaat het taalmodel GPT-3. Het is een AI-systeem dat is getraind om zelfstandig geloofwaardige teksten te genereren. De basis GPT-3 systeem is dat de software aan de hand van het vorige het volgende woord in een zin kan voorspellen. Zo genereert GPT-3 volledige teksten die lijken op teksten die een mens heeft geschreven.

Van statisch naar mee-denkend creatief

Een bekende spreker en auteur over synthetische media is Jarno Duursma. Hij zegt onder meer: “Nu is videoproductie vaak nog een statisch en lineair proces. Je maakt een video ergens op locatie met een medewerker, acteur, technicus en geluidsman. Een tijdrovend proces. En niet te vergeten: alles moet er in een keer goed opstaan. En daarna is het klaar. Af. In de toekomst wordt dit anders. Wordt het produceren van video veel meer een continu proces. Verandert er inhoudelijk iets? Nieuwe video! Heb je een leuke invalshoek? Nieuwe video!”

En de mee-fantaserende machines: “Synthetische media systemen creëren nieuwe content en scheppen zo nieuwe ideeën. Ze doen oneindig creatieve suggesties – bijvoorbeeld bij het schilderen van een landschap – en maken variaties op onze eigen creatieve input. Of het nu gaat om video, tekst, muziek enzovoort, in de toekomst weten we niet meer of iets is gegenereerd door een computer, is bedacht door een mens of daadwerkelijk heeft plaatsgevonden in de realiteit.”

Volgens Adobe zullen Synthetic Media de manier veranderen waarop we media produceren en consumeren. Dat heeft een schaduwkant die om alertheid vraagt. Maar AI kan ook een bijdrage leveren aan de democratisering van de creativiteit  en meer ruimte maken voor experimenten. Met AI zullen individuen in staat zijn om content van hoge kwaliteit te produceren met een minimaal budget.

Postproduction

Deepfaking brengt tot voor kort ongekende mogelijkheden naar de postproduction. Het gaat daarbij om correctie, aanvulling en complete vervanging van beeld en geluid. Iets vergeten of achteraf blijkt de opname mislukt? Deepfaking komt te hulp .Op basis van het wel correct aanwezige AV-materiaal brouwt de Deepfake AI gewoon de ontbrekende fragmenten of zelfs gehele clips op. Dat gaat veel verder dan gewoon wat beelden of een stukje geluid aanvullen. Het betreft echt een geheel nieuwe realistische en waarheidsgetrouwe synthese!

Foutje bedankt? Deepfaking gaat als een ware filmische of audio-editing ‘Photoshop’ aan de slag. Behalve het vlekkeloos wegpoetsen vaak ook nog eens het slim opsporen van de missers in videoclips en podcasts. Scheelt een hoop werk of zelfs het moeten overdoen.

Bekend van Deepfake is de digitale retouche met ‘hoofdje plakken’ oftewel face swapping. Dat houdt veel meer in dan alleen een  andere kop er op. Het nieuwe hoofd past zich volledig aan op het andere lichaam. Gedraagt zich net zo en volgt alle bewegingen en mimiek. Nog een stem er bij en het is helemaal (fake) echt. De porno-industrie had dat al in 2017 door.

Het aanpassen van de scenery is een kolfje naar de content-hand van deepfaking. Bij de postproduction kan deze software bijvoorbeeld aanpassen: de tijd (zowel uur als periode), de lichtval, het seizoen, weersomstandigheden, wolkenluchten, zichtbare hemellichamen en het complete landschap of stads/dorpsbeeld. Zelfs de etniciteit van de acteurs wijzigen behoort tot de opties.

Audiodubbing naar meerdere talen werd al genoemd. Daarnaast ook geautomatiseerde voice-overs en in gesproken woord vertalen van ingetypte scripts Bijvoorbeeld verzorgt XS2RADIO een geautomatiseerde voice-over voor Shownieuws (Talpa Network).

Zelfstandige content production

Fake AI kan in principe zelfstandig compleet nieuwe videoclips of films en commercials vervaardigen in tientallen talen en met andere casts. Hetzelfde voor audiocomposities en sound landscaping. Voer de basiscontent in en de AV-bot gaat lekker fakend aan de slag. Dit met behulp van aanwezige algoritmen en/of enige menselijke regie van buitenaf.

Rephrase maakt zelfstandig videopresentaties. Een soort visual dubbing tool. Hier is uiteraard de nodige discussie over. Wordt het niet allemaal te fake in plaats van fact? Waar blijft de creativiteit? Daartegenover staan de kostenbesparing, snelle levertijd en grote mate van diversiteit.

Niet in levende lijve aanwezig

Er is een hele contentindustrie ontstaan omtrent het realtime live tonen van personen die op dat moment niet fysiek in de videoscene aanwezig zijn. We geven een viertal voorbeelden van deze Deepfaking-tak. Als eerste een inmiddels overleden persoon. Dat kunnen zijn artiesten, historische figuren en niet meer in leven zijnde dierbaren. Van fameuze gestorven artiesten bestaat vaak al veel beeld & geluidsmateriaal. Voer deze content aan Deepfake AI en je kunt hen weer opnieuw net als vroeger (of zelfs in een modern jasje) laten optreden. Dit al of niet met (tracking) interactie tussen levende andere artiesten, fans en presentatoren.

Real life geanimeerde historische figuren zijn populair bij musea, games en re-enactment-producties. Een bewoner van Pompeï die de bezoekers meeneemt door de straten van de door de vulkanische uitbarsting bedolven stad. Rembrandt die de het museumpubliek laat zien hoe hij schilderde en ook wie.

In entertainmentparken kan je de verklede acteurs van de kinder/publiekshelden vervangen door geprojecteerde Deepfakes. Voor de uitvaartindustrie kan je later de dierbare overledenen weer tot virtueel/AR leven wekken en zelfs met hen spreken Dat helpt bij de rouwverwerking… Het produceren van de nagedachtenis-AI kan met materiaal uit het verleden of speciaal daartoe voor het overlijden opgenomen content.

In geval van re-enactment komen de historische figuren realistisch tot leven in nieuw geproduceerde film. Een ander voorbeeld van nagedachtenis  AI-generated videos is dat van de University van Southern California Shoah Foundation, met meer dan 55.000 video testimonials van Holocaust overlevenden.

Als tweede op afstand aanwezig. Al gangbaar is het inzetten van hologrammen. Dat vereist dat de desbetreffende persoon wel op afstand in een opnamestudio zit. Met Deepfake kan je die fase overslaan. Eerder opgenomen materiaal wordt gewoon in de uitzending gelast. Op zodanige wijze dat de persoon in kwestie realtime acteert met de andere aanwezigen. Antwoordt en beweegt (motion tracking) zoals verwacht plus de juiste mimiek en emoties. Heel geschikt voor simulaties, productdemonstraties, publieks- en politieke campagnes (binnenkort de gemeenteraad). Bij acteurs kan je gebruik maken van Deepfake twins, de altijd inzetbare dubbelganger, en voice cloning voor de stemmen. Die hoeven dan niet altijd lijfelijk aanwezig te zijn, onnodige reis & verblijfskosten te maken en risico’s (stunts, gevaarlijke omgeving) te lopen. Bedrijven als Shutterstock streven er al naar om dit type content op voorraad te hebben.

Ten derde de gaming industrie. Vanuit bestaande of voor geacteerde content maakt de AI-spelengine realistische gamefiguren die niet onderdoen voor hoogwaardig geanimeerde grafische typpetjes en avatars.

Als vierde overtreffende trap het Holodeck uit Star Trek. Dat is binnenkort geen sciencefiction meer. Hier vinden Deepfaking en hoogwaardige projectmapping met realistische hologrammen elkaar. Compleet met haptische en sensorische ervaringen.

Simulaties

Het simuleren van educatieve, trainings- of therapeutische settings vormt een ideaal toepassingsgebied voor Deepfaking AI. Een soort ‘super Flightsimulator’ op allerlei gebied. Ziet zo’n vluchtsimulator er nogal grafisch uit. De Deepfake-simulatiewereld valt nauwelijks van de werkelijkheid te onderscheiden. De beelden, het geluid en interactieve respons zijn uiterst realistisch. Ook werkt het niet meer met Avatars doch echte (weliswaar fake) individuen. Er zijn legio voorbeelden. Het sleutelen aan techniek, het doen van proeven, het besturen van voer/vaar/vliegtuigen, groepsgesprekken, colleges, seminars, cursussen, leren muziek spelen, interactie met andere personen uitproberen, het laten zien  en beleven van de gevolgen van de klimaatcrisis met verlies aan biodiversiteit, ziekten inzichtelijk maken (Wat ervaart de patiënt en heeft deze nodig?), het weerbericht live, ontwikkelingen op de effectenbeurs, training hoe voorkom ik ongewenste intimiteiten,  etc. etc. Het bijwonen van dergelijke Deepfake-sessies scheelt tevens flink wat tijd, geld en risico’s.

Door het realistische immersive belevingsgehalte zijn de kennisoverdracht en het opdoen van bruikbare ervaring relatief hoog. Een ander voorbeeld is de Emmy Award winnende  film In Event of Moondisaster van het MIT Center for Advanced Virtuality production. Een realistische fake van een mislukte Appollo11-missie.

Tot slot…

Is Deepfaking nu een zegen of vloek voor de content- en media-industrie? Zolang je het positief inzet kent het vele voordelen op het gebied van creativiteit, distributie in meerdere talen, het tot leven brengen van eerder materiaal, retouche en foutcorrectie. Misbruik loert echter om de hoek en dat is een kwestie van integriteit voor de makers.

Reacties (0)