Iedereen alles laten zeggen: Deepfake steeds toegankelijker

Mark Rutte, Jaap van Dissel, Diederik Gommers en Hugo de Jonge die een prachtig kerstnummer ten gehore brengen. De kans is zeer groot dat u met Kerstmis 2021 dit hilarische filmpje online hebt ontvangen en doorgestuurd. Maar wie maakte het?

Deze video werd door twee broers gemaakt: Matties en Cas Grooten uit Amersfoort, die na hun opleiding in de wereld van beeld en geluid zijn doorgegaan. Matties is al een geruime tijd actief in de mediawereld en produceert sinds 2019 deepfake-video’s. Vanuit zijn achtergrond in muziek en geluid en zijn interesse in beeld ontstond in 2021 het nieuwe bedrijf Fake It or Leave It.

Komisch

Samen met zijn broer Cas maakt hij video’s, waarin deepfake-technologie op komische wijze wordt ingezet. Fake It or Leave It heeft binnen een korte tijd al aantal virals op zijn naam staan, waaronder de humoristische kerstvideo waarin de corona-ministers samen een kerstlied zingen.

We weten allemaal dat André van Duin al in 1989 veel succes had met Jaap Aap. Het was overduidelijk dat het nep was. Met de deepfake-techniek van nu is echt niet meer van nep te onderscheiden. Het houdt in dat je met software gezichten kunt bewerken en zo bijvoorbeeld mensen iets kunt laten zeggen, wat zij nooit hebben gezegd.

“Wij gebruiken deepfake echt als amusement en laten de wereld zien wat er mogelijk is. Daarom was de kerstvideo zo succesvol. Premier Rutte als zanger in een kerstmannenpak, dat sloeg in als een bom, omdat we het bekende viertal van de coronabestrijding uit hun context halen. Politici hebben een andere rol dan het zingen van een liedje. We zijn inmiddels de kijk op het aantal views kwijt, zo veel zijn het er, vooral omdat mensen het filmpje via WhatsApp deelden. Het filmpje is ook op tv geweest, maar een reactie uit Den Haag hebben we nooit gehad.”

Angst

Veel mensen zijn bang voor deepfake, omdat je niet weet wat er gebeurt als deze techniek in verkeerde handen valt. Zo was er de discussie over de deepfake-video van Queen Elizabeth, gemaakt door Channel 4. En de klimaattoespraak van premier Rutte door De Correspondent. In beide filmpjes werd humor gebruikt, zodat je wel zag dat het nep was.

Matties: “Wij laten zien wat je ermee kunt doen in de entertainment, want daar zit een enorme vraag. Veel (reclame)bedrijven zien de techniek als een nieuwe kans om een leuk verhaal of grapje te vertellen. Je kunt mensen inderdaad alles laten zeggen, maar je mag niet zomaar de gezichten van mensen gebruiken. Toch komt dan de vraag op hoe je daarmee moet omgaan, want als een gezicht door de software is aangepast, weet je uiteindelijk niet meer wat de bron was. Van wie is die data? Ik vind het overigens verontrustender als iemand iets zegt en men dan denkt dat het deepfake is. Mensen denken dat alles nep is; dat is een groter probleem.”

Manipulatie

“Het manipuleren van beeld en geluid is van alle tijden. Van Duins Jaap Aap is een mooi voorbeeld. Op dit moment bestaat er ook een groep mensen die het leuk vindt om met beeld en geluid leuke dingen te maken. De techniek van nu zorgt ervoor dat echt niet meer van nep te onderscheiden is. En dat je dus een video niet meer zomaar voor waar kunt aannemen. Het is juridisch gezien een grijs gebied en daarom ben ik wel voor een digitale fingerprint: ergens een code, zodat je weet dat het deepfake is.”

Stap 1: het idee

Aan het maken van de deepfake-video gaan brainstormsessies vooraf. Matties en Cas beginnen met wat leuke ideetjes en kijken dan ook of zij daar voldoende fragmenten bij kunnen vinden om te gebruiken.

“Bij het bedenken van de video houden we de techniek in ons achterhoofd, wat kan wel en wat kan niet? Want er zijn beperkingen. Veel bedrijven denken dat alles kan, omdat er bijvoorbeeld al veel kan op TikTok, maar een gezicht vervangen is toch wel andere koek. Wil je bijvoorbeeld een deepfake van president Biden maken, een video waarin hij recht in de camera kijkt, dan moet ook dat bronmateriaal er zijn. In de kerstvideo kijken de zangers in de oorspronkelijke video een beetje schuin. Dat betekent dat we ook bronmateriaal van premier Rutte en de anderen moesten zoeken, waarop zij in diezelfde hoek kijken.”

Stap 2: de basisopname

“Onze film met Van Gaal is een mooi voorbeeld van het gebruik van dans en een green screen. Toen we het bronmateriaal hadden gevonden, hebben we in onze studio die persconferentiesetting nagebouwd met behulp van een green screen. In die setting heb ik de tekst gesproken en gedanst. Ook de grijns van Van Gaal is van mij! Dat is de basisopname, waar we het gevonden bronmateriaal van Van Gaal overheen plakken.”

Stap 3: bewerking

Matties gaat daarna met de software aan de gang om in de basisopname zijn gezicht te vervangen door die van Van Gaal. Hij gebruikt daar software en modellen voor en maakt gebruik van kunstmatige intelligentie. Deels software, deels door hem aangepaste software.

“De volgende vraag is dan in welke mate het gezicht moet worden vervangen. Je begrijpt dat het makkelijker is om een gezicht van wenkbrauwen tot kin te vervangen dan een gezicht inclusief het haar, voorhoofd en nek. Dat is een kwestie van experimenteren, wat kan wel en wat niet? Uiteindelijk wordt de uitstraling door veel elementen bepaald. Wat past het beste op zo’n model?

Misschien wil je wel dat een bekende Nederlander een heel ander kapsel krijgt. De software decodeert mijn gezicht, hoe ik beweeg, waar mijn ogen zitten en vergelijkt dat met de bewegingen van Van Gaal. Frame voor frame worden de gezichten over elkaar heen geplakt.”

Makkelijker

Het wordt steeds makkelijker om een realistische deepfake te maken. Je ziet nu al bijna standaard dat in veel apps animatie aan een foto kan worden toegevoegd. Dat houdt dan in, een beweging van objecten in de foto, maar ook een beweging van de foto zelf. Snapchat gebruikt de TrueDepth-technologie van Apple om een 3d-model van het gezicht van een gebruiker te maken met behulp van dieptedata. Hierdoor kan de uiteindelijke selfie bewogen worden door bij de opname de telefoon licht te draaien. 3d-selfies kunnen rechtstreeks naar andere gebruikers verstuurd worden via chat.

Geluid

Het vervangen van gezichten is enorm in ontwikkeling, het vervangen van stemmen is nog altijd veel moeilijker. De stem van Van Gaal is zijn eigen stem.

Matties: “Er komt veel bij kijken om een stem te vervangen, om daar deepfake van te maken. Video is meestal 25 beeldjes per seconde, maar geluid wordt vastgelegd met 44.000 of 48.000 samples per seconde. Die moeten allemaal met de oorspronkelijke stem overeenkomen, willen onze oren geloven dat het die andere persoon betreft. Er zijn softwaremodellen die je kunt trainen, maar dan nog klinken die stemmen wat robotachtig, gesynthetiseerd. Het is erg moeilijk om ook het karakter van een stem in geluid onder te brengen. We kunnen zelf veel in onze eigen studio van Manglemoose doen en daarom huren we een stemacteur in, die een imitatie doet. Want als je deepfake toch nep en komisch is, kun je beter iemand hebben die een stem, eventueel wat overdreven, nadoet dan een gesynthetiseerde stem.”

Ambities

Fake It or Leave It ontwikkelt zich snel en maakt verschillende deepfake-producties voor reclamebureaus en televisieproducenten. Daarnaast componeert en produceert Matties muziek voor commercials, games en video, binnen het bedrijf Manglemoose. Matties merkt dat er veel vraag naar deepfake is en praat nu met grote partijen. Omdat deze ontwikkelingen erg nieuw zijn, is het de kunst de juiste toepassingen te bedenken.

“Wij hebben de techniek, maar de creativiteit is daarvan afhankelijk. Er zijn veel mogelijkheden en daar is veel in te winnen. We willen in de techniek voorop blijven lopen, in nieuwe technologie investeren en beter worden. Je moet bij deepfake-mogelijkheden denken aan ‘wat er feitelijk niet mogelijk is’. Denk aan Van Gaal laten dansen, premier Rutte naar de maan laten vliegen enz. Daar kun je dan wat mee doen. Het vraagt om een omslag in denken en daar helpen wij bij. Mensen die er niet meer zijn, kun je terughalen of mensen van nu programma’s van toen laten presenteren.”

Deepfake (een samentrekking van de Engelse woorden deep learning en fake) is een techniek voor het samenstellen van menselijke beelden op basis van artificiële intelligentie. Het wordt gebruikt om bestaande afbeeldingen en video te combineren en over elkaar te zetten met een techniek bekend als generative adversarial network. De benaming “deepfake” ontstond in 2017.

Deep learning of diep leren is een deel van een grotere familie van methodes van machinaal leren, gebaseerd op kunstmatige neurale netwerken. Deep learning kan toegepast worden in domeinen zoals beeldherkenning, spraakherkenning, natural language processing, audioherkenning, social network-filtering, machinevertaling, samenstelling van medicijnen, medische beeldherkenning en bordspelprogramma’s. Ze kunnen soms resultaten behalen die vergelijkbaar zijn met of soms beter zijn dan die van menselijke specialisten.

Iedereen alles laten zeggen: Deepfake steeds toegankelijker

Komisch

Angst

Manipulatie

Stap 1: het idee

Stap 2: de basisopname

Stap 3: bewerking

Makkelijker

Geluid

Ambities

Reacties (0)

Achtergrond: Positieve Deepfaking bij videoproductie

De laatste updates in je mailbox

Iedereen alles laten zeggen: Deepfake steeds toegankelijker

Komisch

Angst

Manipulatie

Stap 1: het idee

Stap 2: de basisopname

Stap 3: bewerking

Makkelijker

Geluid

Ambities

Reacties (0)

Creek Audio 4040 CD en 4040 – Een veelzijdig lifestyle duo

Eufy Omni E28 robotstofzuiger heeft afneembare dieptereiniger

Weer een extra gesponsorde knop op je tv-afstandsbediening

Verslag: ISE 2025 – Een hele brede beurs

Sony lanceert betaalbare CS-Serie luidsprekers voor de thuisbioscoop

Teufel lanceert AIRY TWS PRO in-ear koptelefoon

AURALiC introduceert AQUILA X3 Streaming Media Processor

Review: MoFi Electronics SourcePoint 888 – MoFi neemt een grote stap