AI LUISTERDE NAAR DE STEMMEN VAN MENSEN. TOEN GENEREERDE HET HUN GEZICHTEN.

Send

Heb je ooit een mentaal beeld opgebouwd van een persoon die je nog nooit hebt gezien, uitsluitend gebaseerd op hun stem? Kunstmatige intelligentie (AI) kan dat nu doen door een digitaal beeld van iemands gezicht te genereren met slechts een korte audioclip als referentie.

Genoemd Speech2Face, het neurale netwerk - een computer die "denkt" op een manier die lijkt op het menselijk brein - werd door wetenschappers getraind op miljoenen educatieve video's van het internet waarop meer dan 100.000 verschillende mensen aan het praten waren.

Uit deze dataset leerde Speech2Face associaties tussen vocale aanwijzingen en bepaalde fysieke kenmerken in een menselijk gezicht, schreven onderzoekers in een nieuwe studie. De AI gebruikte vervolgens een audioclip om een fotorealistisch gezicht te modelleren dat bij de stem paste.

De bevindingen werden op 23 mei online gepubliceerd in de preprint jounral arXiv en zijn niet door vakgenoten beoordeeld.

Gelukkig weet AI (nog) niet precies hoe een specifieke persoon eruitziet op basis van alleen hun stem. Het neurale netwerk herkende bepaalde markers in spraak die wezen op geslacht, leeftijd en etniciteit, kenmerken die door veel mensen worden gedeeld, rapporteerden de auteurs van het onderzoek.

'Als zodanig zal het model alleen gemiddeld uitziende gezichten produceren', schreven de wetenschappers. 'Het levert geen afbeeldingen op van specifieke individuen.'

AI heeft al aangetoond dat het griezelig nauwkeurige menselijke gezichten kan produceren, hoewel de interpretaties van katten ronduit een beetje angstaanjagend zijn.

De gezichten die door Speech2Face werden gegenereerd - allemaal naar voren gericht en met neutrale uitdrukkingen - kwamen niet precies overeen met de mensen achter de stemmen. Maar de afbeeldingen legden meestal de juiste leeftijdscategorieën, etniciteiten en geslachten van de individuen vast, aldus de studie.

De interpretaties van het algoritme waren echter verre van perfect. Speech2Face toonde "gemengde prestaties" wanneer het werd geconfronteerd met taalvariaties. Toen de AI bijvoorbeeld luisterde naar een audioclip van een Aziatische man die Chinees sprak, produceerde het programma een afbeelding van een Aziatisch gezicht. Toen dezelfde man echter in een ander audiofragment in het Engels sprak, genereerde de AI het gezicht van een blanke man, meldden de wetenschappers.

Het algoritme toonde ook genderbias, waarbij lage stemmen werden geassocieerd met mannelijke gezichten en hoge stemmen met vrouwelijke gezichten. En omdat de trainingsdataset alleen educatieve video's van YouTube vertegenwoordigt, 'vertegenwoordigt deze niet evenveel de hele wereldbevolking', schreven de onderzoekers.

Een andere bezorgdheid over deze videodataset ontstond toen een persoon die in een YouTube-video was verschenen verrast was om te horen dat zijn gelijkenis in de studie was opgenomen, meldde Slate. Nick Sullivan, hoofd van de cryptografie bij het internetbeveiligingsbedrijf Cloudflare in San Francisco, zag onverwacht zijn gezicht als een van de voorbeelden die werd gebruikt om Speech2Face te trainen (en die het algoritme ongeveer had gereproduceerd).

Sullivan had er niet mee ingestemd om in de studie te verschijnen, maar de YouTube-video's in deze dataset worden algemeen beschouwd als beschikbaar voor onderzoekers om te gebruiken zonder aanvullende rechten te verkrijgen, aldus Slate.

Send