Op naar sociaal vaardige spraakrobots

Met alleen je stem kan je je favoriete afspeellijst al opstarten, iets opzoeken op internet en misschien zelfs een treinkaartje kopen. Maar de huidige conversationele kunstmatige intelligentie (ook wel de spraakrobot) ontbeert een belangrijke vaardigheid die wij mensen van nature hebben; het vermogen om precies te begrijpen hóe iets gezegd wordt en daar onze eigen spraak op aan te passen. Catharine Oertel van de Interactive Intelligence-groep ontwikkelt conversationele kunstmatige intelligentie die sociaal vaardig is: Robots die hiermee op een menselijke manier kunnen converseren en zich zelfs in een groep staande kunnen houden.

Er is een reden waarom een spraakrobot – of nauwkeuriger gezegd, een conversationele agent – niet menselijker overkomt. We zijn gewoon nog niet in staat om te decoderen wat de meesten van ons min of meer natuurlijk afgaat: Het interpreteren van een complexe mix van taal, intonatie, gezichtsuitdrukkingen, armbewegingen, noem maar op. Catharine Oertel, (assistent-professor in de Interactieve Intelligentie Groep van de faculteit Elektrotechniek, Wiskunde en Informatica) zegt dat er werk is verricht aan de grotere aspecten, maar dat er nog veel subtiliteiten zijn: ‘Ik vind het fascinerend dat wij, als mensen, kunnen begrijpen of iemand geïnteresseerd, geëngageerd of sarcastisch is, en of die persoon ergens om geeft of juist niet. Ik wil menselijke communicatie decoderen en die vervolgens gebruiken om betere, zinvollere AI te ontwikkelen.’ Haar werk gaat verder dan één-op-één interacties, want Catharine is vooral geïnteresseerd in hoe gespreksagenten van pas kunnen komen in scenario's met meerdere partijen: "Dat is de state-of-the-art in mijn vakgebied."

Een robot in je meeting

Daadwerkelijk verliefd worden op je virtuele assistent zoals in de film ‘Her’ (een favoriet van Catharine) is misschien nog ver weg. Maar houd er vast rekening mee dat er straks een robot aanschuift bij je Zoom-meetings – een die gesprekken begrijpt voorbij het oppervlakkige niveau. Catharine: ‘Zo'n robot zou in het begin alleen maar kunnen luisteren. Hij zou een samenvatting van de vergadering kunnen geven, niet alleen over wat er gezegd is, maar ook over de opvattingen van elk persoon. Maar als de robot eenmaal voldoende sociaal vaardig is, kan hij ook de meeting leiden, als een neutrale voorzitter. Op de lange termijn zouden we heel graag iets creëren dat, aan de hand van meerdere bijeenkomsten, heeft geleerd hoe hij jou kan vertegenwoordigen – als een ‘digital twin’, een virtuele agent of enig andere vorm waar jij je prettig bij voelt.’

Ik wil menselijke communicatie decoderen zodat ik daarmee betere, zinvollere AI kan ontwikkelen

Sociale signalen

De onderliggende technologie die Catharine ontwikkelt, maakt gebruik van technieken voor het verwerken van sociale signalen. Haar bronmateriaal bestaat uit audio- en video-opnames van mensen die gesprekken voeren en discussies hebben. Hieruit onttrekt ze, geheel geautomatiseerd, informatie over wát er gezegd is en hóe dat gezegd is. Daarbij houdt ze rekening met zowel het verbale als non-verbale gedrag van de personen. ‘Ik gebruik deze informatie om sociaal vaardige spraakrobots te ontwikkelen die in staat zijn om aandachtig en emotioneel een dialoog te voeren.’

Menselijke waarden

De al eerdergenoemde Zoom-meetings zijn slechts een eerste voorbeeld van het gebruik van zulke sociaal vaardige agenten. Het liefst ziet Catharine dat ze worden ingezet om de almaar toenemende verdeeldheid in de samenleving een halt toe te roepen: ‘Er zijn zoveel controversiële onderwerpen – klimaatverandering, huisvesting, belastingen, COVID-vaccinaties. Een sociaal vaardige spraakrobot kan als neutrale moderator een open discussie op gang brengen tussen mensen met tegenovergestelde standpunten.’ Dat is waarom Catharine, samen met haar promovenda Maria Tsfasman, voor recent onderzoek mensen uit verschillende lagen van de bevolking benaderde en deze met elkaar liet discussiëren over hoe de maatschappij er na COVID uit zou moeten zien. ‘Dit MEMO corpus is zeer waardevol bij het beter begrijpen van onderliggende waarden. Door persoonlijkheid, waarden en emotionele reacties mee te nemen in onze machine learning-modellen, kunnen we het perspectief van mensen in een hoger, en met meer dimensies geheel plaatsen. Slagen we hierin, dan kunnen spraakrobots gemeenschappelijke waarden vinden en die gebruiken om tot een voor iedereen acceptabel compromis te komen.’

Multidisciplinair teamwork (of team)

De komende drie jaar zal Catharine Oertel binnen het Leiden-Delft-Erasmus Centre for BOLD cities verder werken aan haar spraakrobots en er mee gaan experimenteren. ‘Ons project gaat over luchtvervuiling. Hoe kunnen we de verschillende belanghebbenden betrekken in een discussie over wat belangrijk voor ze is? We willen helpen bij het uitwisselen van argumenten en het samenvoegen van deze informatie zodat toekomstig overheidsbeleid met iedereen rekening houdt.’ In het project werken computerwetenschappers samen met sociale wetenschappers – multidisciplinair onderzoek zoals de TU Delft dat graag ziet. ‘In een klassieke universitaire omgeving ben je misschien alleen, in je ivoren toren, briljant met je ideeën. Maar de mooiste ontwikkelingen komen tot stand in teamverband.’

We willen de kwaliteiten van de mens en die van AI benutten om iets te maken dat veel krachtiger is

Angstgevoelens

Zodra sociale robots er eenmaal zijn, zullen ze ook ingezet worden in de ouderenzorg, op scholen en voor nog veel meer. Dat roept misschien angstgevoelens op wat betreft data en privacy, bezorgdheid over ethiek, of het beeld om door een robot vervangen te worden. ‘Als onderzoekers zijn we ons zeker bewust van onze verantwoordelijkheid. Het helpt om goed te luisteren, deze angsten serieus te nemen en duidelijk uit te leggen hoe we te werk gaan. We hebben ethische commissies die op ons onderzoek toezien. En data stewards die garanderen dat de data geanonimiseerd is en dat er zorgvuldig mee wordt omgegaan. We laten zien wat we doen, waar het toe leidt en waarom dat van belang is.’

Hybride intelligentie

Misschien is wel de belangrijkste boodschap hoe Catharine de toekomst van haar onderzoeksgebied ziet. ‘We zijn er niet op uit om AI te ontwikkelen die de mens gaat vervangen, maar om synergie te creëren tussen mens en AI. We willen zowel de kwaliteiten van de mens als die van AI benutten om iets te maken dat veel krachtiger is dan elk afzonderlijk, en zo de mens meer mogelijkheden bieden tot dieper en creatiever nadenken.’ Dit is een weg die ze al ingeslagen is binnen het Hybrid Intelligence Centre, een samenwerking tussen zeven Nederlandse universiteiten. En in het TU Delft DI_Lab ontwikkelt Catharine spraakrobots die groepscreativiteit vergroten. ‘Deze agenten hebben razendsnelle toegang tot visuele en verbale informatie uit eerdere groepsbijeenkomsten en, dankzij het internet, tot informatie van anderen over de gehele wereld. We denken dat dit de groep in staat stelt om connecties te onderzoeken waar ze zelf niet op zouden zijn gekomen. Ik ben met name benieuwd hoe men reageert als zo’n agent zelf een compleet nieuw idee inbrengt. Wordt dat overgenomen?’