Promotie C. Wang: robots

20 juni 2017 15:00 - Locatie: Aula, TU Delft - Door: Webredactie

Robot Learning of Affordances: Towards Developing Assistive Household Robots. Promotor: Prof.dr. R. Babuska (3mE).

De mogelijkheid om nieuwe dingen te leren is essentieel voor een robothulp om nuttige manipulatie vaardigheden te ontwikkelen en zo huishoudelijke taken op te lossen. Het is nuttig voor robots om de handelingsmogelijkheden (affordance) van objecten te leren om zo te kunnen voorspellen welke mogelijke effecten een handeling heeft. Deze informatie is taak-onafhankelijk en kan worden gebruikt voor het selecteren van acties om een verscheidenheid aan taken op te lossen. In dit proefschrift gaat onze interesse naar het efficiënt leren door robots en het hierbij gebruikmaken van handelingsmogelijkheden. Het leren van en het gebruikmaken van handelingsmogelijkheden zullen wij als een enkel proces beschouwen, in plaats van als twee verschillende fases.

Robots moeten kunnen omgaan met veranderende omgevingen wat vereist dat ze op elk moment handelingsmogelijkheden van objecten moeten kunnen leren. Bovendien moet rekening gehouden worden met de efficiëntie van het leerproces, want het is meestal een tijdrovend proces om de robot genoeg leerervaringen te laten opdoen door eigen handelingen. Een continue bereik van mogelijke bewegingen leid tot oneindig veel keuzemogelijkheden voor acties, hierdoor wordt het verzamelen van data nog moeilijker. Bovendien is het niet efficiënt om alle mogelijke objecten vanaf nul te leren gebruiken. De robot moet zijn eerdere ervaringen hergebruiken bij het leren gebruiken van nieuwe objecten.

Dit proefschrift ambieert om het leren en gebruiken van handelingsmogelijkheden efficiënter te maken. Wij hebben drie leermechanismes bestudeert die het verzamelen van data en oplossen van taken versnellen. Ten eerste, wij hebben voorgesteld om handelingsmogelijkheden te leren door altijd direct elke nieuwe succesvolle ervaring mee te gebruiken als leerervaring. Deze ervaringen kunnen ook gebruikt worden om het selecteren van de verkeerde actie te voorkomen in het zelfversterkende leermechanisme waar doelgerichte acties worden geformuleerd. Ten tweede stellen wij voor om actief handelingsmogelijkheden te leren, waarbij het opdoen van ervaringen word versnel d door actief nieuwe acties te verkennen. Modellen van handelingsmogelijkheden worden gebruikt om te voorspellen welke uitwerking een actie zal hebben en de nauwkeurigheid van de voorspelling wordt gebruikt als beloning voor het leermechanisme. Ten derde stellen wij voor om eerdere gebruikservaringen van relevante andere objecten te hergebruiken voor het sneller leren van vergelijkbare objecten. De robot beslist niet alleen zelf of het hergebruiken van ervaringen nodig is, maar ook welke aanpassingen aan het actie selectie mechanisme nodig zijn. Wij hebben laten zien, door experimenten met NAO robots, dat de voorgestelde methodes om handelingsmogelijkheden te leren efficiënter zijn dan eerder beschreven aanpakken.

Tot slot hebben wij een voorstel gedaan voor een agent-gebaseerde robot aansturing, die het leren van handelingsmogelijkheden faciliteert en op meerdere cognitieve niveaus redeneert. Wij maken gebruik van redeneermechanismes op hoog abstractie niveau, in tegenstelling tot het leren van handelingsmogelijkheden op laag abstractieniveau door middel van fysieke interacties. De interactie tussen de abstractie niveaus wordt geregeld door de agent-gebaseerde aansturing. Hoewel de handelingsmogelijkheden worden opgeslagen op het hoge abstractie niveau, zijn deze gekoppeld aan fysieke bewegingen die worden opgeslagen op laag abstractie niveau. De agent kan autonoom besluiten om het leermechanisme aan of uit te zetten. Deze aanpak is efficiënt omdat het niet altijd nodig is om hier tijd in te steken als er al genoeg eerdere ervaringen zijn om de taak op te kunnen lossen. De voorgestelde aanpak verbetert de mogelijkheden van de robot om ingewikkelde taken op te lossen in de echte wereld.

Meer informatie?
Voor inzage in proefschriften van de promovendi kunt u kijken in de TU Delft Repository, de digitale vindplaats van openbare publicaties van de TU Delft. Proefschriften zullen binnen een paar weken na de desbetreffende promotie in de Repository te vinden zijn.