Promotie T.D. de Bruin: reinforcement learning

17 januari 2020 10:00 - Locatie: Aula, TU Delft - Door: webredactie

Sample Efficient Deep Reinforcement Learning for Control. Promotor 1: Prof.dr.ir. Prof.dr. R. Babuska (3mE); Promotor 2: Prof.dr. K.P. Tuyls (3mE);

Al geruime tijd wordt de komst van intelligente, algemeen toepasbare robots—robots die zelfstandig nieuwe taken kunnen leren—aangekondigd. Deep reinforcement learning, een vorm van reinforcement learning waarbij functiebenadering verricht wordt met behulp van diepe neurale netwerken, heeft de potentie om robots in staat te tellen om een breed scala aan nieuwe taken te leren met minimale menselijke hulp en voorkennis. Dit raamwerk zou daarom eindelijk de belofte van algemeen toepasbare robots in kunnen lossen. Tot nu toe liggen de voornaamste

successen van deep reinforcement learning echter in het spelen van computerspelletjes. Om deze successen ook te behalen in de echte wereld zijn er significante verbeteringen nodig in het vermogen van deze methodes om snel en veilig te leren. Deze thesis onderzoekt wat er nodig is om dit mogelijk te maken en draagt bij aan dit doel.

Specifiek wordt in deze thesis onderzocht hoe:

-          Ervaringen op waarde geschat kunnen worden, zodat de belangrijke ervaringen onthouden en benadrukt kunnen worden. Dit maakt het mogelijk om stabieler en efficiënter te leren. 

-          Een representatie van de staat van de wereld geleerd kan worden door middel van korte termijn doelen zoals het comprimeren van sensor data en het voorspellen van de directe gevolgen van acties. Vergeleken met het alleen leren voorspellen van de lange termijn gevolgen van regel strategieën—zoals gebruikelijk is in reinforcement learning—helpt dit om sneller generieke regel strategieën te leren.    

-          Deep learning gecombineerd kan worden met evolutionaire strategieën om snel acceptabele regel strategieën te leren en die vervolgens op een stabiele en voorspelbare manier verder te kunnen verbeteren. 

Meer informatie?

Voor inzage in proefschriften van de promovendi kunt u kijken in de TU Delft Repository, de digitale vindplaats van openbare publicaties van de TU Delft. Proefschriften zullen binnen een paar weken na de desbetreffende promotie in de Repository te vinden zijn.