Straipsnyje yra sprendžiamas optimalaus maršruto kelių tinkle paieškos uždavinys. Uždavinys yra modelinis, nes kelių tinklas pasirinktas stačiakampis su vienodomis tiesiomis atkarpomis, o kai kuriose sankryžose yra veikiantis šviesoforas. Uždavinys sprendžiamas naudojantis skatinamojo mokymosi algoritmais. Straipsnyje siekiama palyginti skirtingus skatinamojo mokymosi algoritmus, o taip pat sukurti vizualią aplinką, leidžiančią stebėti skatinamojo mokymosi procesą. Vizuali aplinka yra sudaryta iš automobilio, kelių ir šviesoforų tinklo, bei galutinio finišo. Mokymasis vyksta siekiant minimizuoti pravažiuotų atkarpų skaičių. Algoritmai, sunaudojantys mažiausią tokių atliktų žingsnių skaičių ir tuo būdu randantys sprendimą greičiausiai, yra geriausi. Tyrime buvo naudojami keturi skatinamojo mokymosi algoritmai: Q-learning, Sarsa, Sarsa(λ), Actor-critic. Pasiūlytos realizacijos, labiausiai tinkančios sprendžiamam uždaviniui. Aplinka naudinga susipažįstantiems su skatinamuoju mokymusi ir jo principais. Straipsnyje pateikiama nuoroda į aplinkos programos kodą ir instrukcijos, kaip ja pasinaudoti. Tai turėtų išplėsti skatinamojo mokymosi taikymus.
Šis kūrinys yra platinamas pagal Kūrybinių bendrijų Priskyrimas 4.0 tarptautinę licenciją.