Může optimální rozhodování a učení obelstít jednorukého banditu?

Vedoucí

Ing. Miroslav Kárný, DrSc.

Pracoviště/Tel.

UTIA, Pod vodárenskou věží 4, Praha 8/ 266 05 22 74, 266 05 25 70

Klíčová slova

Rozhodování za neurčitosti, bayesovské odhadováni, adaptivní řízení

Motivace

Pravděpodobnostní dynamické systémy nachází uplatnění v široké škále oborů od techniky přes ekonomi a medicínu až po elektronickou demokracii. Lze jimi modelovat například složitá průmyslová zařízení, dopravní toky, lymfatický systém končetiny, nebo třeba výherní automat známý jako jednoruký bandita.
Často se setkáváme s případy, kdy je znám parametrizovaný model daného systému, ale jeho parametry nejsou přesně známy. Základní problém, který je pak nutno řešit, bývá odhadování těchto parametrů z pozorovaných (naměřených) dat - učení.
V případě, že daný systém obsahuje také řídící vstupy, přidává se dále problém nalezení optimálních hodnot vstupů takových, aby řízený systém co nejlépe sledoval předem zvolený cíl.
Velmi zajímavá úloha vzniká kombinací dvou předchozích - učení a řízení současně. Zvolené hodnoty vstupních veličin mají pochopitelně vliv na chování systému, ale zároveň ovlivňují kvalitu učení. Vyvstává tak otázka, zda volit strategii řízení, která se vzhledem k právě dostupným znalostem jeví jako optimální, nebo zda dělat "úmyslné chyby", které za cenu krátkodobě horšího řízení přinesou lepší odhad parametrů systému a tím umožní dosáhnout celkově lepších výsledků.

Úkoly

1. Seznamte se se základy dynamického rozhodování za neurčitosti. 2. Porovnejte různé strategie řízení systému s neznámými parametry. 3. Najděte tyto strategie pro jednoduchý systém a implementujte je. 4. Experimentálně porovnejte získané výsledky řízení.

Literatura

Kárný M., Nagy I.: Dynamic Bayesian Decision-making: Part I. (Research Report No. 1971). ÚTIA AV ČR, Praha 1999, 99 pp.

Poznámka

Téma zadáno na katedře matematického inženýrství FJFI ČVUT, lze však řešit téměř kdekoliv, dle dohody