Kakukk-algoritmus tanulási stratégia a megbízó-ügynök modellben
Kulcsszavak:
megbízó-ügynök probléma, lineáris szerződés, ismételt játék, Kakukk-algoritmusAbsztrakt
A tanulmányban a Kakukk-algoritmust (Cuckoo Search) követő tanulási stratégia teljesítményét vizsgáljuk a megbízó-ügynök modellben. Felállítunk egy standard megbízó-ügynök keretrendszert, ahol az előállított outputból történő részesedéssel (lineáris szerződés) az ügynök ösztönözhető, és elkerülhető az erkölcsi kockázat. A modellben a megbízó nem ismeri sem az ügynök hasznossági függvényét, sem pedig a sztochasztikus környezet tulajdonságait, de a szerződéskötésből és az előállított output megfigyeléséből álló folyamatot iterálva, folyamatosan javítva a szerződés paramétereit kitanulja és optimalizálja a saját célfüggvényét. Monte-Carlo szimulációs módszertant alkalmazva arra a következtetésre jutunk, hogy a megbízó-ügynök problémára jellemző, és a tanulást nehezítő, nem folytonos hasznossági függvény és sztochasztikus környezet ellenére a Kakukk-algoritmus a korábbi tanulási algoritmusoknál pontosabban képes meghatározni a megbízó hasznossági függvényének maximumát.