Eli minulla on tällähetkellä ongelma jossa state base on todella iso eli huomattavasti enemmän kuin shakissa. Actioneja ei ole kovin paljoa ehkä noin 5-10. Mitä RL algoritmia suosittelisitte minun käyttävän tämän ongelman ratkaisemiseksi? Haluaisin että algoritmi ei vaadi liikaa harjoitusta koska ajattelin harjoittaa sen omalla koneellani. Ehkä korkeintaan kuukausi gtx 1080 ti:llä ja tuloksien pitäisi jo silloin olla kohtalaisia. Eli en välitä vaikka algoritmi ei löytäisi global miniumia mutta kunhan se saa hyviä tuloksia mahdollisimman nopeasti.
Onko edes mahdollista päästä hyvään tulokseen noin suurella state basella vai pitääkö minun saada sitä alemmas? Olen nimittäin jotain papereita lukenut ja niissä on ihan käsin tehty siten että kaksi samanlaista on sama state.
Voi poistaa. Ei taida tulla vastauksia. Kysyn muualta
Aihe on jo aika vanha, joten et voi enää vastata siihen.