プログラミング所感

強化学習

3目並べについての強化学習(Q学習)の例。
http://plaza.harmonix.ne.jp/~fakira/turedure/Q-Learning.zip
更新は e-greedy。Q学習が先手で後手は以下のルールのAI。

自分のリーチならそこに置いて勝つ。
上記以外で、相手のリーチならそこに置いて邪魔をする。
上記以外で、置くとリーチになる場所の中からランダムに選ぶ。
上記以外なら、ランダムに置く。

Q学習の勝率は9割。epsを0にすれば、敗率は0。