Q学習によりAからGに至る経路を学習します。
下記サイトを参考にしました。 http://www.sist.ac.jp/~kanakubo/research/reinforcement_learning.html