1. 変数の定義 • 感覚入力:x_t \in \mathcal{X} • 内部状態(快・不快・空腹など):u_t \in \mathcal{U} • 目的スコア関数:P_t = f_p(u_t)\in\mathbb{R} • 行動スコア関数:A_t(a) = f_a\big(u_t, M_t, a\big)\in\mathbb{R} • 記憶(履歴集合):M_t = \{(x_{τ},u_{τ},a_{τ},r_{τ})\mid τ < t\} • 選択行動:a_t • 環境反応・次状態: x_{t+1} = E(x_t, a_t),\quad u_{t+1} = U(u_t, a_t, x_{t+1}) • 報酬(スコア変動量): r_t = R\big(x_{t+1},u_t\big) ⸻ 2. ループの数式フロー 1. 行動選択 \[ a_t = \underset{a}{\arg\max}\;A_t(a) = \arg\max_a\,f_a\big(u_t, M_t, a\big) \] 2. 環境遷移・内部状態更新 x_{t+1} = E(x_t, a_t),\quad u_{t+1} = U(u_t, a_t, x_{t+1}) 3. 報酬計算 r_t = R\big(x_{t+1},u_t\big) 4. 記憶更新 M_{t+1} = M_t \cup \{(x_t, u_t, a_t, r_t)\} 5. 目的の再決定 P_{t+1} = f_p(u_{t+1})
ちょっと数式とかおかしいかもしれませんがなんとか。