研究成果 1998 2019

フィルター
レター
2016
1 引用 (Scopus)

An online policy gradient algorithm for Markov decision processes with continuous states and actions

Ma, Y., Zhao, T., hatano, K. & Sugiyama, M., 3 1 2016, : : Neural Computation. 28, 3, p. 563-593 31 p.

研究成果: ジャーナルへの寄稿レター

Markov Chains
Learning
Emotions
Reward
Decision Making