強化学習とは

AIが特定の環境の中で試行錯誤を繰り返し、長期的に最大の報酬を得られる行動を学習する手法。
結果に対して「報酬」や「罰則」という形でフィードバックを受けながら、最適な行動戦略を自律的に見つけ出す。

教師あり学習のように正解ラベルが与えられるわけではなく、また教師なし学習のように単にデータの構造を探索するのでもない。環境との相互作用を通じて「どのように行動すればよいか」を学んでいく点に特徴がある。

代表的な応用例としては、囲碁や将棋のAI、ロボット制御、自動運転などが挙げられる。

四字熟語 強化学習
読み きょうかがくしゅう
英訳 Reinforcement learning
使用漢字
最終更新日:2025年9月20日