令和6年度 学際共創プロジェクト【システムデザイン部門・環境イノベーション】
確率制約付き変分予測最適制御理論および人間運転行動モデルへの拡張
研究代表者: 瀋 迅(工学研究科)
研究分担者: 森田 浩(情報科学研究科)、高井 重昌(工学研究科)
研究の背景
医療、経済学、自動運転など、安全性が重要となる意思決定問題において、物理システムの運用において安全要件を考慮することが不可欠です。安全性を無視すると、人間やその他の対象に対して深刻なリスクを引き起こす可能性があります。そのため、機械学習や強化学習を活用する際には、学習プロセス自体に安全制約を組み込んだ手法が必要です。
このような背景のもと、安全制約付きデータ駆動型変分予測最適制御問題(または安全強化学習)が近年注目を集めています。このアプローチでは、運用段階での方策の安全性を保証することが期待されています。安全制約付き変分予測最適制御問題は、通常、制約付きデータ駆動型変分予測最適制御問題として定式化され、方策は安全制約を満たすように最適化されます。このとき、安全制約の定義には複数の方法があり、適用領域に応じて適切な表現を選択する必要があります。例えば、安全制約の表現には、期待累積安全制約(Expected Cumulative Safety Constraint)、即時的な厳密制約(Instantaneous Hard Constraint)、ほぼ確実な安全性(Almost Surely Safe Constraint)、および結合確率制約(Joint Chance Constraint)などがあります。これらのうち、特に結合確率制約は、ある一定の確率で安全要件を満たすことを保証するものであり、確率的な安全性が求められる環境に適しています。
実世界の応用としては、ドローンの軌道計画や惑星探査などが挙げられます。これらのタスクでは、ミッションを有限の時間内に完了させる必要があり、その間に安全要件が高い確率で満たされることが求められます。例えば、ドローンが障害物を回避しながら目的地へ向かう際には、衝突リスクを最小限に抑えつつ、確率的に安全な軌道を選択する必要があります。同様に、惑星探査ミッションにおいても、探査機が障害物を避けながら効率的に移動し、ミッションを安全に遂行することが重要となります。このような状況では、決定論的な制約よりも柔軟な表現が求められ、結合確率制約を適用することで、より実用的な方策を導出できる可能性が高まります。
研究目的
本研究では、確率制約付きデータ駆動型変分予測最適制御問題に対して、新たな方策として二値の確率的方策を提案します。本手法では、エージェントが次の行動を決定する際、二つの行動候補の間で確率的な選択を行います。具体的には、各状態ごとに設定された二つの行動候補のうち、状態に応じて変化する確率に基づき、どちらか一方が選択される仕組みです。この確率的な選択は、理想的なコインではなく、歪みを持つ可能性のあるコインを投げる操作になぞらえることができます。すなわち、各状態において、適切に設定された確率に基づいて、二つの候補のうち一方の行動が選択されます。このような確率的な方策は、従来の決定論的方策とは異なり、より柔軟な意思決定を可能にします。
本年度の成果について、詳しくは活動報告書(PDF)をご覧ください。