研究計画 · 2026-07-02 更新 · 対象: motion生成/拡散モデル/強化学習の概念を知る読者

Effect-Grounded Motion (EGM)

「ドアを開けて」という指示と部屋の3D形状から、実際にドアが開く人間の動きを生成できるモデルを作る。鍵となるアイデアは、生成した動きを物理シミュレータの中で再生し、世界に起きた変化(=効果)を教師信号にして生成モデル自体を育てること。目標は CVPR 2027(締切 2026年11月中旬)。

閉ループの成立を実証済み(成功率 0% → 75% → 100%) 現在: 未知のシーンへの汎化に取り組み中

Goal

目指すもの: 「見た目が良い動き」ではなく「機能する動き」

入力 「ドアまで歩いて開けて」 + 部屋の3D点群 motion 生成モデル (拡散モデル) 出力 全身の動き(骨格の軌道) → ドアが実際に開く
図1 · 最終形。ロボット制御器を介さず、生成モデルが直接「タスクを達成する動き」を出せるようにする。良い動きの生成モデルは、アニメーション・ヒューマノイドの教師データ・VR など下流にそのまま使える。

State of the art

先行研究ができていること / できていないこと

✓ できている指示文から自然な動き「歩く」「座る」等の文から、人間らしい動きを生成できる(MDM 以降の text-to-motion 拡散モデル群)。NVIDIA の Kimodo(我々の土台)はその公開最新版。
✓ できているシーンに幾何的に沿わせる壁にめり込まない・床に足が着く・物体の近くに座る、といった形の整合SceMoS, LINGO など)。
✗ できていないタスクを本当に達成したか「ドアが開いたか」「物が目的地に着いたか」は誰も測っておらず、学習信号にも使っていない。評価は見た目の自然さ(FID等)か幾何整合止まり。
図2 · 現状の到達点。3列目が本研究の標的。原因は2つ: (1) 「文 × シーン × 動き」の3点セットで、しかもタスク達成が記録されたデータがほぼ存在しない(最大級の実写データセットでもドアは「開かない壁の穴」として記録されている)。(2) 達成判定には物理が必要だが、物理は微分できないので普通の学習に組み込めない。

近い研究はどこまで来ているか(2025–26)

「シミュレータを学習に使う」研究は増えているが、「タスク達成度を報酬にして、生成モデル本体を育てる」組み合わせはまだ空白。下の表は最近接の5本と、何が違うか。

研究やったこと我々との違い
RLPF (2025)「ロボットが追従できる動きか」を報酬に、生成モデルを強化学習で調整報酬は動きの実行しやすさ(見た目系)。物体・シーン・タスク達成は見ていない
SimGenHOI (2025)生成モデルとロボット制御器を交互に鍛える。物体運搬の成功率も報告成功は「生成+制御器」の合わせ技の成績。使う時も制御器が必須で、生成モデル単体は育たない
PhyMotion (2026)生成動画から人の動きを取り出しシミュレータで採点、動画モデルを調整機構はほぼ同じだが、採点軸は全部「物理的に不自然でないか」。タスク達成は測らない
VLK (2026, Amazon)実部屋のスキャン内で動きを合成→視覚付きデータ4.8万本→実機ヒューマノイドで動作データの質チェックは「めり込み除去」のみで、生成モデルは一度学習したら固定。タスク達成は評価にだけ使う。むしろ我々の改善したモデルの出口になる補完研究
SceMoS (CVPR'26)シーン適合motion生成の最新最強(教師あり)シミュレータも達成判定も無し。我々の最重要比較対象

Method

我々の方法: 生成 → 物理で採点 → 良いものだけで再学習、を回す

1 · 生成モデルに「経由地点」を指定してドア付近を通る動きを大量に作らせる(拡散モデル純正の条件付け機能。探索用で、完成品では不要
2 · 物理再生動きをシミュレータ内の人体で再生。物体(ドア等)は物理法則で応答する
3 · 採点と選別採点は2段: 効果(ドアが60°以上開いたか)と自然さフィルタ(めり込み・転倒・関節の詰まりを弾く)。両方合格だけ残す
4 · 再学習合格した動きでモデルを追加学習。元モデルを先生役に置く工夫で、言語理解を壊さずに新しい能力だけ足す
5 · 評価学習に使っていない配置で、経由地点の指定なしにタスク成功率を測る
↺ 4で賢くなったモデルで1に戻る(回すたびに収穫の質も上がる)
図3 · 学習ループ。ポイントは「シミュレータは学習時だけの審判で、完成したモデルは指示文とシーンだけで動く」こと。審判は無限に、無償で、自動でラベルを付けてくれる。

自然さフィルタが要る理由(ズル防止)

シミュレータ内の人体は「無限の力」を出せるため、体でドアをなぎ倒しても「開いた」ことになってしまう。実測では、素のモデルの「成功」は全てこの type のズルだった(下表)。フィルタはこのズルを学習データから排除する安全装置で、本手法の生命線。

観察数値意味
素のモデルの「ドア開き成功」25%ただし全て体当たり(体がドアに15cmめり込む)
うち「自然さも合格」した成功0%見た目の自然さとタスク達成は別物という証拠。これ自体が論文の主結果の1つ

Why us

なぜ解決できると考えるか — 3つの根拠(全て実測済み)

根拠1: 閉ループが実際に回った(成功率 0% → 75% → 100%)

固定シーンでの実測。学習前は一切開けられなかったドアを、ループ2周(データ 185本・追加学習は計 30 分程度)で毎回開けられるようになった。言語理解の劣化はゼロ(多様な指示文への反応が学習前後で 100–102% を維持)。

根拠2: 教師データを無限に作れる「工場」が動いている

ドアの位置と向きをランダムに変えた 64 シーンで経由地点付き生成を行うと、80% が合格品(256本中205本)として収穫できた。人手のモーションキャプチャでは1シーン分の収録に日単位かかるものが、GPU 1枚・数分で「シーン × 指示文 × 達成済みの動き」の3点セットとして量産できる — データ希少性というこの分野の根本問題を反転させる装置になっている。

根拠3: 物理の審判は、幾何チェックでは見えない誤りまで検出する

実例: 開発中、収穫が3回連続で全滅した。原因は「ドアは片側にしか開かない」のに、生成した人が開かない側から押していたこと。めり込みや接触などの幾何チェックでは原理的に検出できない誤りを、「押しても蝶番の角度が 0° のまま」という物理効果が一発で暴いた。効果信号の情報量を示す好例で、論文の逸話としても使う。

正直な現在地

未知のドア配置への汎化はまだ弱い(学習に使っていない16配置での成功率 8.6% — 何もしない場合の 0〜2% よりは明確に高いが目標の 30% には未達)。対照実験3本で原因を「シーン情報の読み取り学習の量不足」と特定済みで、データを 6 倍に増やした学習を実行中。ここが今の主戦場。

関連研究リスト(リンク付き)

役割研究一言
比較対象(シーン適合生成)SceMoS · CVPR'26最強の教師ありシーン適合。我々の採点器に通して「幾何は合うが達成しない」ことを示す相手
LINGO · SIGGRAPH Asia'24指示文→シーン内行動の連鎖生成 + データセット
データセットTRUMANS · CVPR'24最大級の人×シーン同時計測。ただし物体は固定でドアの開閉記録なし
ParaHome · CVPR'25唯一、ドア角度など「物体の状態変化」を記録。ただし1部屋のみ
Nymeria+ · 2026最大の実世界モーション。ドアは「開かない開口部」として記録 = データ希少性の核心的証拠
RoboCasa · RSS'24シミュレータ内キッチン+タスク達成判定器。我々の判定器設計の参照元
生成モデル×強化学習RLPF · 2025報酬=追従可能性。生成モデルを sim 報酬で育てた先行例(報酬が違う)
SimGenHOI · 2025生成×制御器の相互学習(制御器が主役)
PhyMotion · 2026同じ機構を動画モデルに(報酬は自然さのみ)
Morph / CLoSD物理での修正・追跡はするが、生成モデルに学習として戻さない
下流・補完VLK · 2026合成モーション→実機ヒューマノイド。我々の改善モデルの「出口」の実在証明
Kimodo · NVIDIA 2026我々の土台となる公開 motion 拡散モデル(シーンは扱わない、と明記されている)
部品Eureka 系 · 2023–LLM に採点基準を書かせる路線。我々のタスク自動拡張(フェーズC)の部品
Sonata · 2025点群→特徴ベクトルの事前学習エンコーダ。シーン入力の変換に使用

このほか SimDiff (2509.20927)・TEXEDO (2606.22998)・REFINE-DP (2603.13707)・EasyTune (2602.07967) など計20本超を精査済み。詳細ノートは Obsidian の Papers/ にある。

Plan

計画とマイルストーン

段階期間内容合格条件と状態
基盤7月学習ループ一式の実装(人体モデル移植・再学習器・探索)完了(予定より1ヶ月早い)
閉ループ実証8月固定シーンで成功率が回すたびに上がることを示す完了 — 0%→75%→100%(2ヶ月前倒し)
シーン汎化現在部屋の3D形状を入力に加え、未知の配置でも成功させる進行中 — 現在8.6%、目標30%。データ6倍の学習を実行中
スケールと信頼性9–10月タスクを5–6種類に拡張(引き出し・押し運び・着座など)· 既存手法を我々の採点器で測る比較 · 採点器自体の信頼性検証(人間との一致率など)タスク4種以上 + 比較2本以上
仕上げ10–11月ユーザースタディ · 分析実験 · 執筆11/13 投稿

Glossary

用語ミニ辞典

本ページの言葉分野での呼び名意味
motion 生成モデルmotion diffusion prior指示文などから人の動き(骨格の時系列)を作る拡散モデル
経由地点の指定guidance / constraint「このフレームで root がこの座標」を生成時に条件として与える機能。探索専用で完成品には不要
選別して再学習するループReST(rejection-sampling self-training)自分の出力を審査して合格品だけで再学習する自己改善法。LLM で実績のある枠組み
元モデルを先生役に置く工夫anchor self-distillation追加学習中も「元のモデルの答え」に近さを保つ項を混ぜ、言語理解の破壊(破滅的忘却)を防ぐ
自然さフィルタplausibility gateめり込み・転倒・関節の詰まりを検出して不合格にする物理チェック。ズル(reward hacking)防止
シーンの要約ベクトルscene tokens(Sonata)部屋の点群を事前学習エンコーダで 64 個のベクトルに圧縮し、生成モデルの入力に追加したもの
タスク成功率task success rate「効果あり(例: ドア60°以上)かつ自然さ合格」の割合。学習に使っていない配置・乱数で測る