先に結論
自律SWE agent を 4 つ並べるとき、まず押さえるべきなのは どれが一番賢いか ではなく、どこで動き、誰が境界を管理し、どこまで自律で進めさせるか です。
ざっくり整理するとこうです。
- open-swe: OSS を自前で伸ばしながら、GitHub issue → cloud sandbox → PR の async フローを作りたい人向け
- Claude Code: ローカル CLI で、長時間の実装委譲や大きいコードベースの調査 を人間と並走して進めたい人向け
- Codex: approval policy / sandbox / compliance を管理者主導で設計したい組織向け
- GitHub Copilot coding agent: GitHub 上の監査性・レビュー性・導入説明のしやすさ を最優先したいチーム向け
つまり、
- OSS を触りながら autonomous SWE を自社流に育てたい → open-swe
- CLI 主体で重い実装を塊で任せたい → Claude Code
- trust boundary を制度として作りたい → Codex
- GitHub 中心でレビューと監査を自然に回したい → GitHub Copilot coding agent
この切り方を先に持っておくと、比較がかなりブレにくくなります。
広い監査性比較は GitHub Copilot coding agent vs Claude Code vs Codex、継続運用まで広げたい場合は AIコーディングの定期実行ツール比較、もっと普段使い寄りなら Cursor vs GitHub Copilot vs Claude Code も合わせて見ると判断しやすいです。
なぜ今この比較が重要か
2026年3月時点で、autonomous SWE agent の比較は一段変わりました。
LangChain の open-swe は、open-source の asynchronous coding agent として、GitHub issue から cloud sandbox で動き、計画、実装、テスト、レビュー、PR 作成まで進める構成を前面に出しています。つまり「OSS でも Devin 的な async agent を作れるのか」という関心が一気に現実味を帯びました。
同じタイミングで、Anthropic、OpenAI、GitHub 側もそれぞれ違う方向で完成度を上げています。
- Anthropic は Claude Code を、長文コンテキストと CLI 主体の実装委譲で磨いている
- OpenAI は Codex を、sandbox、approval policy、managed policy、Compliance API まで含めた運用設計で押し出している
- GitHub は Copilot coding agent を、validation tools、session logs、Agent-Logs-Url trailer などでレビュー・監査導線ごと強化している
つまり今の論点は、単なる「agent がコードを書くか」ではありません。
- どこまで自律実行できるか
- approval を誰が持つか
- sandbox を誰が管理するか
- 後から何を追跡できるか
- 組織運用へどう載せるか
この 5 点が、採用判断の本丸になっています。
比較表
| 比較軸 | open-swe | Claude Code | Codex | GitHub Copilot coding agent |
|---|---|---|---|---|
| 主な立ち位置 | OSS の async coding agent / framework | ローカル CLI 型 coding agent | policy-first な coding agent | GitHub 一体型 coding agent |
| 自律実行範囲 | issue → plan → code → test → review → PR まで広い | 長い実装委譲は強いが人間並走が前提 | cloud / local で広い。approval policy で調整しやすい | GitHub issue / PR 起点の cloud 実行が強い |
| approval の考え方 | 自前で設計。plan review を挟みやすい | human-in-the-loop が基本 | sandbox / approval policy を明示設計 | GitHub 上の review / validation / logs で補強 |
| sandbox / 実行境界 | cloud sandbox を自前管理しやすい | 基本はローカル環境 | sandbox mode を管理者が設計しやすい | GitHub 側の管理境界で動かしやすい |
| auditability | 自前で作れるが責任も自分たち | ローカル運用次第 | Compliance API 含め強い | session logs / commit trail が強い |
| OSS / 拡張性 | 非常に高い | 中 | 低〜中 | 低 |
| GitHub レビュー導線との一体感 | 強いが自前実装寄り | 中 | 強い | 非常に強い |
| 導入のしやすさ | 低〜中 | 中 | 中 | 高い |
| 向いているチーム | 自前基盤を持ちたい組織 | CLI で重い委譲を回したい開発者 | 企業統制を細かく設計したい組織 | GitHub 標準運用を崩したくない組織 |
4者の違いを最初に整理する
open-swe は「open-source で async SWE agent を持ちたい人」の選択肢
open-swe の価値は、単に OSS であることではありません。重要なのは、GitHub issue を起点に、cloud sandbox で長時間非同期実行し、計画とレビューまで含めて PR に戻す という、いまの autonomous SWE agent の主要パターンを open-source で扱えることです。
LangChain の公開情報では、open-swe は次の性格を強く持っています。
- GitHub と直接つながる
- issue や UI からタスクを起動できる
- sandbox 内でコード編集、テスト、web 調査まで進める
- planner / programmer / reviewer を分けた multi-agent 的な流れを持つ
- 最後に PR を開いて人間レビューへ戻す
ここが刺さるのは、agent を導入したいだけでなく、agent 基盤そのものを自社流に育てたい組織 です。
逆に言うと、open-swe は「いちばん手軽な完成品」というより、自前の trust boundary と運用を握りたい人のための土台 です。なので、SaaS と比べると導入そのものより 運用責任を引き受ける覚悟 が必要です。
Claude Code は「ローカルで深く委譲したい人」の選択肢
Claude Code の強みは、cloud async そのものではなく、自分の実際のリポジトリとローカル環境を前提に、重い実装を塊で任せやすいこと にあります。
特に効くのは、
- 複数ファイルをまたぐ修正
- 設計整理と実装を行き来するタスク
- 長いコード文脈を読み込ませたいケース
- 開発者が横でレビューしながら前進したいケース
です。
つまり Claude Code は、open-swe のように「issue を投げて別画面で待つ」より、ターミナルで一緒に走る強い相棒 と見るとズレにくいです。
非同期ジョブや background 運用を主役にしたいなら AIコーディングの定期実行ツール比較 も見たほうがよく、Claude Code の本質は今でも ローカル CLI の深い委譲体験 にあります。
Codex は「trust boundary を制度化したい組織」の選択肢
Codex の価値は、単なる自律実行ではなく、どこまで自律実行してよいかを管理者が policy と sandbox で定義しやすいこと にあります。
OpenAI の enterprise 向け公開情報では、少なくとも次の論点が重要です。
- approval policy
- sandbox mode
- managed policy
- RBAC
- Compliance API
この特徴により Codex は、Claude Code のような developer-first な快適さとも、open-swe のような OSS ベースの自由度とも少し違います。
主戦場は、企業が agent に渡してよい境界を先に決めたい場面 です。
たとえば、
- 通常ユーザーは限定 sandbox
- 一部だけ広い権限
- web や MCP は許可範囲を限定
- 利用ログは監査系システムへ集約
のような制度設計に持っていきやすいです。
GitHub Copilot coding agent は「GitHub 上で完結しやすい運用」の選択肢
GitHub Copilot coding agent の一番大きい強みは、生成性能そのものより、GitHub の issue / PR / review / logs と一体になっていること です。
2026年3月の公開情報では、GitHub は validation tools の個別設定、session logs の可視性強化、agent-authored commit から logs に戻れる Agent-Logs-Url trailer などを打ち出しました。
これが意味するのは、単純に「動くコードが出る」ことではありません。
- 何をしたか見える
- どんな検証が走ったか見える
- commit から logs に遡れる
- レビューを GitHub の流れの中で閉じやすい
つまり Copilot coding agent は、承認したあとを説明しやすい のが非常に強いです。
監査性だけをさらに深掘りしたい場合は GitHub Copilot coding agent vs Claude Code vs Codex|監査性・安全性・レビュー運用で選ぶ も読むと、差がより鮮明になります。
5つの比較軸で見る
1. 自律実行範囲
open-swe は、issue から PR までの async フローを最もストレートに体現しています。タスクを投げ、planner が計画し、programmer が実装し、reviewer が見直し、最後に PR へ返す構成がわかりやすいです。
Codex も自律実行範囲はかなり広いですが、強みは「どこまで任せるかを policy で切れること」です。単なる autonomy 競争ではなく、許可された autonomy を作りやすい点が価値です。
GitHub Copilot coding agent は GitHub issue / PR ベースの cloud 実行が自然で、既存ワークフローに寄せやすいです。ただし「完全に自社仕様へ作り込めるか」という意味では open-swe ほど自由ではありません。
Claude Code は長時間委譲に強い一方で、基本の魅力は async SaaS というより 人間と一緒に深く進めること です。ここを取り違えると、期待がズレます。
2. approval と trust boundary
この比較で最も差が出るのがここです。
open-swe は自前実装なので、approval は自分たちで設計します。planner 承認を挟む、人間が途中でメッセージを差し込む、PR 前レビューを厚くする、など柔軟ですが、責任も自分たちにあります。
Claude Code は、human-in-the-loop を強く残したまま深い実装を進めやすいのが特徴です。つまり trust boundary は 人間の並走 に寄っています。
Codex は、trust boundary を 管理者設定 として前に出せるのが本質です。ここを重視する企業ではかなりハマります。
GitHub Copilot coding agent は、approval policy を CLI 的に細かく見せるというより、GitHub の review / validation / logs を厚くすることで境界管理を実現するタイプです。
3. sandbox と実行環境
open-swe は cloud sandbox を前提にしやすく、OSS として sandbox provider まで含めて差し替え可能な設計が魅力です。これは並列実行や blast radius の制御に効きます。
Claude Code はローカル環境前提なので、コードや認証が手元から出にくいメリットがあります。その代わり、実行境界の設計はローカル環境の hygiene に依存します。
Codex は sandbox を明示的に運用設計の一部に組み込みやすく、ここが enterprise 文脈でかなり強いです。
GitHub Copilot coding agent は GitHub の managed な文脈へ寄せて考えやすく、導入説明が比較的簡単です。
4. auditability と再現性
監査性で最もわかりやすいのは GitHub Copilot coding agent です。session logs、validation tools、commit から logs へ戻る導線まで含め、あとから追う経路 が強いからです。
Codex は Compliance API や policy 管理まで含めて、監査を組織システムへ寄せやすいのが魅力です。
open-swe は auditability を高く作れますが、それは「最初から完成している」ではなく 自分たちで整備する自由がある という意味です。よくも悪くも、完成度は運用チーム次第です。
Claude Code は GitHub 一体型のログ導線とは別物で、監査の主戦場が GitHub 画面内に閉じていません。なので、深い委譲は強い一方、標準化された監査導線だけで見ると Copilot や Codex に譲る場面があります。
5. 導入と継続運用のしやすさ
ここは素直に、GitHub Copilot coding agent が最も入りやすいです。既存の GitHub ワークフローにそのまま寄せやすく、レビューアーや管理者への説明もしやすいからです。
Claude Code は開発者個人や小規模チームではかなり強いですが、全社標準として広げるときは CLI 前提の運用教育が要ります。
Codex は制度設計の自由度が高いぶん、最初から全員に広げるには設計コストがかかります。ただし、統制が必要な組織ではそのコストに意味があります。
open-swe は一番自由ですが、一番「導入して終わり」にしづらいです。運用、保守、sandbox、GitHub 連携、評価の改善まで自分たちで回す前提になります。
どのチームにどれが向くか
open-swe が向くチーム
- 自前の coding agent 基盤を持ちたい
- GitHub issue から PR までの async 実行を OSS ベースで作りたい
- sandbox provider や tool を自分たちで差し替えたい
- agent の UX や orchestration まで含めて研究・改善したい
要するに、完成品を買うより agent を自社の武器にしたいチーム 向けです。
Claude Code が向くチーム
- ローカルで深いコード理解をさせたい
- 大きめの実装や調査を塊で任せたい
- CLI 主体でも問題ない
- 完全放置より人間の並走を残したい
つまり、一緒に走る強い実装相棒 が欲しいチームに向きます。
Codex が向くチーム
- approval policy を先に決めたい
- sandbox、RBAC、Compliance API を重視する
- 企業統制やガバナンス要件が強い
- agent を制度として配りたい
つまり、agent の便利さより境界管理を先に設計したい組織 向けです。
GitHub Copilot coding agent が向くチーム
- すでに GitHub が開発の中心
- レビュー、監査、導入説明を最優先したい
- issue / PR / logs を同じ場所で見たい
- 標準導入しやすさを重視したい
つまり、まず失敗しにくく広げたい組織 に最も向いています。
迷ったときの選び方
最短で決めるなら、次の順で考えると失敗しにくいです。
- 自前基盤を持ちたいか
- Yes → open-swe
- No → 次へ
- trust boundary を管理者が制度化したいか
- Yes → Codex
- No → 次へ
- GitHub 上のレビュー・監査導線を最優先するか
- Yes → GitHub Copilot coding agent
- No → Claude Code
かなり乱暴に言うと、
- open-swe = 自前で作る
- Codex = 境界を設計する
- Copilot = GitHub で運用する
- Claude Code = ローカルで深く進める
です。
まとめ
4者比較で一番大事なのは、自律性の強さそのものではなく、誰がその自律性を管理するか です。
- open-swe は OSS ベースで autonomous SWE 基盤を自社流に育てたい人向け
- Claude Code はローカル CLI で重い実装を深く委譲したい人向け
- Codex は policy / sandbox / compliance を制度として設計したい組織向け
- GitHub Copilot coding agent は GitHub 上のレビュー・監査・導入説明を最優先したい組織向け
もし最初の 1 本を選ぶだけなら、企業導入では GitHub Copilot coding agent が最も説明しやすく、研究開発や自前基盤志向なら open-swe が最も面白い です。重い実装委譲の生産性を今すぐ上げたいなら Claude Code、より強い統制設計が必要なら Codex を軸に考えるとブレにくいです。