本文へスキップ
Best AI Service

Voker vs Langfuse vs LangSmith vs PostHog【2026年版】AI agent analytics と ROI 可視化はどれを選ぶべきか

Voker、Langfuse、LangSmith、PostHog を、AI agent analytics、ROI 可視化、self-serve insights、observability、self-hosting、価格で比較。導入後の改善指標を追いたい PM・Platform・CS 向けに整理します。

公開: 最終確認: 2026年5月20日
最終確認: 2026年5月20日 根拠: 24件の公開情報 確認メモを見る 編集方針
Voker、Langfuse、LangSmith、PostHog の AI agent analytics / ROI 比較イメージ

先に結論

この4つは全部「AI agent を改善するための分析」に見えますが、主語がかなり違います。

  • PM / CS / BizOps まで含めて、agent が本当に成果を出しているかを self-serve で見たいVoker
  • 開発チームが trace / session / token / eval を見ながら agent を直したいLangfuse
  • LangChain / LangGraph 周辺も含めて monitoring / alerts / insights を強く回したいLangSmith
  • 既存の product analytics と revenue 指標へ agent event を join したいPostHog

つまり今回の論点は、どの observability ツールが一番賢いか ではありません。agent の結果を誰が見て、どの意思決定に使うか です。

AI agent の trace / observability そのものを比較したいなら、先に New Relic vs Datadog vs Arize Phoenix vs Langfuse を見ると位置づけが分かりやすいです。導入後の admin analytics という観点では ChatGPT Workspace analytics vs Microsoft 365 Copilot Dashboard vs Gemini for Workspace も近いです。

なぜ今この比較が重要か

AI agent の導入は、もう「返答できるか」だけでは差が出ません。

今のボトルネックは、その後です。

  • どの intent で失敗しているのか
  • correction が多いのはどの flow か
  • resolution は改善しているのか
  • 売上や retention に本当に効いているのか
  • その数字を誰がどの画面で見るのか

ここで混同しやすいのが、observabilityanalytics です。

  • observability は「agent が何をしたか」「どこで壊れたか」を追う
  • analytics は「それが成果にどうつながったか」「誰が次の判断をするか」を見る

Voker は後者を強く前に出しています。公式でも self-service analytics、business impact、intents / corrections / resolutions を押し出していて、PM / CS / BizOps が見に行く画面として整理しやすいです。

一方で Langfuse と LangSmith は、trace、monitoring、eval、alerts のような開発・運用改善レイヤー が主戦場です。PostHog はさらに違って、agent-native の専用指標を最初から持つというより、既存 product analytics の母艦に agent event を混ぜる 方向が強いです。

比較表

比較軸VokerLangfuseLangSmithPostHog
主戦場AI agent analytics / ROILLM / agent observabilityAI agent observability + monitoringProduct analytics / warehouse
一番強い価値PM / CS / BizOps が self-serve で見やすいtracing・sessions・self-hosttracing・alerts・insights・evalfunnel / retention / revenue と join しやすい
主要指標intent、correction、resolution、business impacttrace、session、token / cost、evaltrace、monitoring、trajectory、insightsevents、funnels、retention、warehouse data
誰が主に見るかPM、CS、BizOps、product leadershipPlatform、AI engineer、applied MLAI engineer、platform、opsproduct analyst、growth、data team
self-hostingありOSS self-host あり公開情報上は主に cloud 中心MIT self-host あり
価格の見えやすさFree $0 / Starter $80 / Agent First $400Free / $29 / $199 / $2,499Developer $0/seat + usagefree tier 1M events / usage-based
向いている段階本番 agent が走り、成果説明が必要tracing を入れて改善ループを回したいmonitoring / alerts まで強く回したい既存 analytics 基盤に agent を載せたい

4者の違いを先に整理する

Voker は「trace を読む人」ではなく「成果を判断する人」のための画面を作る

Voker の良さは、agent を debug すること自体よりも、agent が役に立っているかを組織で共有しやすいこと です。

公式で前面に出ているのは次です。

  • self-service analytics
  • business impact
  • intents
  • corrections
  • resolutions
  • high interaction volume / multi-turn / RAG / tool use / MCP 前提
  • Langfuse、LangSmith、PostHog、Mixpanel、Amplitude と並存可能

ここが重要です。Voker は「Langfuse を置き換える observability」より、Langfuse や PostHog の上に乗る business-facing analytics として読む方が正確です。

向いているのは、たとえば次です。

  • support agent の resolution rate を上げたい
  • PM が feature 改善優先度を決めたい
  • CS が friction や rage-quit を見たい
  • BizOps が AI 投資の成果を説明したい

この文脈では、trace を1本ずつ読むより、誰でも見られる outcome dashboard の価値が大きいです。

Langfuse は「まず tracing 基盤をちゃんと作る」なら強い

Langfuse は、AI agent の挙動を理解するための土台を整えるのに強いです。

公式 docs / pricing で読み取りやすいのは、

  • traces and graphs
  • session tracking
  • user tracking
  • token and cost tracking
  • OpenTelemetry
  • prompt management
  • evaluation
  • cloud と self-hosted の両方

です。

特に強いのは、self-hosting の分かりやすさ です。Cloud pricing と Self-hosted pricing が分かれていて、OSS で core 機能を self-host し、enterprise で RBAC、audit logs、retention policy を足す線引きが見えやすいです。

なので Langfuse は、

  • まず traces / sessions / cost を揃えたい
  • できれば OTel ベースで lock-in を減らしたい
  • self-host や data governance を重視したい
  • そのうえで prompt / eval まで伸ばしたい

という組織でかなり筋が良いです。

LangSmith は「agent を直すための monitoring / insights」を強く回しやすい

LangSmith は observability の中でも、monitoring と insights の見せ方 が強いです。

公式ページでは、

  • tracing
  • monitoring
  • cost tracking
  • online evals
  • tool and agent trajectory monitoring
  • webhook / PagerDuty alerts
  • unsupervised topic clustering
  • error analysis templates

を前に出しています。

この時点で、LangSmith の主語はかなり明確です。PM 向けの business dashboard というより、agent を本番で回しながら改善するチームの operating console です。

LangChain / LangGraph との相性も読みやすいので、

  • agent failures を早く見つけたい
  • online evals と monitoring をつなげたい
  • trace だけでなく issue clustering や alerting まで欲しい

というチームには自然にハマります。

PostHog は「agent analytics 専用ツール」ではなく「既存KPIとつなぐ母艦」として強い

PostHog は、この4つの中でかなり異質です。

PostHog の強みは、

  • product analytics
  • funnel / retention
  • integrated data warehouse
  • generous free tier
  • self-hosting (MIT)

です。

つまり PostHog は、agent-specific な intent / resolution / correction を最初から深く持つというより、agent に関するイベントを既存のプロダクト指標へ接続できること が価値です。

たとえば次のような組織には強いです。

  • すでに PostHog で signup → activation → retention を追っている
  • AI support の会話後に conversion が上がったか見たい
  • data warehouse とつないで revenue を join したい
  • self-hosted analytics 基盤を維持したい

逆に、PM や CS がすぐ使える agent-native dashboard を最初から期待すると、イベント設計が必要になります。

実務で本当に見るべき選定軸

1. 誰が daily に見るか

ここが最重要です。

  • PM / CS / BizOps / leadership が daily に見る → Voker
  • Platform / AI engineer / applied ML が daily に見る → Langfuse / LangSmith
  • product analyst / growth / data team が既存基盤で見る → PostHog

この分け方を曖昧にすると失敗しやすいです。開発向け trace UI を PM に渡しても使われませんし、business dashboard だけで根本原因を直すのも難しいです。

2. まず欲しいのが「根本原因」か「成果説明」か

  • 根本原因を追いたい → Langfuse / LangSmith
  • 成果説明をしたい → Voker
  • 既存 funnel / retention / revenue と join したい → PostHog

ここは順番の話でもあります。多くのチームは最初に observability を入れ、そのあと business analytics が欲しくなります。ただ、すでに本番運用が進んでいて PM / CS の不満が先に出ているなら、Voker を先に入れる判断もあります。

3. self-hosting / governance をどこまで重視するか

この軸では LangfusePostHog がかなり分かりやすいです。

  • Langfuse: OSS self-host、enterprise RBAC、audit logs、retention policy
  • PostHog: MIT self-host、Cloud と同一プロダクト系譜

Voker も self-hosting available を打ち出していますが、enterprise governance の細部は商談前提です。LangSmith は公開情報上だと cloud の見え方が中心です。

4. 既存スタックとの関係

Voker の公式でも「Works alongside Langfuse, LangSmith, PostHog, Mixpanel, Amplitude」と明示されています。

つまり Voker は、それらを捨てて置き換える前提ではない 可能性が高いです。

この見方をすると導入判断がかなり楽になります。

  • tracing / eval 基盤は残す
  • product analytics 基盤も残す
  • その上で AI agent 専用の self-serve analytics を足す

この構成が一番自然な組織は多いです。

どのチームにどれがおすすめか

Voker がおすすめのチーム

  • AI support / conversational AI がすでに本番で動いている
  • PM、CS、BizOps が同じ数字を見たい
  • intent、correction、resolution を business impact に変換したい
  • support quality や revenue contribution を人に説明する必要がある

Langfuse がおすすめのチーム

  • agent observability を OTel ベースで整えたい
  • traces、sessions、token / cost tracking をまず揃えたい
  • self-hosting や retention policy が必要
  • prompt management / eval まで一体で伸ばしたい

LangSmith がおすすめのチーム

  • LangChain / LangGraph 系の stack を使っている
  • monitoring / alerts / online evals を強く回したい
  • trace を読むだけでなく failure mode を自動で見つけたい
  • 本番運用の改善速度を上げたい

PostHog がおすすめのチーム

  • すでに product analytics / growth / warehouse の中心が PostHog
  • agent event を conversion / retention / revenue と join したい
  • event 設計を自前で持てる data team がいる
  • self-hosted analytics 基盤を継続したい

迷ったときの選び方

最初に1つだけ入れるなら

  • 本番の成果説明が先に必要Voker
  • まず agent を壊さず改善したいLangfuseLangSmith
  • すでに PostHog が全社標準PostHog

2レイヤー構成にするなら

一番自然なのはこの組み合わせです。

  1. Langfuse or LangSmith で trace / monitoring / eval
  2. Voker or PostHog で business analytics / ROI

この分け方だと、開発チームと business チームがそれぞれ必要な画面を持てます。

まとめ

AI agent analytics の比較は、単なる observability 比較ではありません。

  • Voker は outcome と ROI を self-serve で見せる
  • Langfuse は tracing と governance を整える
  • LangSmith は monitoring / insights / eval を強く回す
  • PostHog は product analytics と revenue 指標へつなぐ

一番ありがちな失敗は、debug 用の画面で business 判断をしようとすること です。逆に、business dashboard だけで agent を直そうとすること も危険です。

なので最初に決めるべきなのは、どのツールが一番多機能かではなく、誰が何を見て、どの改善ループを回すのか です。

最後に確認すること

PM / CS / BizOps まで含めて self-serve で AI agent ROI を見たいなら Voker が最初に刺さりやすいです。開発チームが trace / eval / monitoring を起点に改善するなら Langfuse か LangSmith、すでに PostHog を全社の分析基盤にしていて agent event を funnel や retention と join したいなら PostHog が自然です。

向いている人

  • ・AI support / conversational AI / product agent をすでに出していて、resolution・correction・revenue まで含めて改善指標を見たい PM・CS・BizOps
  • ・Langfuse / LangSmith / PostHog のどれで十分か、それとも agent analytics 専用レイヤーとして Voker を足すべきか判断したい buyer
  • ・trace/debug だけでなく、誰がどの画面で agent の成果を見るべきかを整理したいチーム

避けたい人

  • ・モデル性能ランキングや RAG 精度比較だけ知りたい人
  • ・LLM observability と business analytics の違いを分けずに、1つで全部済ませたい人
  • ・AI agent をまだ本番投入しておらず、会話量も少ない PoC 初期チーム

確認メモ

根拠、確認日、まだ扱っていない範囲を本文の後ろにまとめています。

編集方針を見る

確認日

2026年5月20日

確認ソース数

24件

編集責任

@best-ai-service-editorial-review

研究責任 @best-ai-service-research / 編集責任 @best-ai-service-editorial-review

Verification links

まず開く公式リンク

公式発表、Docs、Pricing など、導入判断で先に見るリンクだけを残しています。

official source reviewpricing page reviewinternal link consistency review

確認した公開情報

  • official product page
  • official pricing page
  • official docs
  • existing internal comparison posts

比較観点

  • self-serve analytics
  • debug and observability depth
  • business KPI connectivity
  • self-hosting and governance

まだ扱っていないこと

  • • 各社の今後の native revenue attribution や warehouse templates の追加時期
  • • LangSmith 上位プランの retention / RBAC の細かい制限差分