Voker は Langfuse / LangSmith の代わりになりますか？

完全な代替ではありません。Voker は intents・resolutions・corrections・business impact を self-serve で見るのが主戦場で、Langfuse / LangSmith は trace・monitoring・eval で agent の挙動を直す側に強いです。多くのチームでは『両方必要か』『どちらを先に入れるか』を判断する方が自然です。

PostHog だけで AI agent ROI を見ても十分ですか？

既存で PostHog に product / revenue / retention イベントが集まっているなら十分な場面があります。ただし intent、resolution、correction のような agent-specific 指標は自前でイベント設計する必要があり、agent team 以外も daily に見るなら専用レイヤーの方が速いことが多いです。

self-hosting を重視するならどれが有力ですか？

公式公開情報ベースでは Langfuse と PostHog が分かりやすいです。Langfuse は OSS self-host と enterprise 機能の線引きが明確で、PostHog も MIT license で self-host できます。Voker も self-hosting available を打ち出していますが、enterprise ガバナンスの細部は商談確認が前提です。

Voker vs Langfuse vs LangSmith vs PostHog【2026年版】AI agent analytics と ROI 可視化はどれを選ぶべきか

先に結論

この4つは全部「AI agent を改善するための分析」に見えますが、主語がかなり違います。

PM / CS / BizOps まで含めて、agent が本当に成果を出しているかを self-serve で見たい → Voker
開発チームが trace / session / token / eval を見ながら agent を直したい → Langfuse
LangChain / LangGraph 周辺も含めて monitoring / alerts / insights を強く回したい → LangSmith
既存の product analytics と revenue 指標へ agent event を join したい → PostHog

つまり今回の論点は、どの observability ツールが一番賢いか ではありません。agent の結果を誰が見て、どの意思決定に使うか です。

AI agent の trace / observability そのものを比較したいなら、先に New Relic vs Datadog vs Arize Phoenix vs Langfuse を見ると位置づけが分かりやすいです。導入後の admin analytics という観点では ChatGPT Workspace analytics vs Microsoft 365 Copilot Dashboard vs Gemini for Workspace も近いです。

なぜ今この比較が重要か

AI agent の導入は、もう「返答できるか」だけでは差が出ません。

今のボトルネックは、その後です。

どの intent で失敗しているのか
correction が多いのはどの flow か
resolution は改善しているのか
売上や retention に本当に効いているのか
その数字を誰がどの画面で見るのか

ここで混同しやすいのが、observability と analytics です。

observability は「agent が何をしたか」「どこで壊れたか」を追う
analytics は「それが成果にどうつながったか」「誰が次の判断をするか」を見る

Voker は後者を強く前に出しています。公式でも self-service analytics、business impact、intents / corrections / resolutions を押し出していて、PM / CS / BizOps が見に行く画面として整理しやすいです。

一方で Langfuse と LangSmith は、trace、monitoring、eval、alerts のような開発・運用改善レイヤー が主戦場です。PostHog はさらに違って、agent-native の専用指標を最初から持つというより、既存 product analytics の母艦に agent event を混ぜる 方向が強いです。

比較表

比較軸	Voker	Langfuse	LangSmith	PostHog
主戦場	AI agent analytics / ROI	LLM / agent observability	AI agent observability + monitoring	Product analytics / warehouse
一番強い価値	PM / CS / BizOps が self-serve で見やすい	tracing・sessions・self-host	tracing・alerts・insights・eval	funnel / retention / revenue と join しやすい
主要指標	intent、correction、resolution、business impact	trace、session、token / cost、eval	trace、monitoring、trajectory、insights	events、funnels、retention、warehouse data
誰が主に見るか	PM、CS、BizOps、product leadership	Platform、AI engineer、applied ML	AI engineer、platform、ops	product analyst、growth、data team
self-hosting	あり	OSS self-host あり	公開情報上は主に cloud 中心	MIT self-host あり
価格の見えやすさ	Free $0 / Starter $80 / Agent First $400	Free / $29 / $199 / $2,499	Developer $0/seat + usage	free tier 1M events / usage-based
向いている段階	本番 agent が走り、成果説明が必要	tracing を入れて改善ループを回したい	monitoring / alerts まで強く回したい	既存 analytics 基盤に agent を載せたい

4者の違いを先に整理する

Voker は「trace を読む人」ではなく「成果を判断する人」のための画面を作る

Voker の良さは、agent を debug すること自体よりも、agent が役に立っているかを組織で共有しやすいこと です。

公式で前面に出ているのは次です。

self-service analytics
business impact
intents
corrections
resolutions
high interaction volume / multi-turn / RAG / tool use / MCP 前提
Langfuse、LangSmith、PostHog、Mixpanel、Amplitude と並存可能

ここが重要です。Voker は「Langfuse を置き換える observability」より、Langfuse や PostHog の上に乗る business-facing analytics として読む方が正確です。

向いているのは、たとえば次です。

support agent の resolution rate を上げたい
PM が feature 改善優先度を決めたい
CS が friction や rage-quit を見たい
BizOps が AI 投資の成果を説明したい

この文脈では、trace を1本ずつ読むより、誰でも見られる outcome dashboard の価値が大きいです。

Langfuse は「まず tracing 基盤をちゃんと作る」なら強い

Langfuse は、AI agent の挙動を理解するための土台を整えるのに強いです。

公式 docs / pricing で読み取りやすいのは、

traces and graphs
session tracking
user tracking
token and cost tracking
OpenTelemetry
prompt management
evaluation
cloud と self-hosted の両方

です。

特に強いのは、self-hosting の分かりやすさ です。Cloud pricing と Self-hosted pricing が分かれていて、OSS で core 機能を self-host し、enterprise で RBAC、audit logs、retention policy を足す線引きが見えやすいです。

なので Langfuse は、

まず traces / sessions / cost を揃えたい
できれば OTel ベースで lock-in を減らしたい
self-host や data governance を重視したい
そのうえで prompt / eval まで伸ばしたい

という組織でかなり筋が良いです。

LangSmith は「agent を直すための monitoring / insights」を強く回しやすい

LangSmith は observability の中でも、monitoring と insights の見せ方 が強いです。

公式ページでは、

tracing
monitoring
cost tracking
online evals
tool and agent trajectory monitoring
webhook / PagerDuty alerts
unsupervised topic clustering
error analysis templates

を前に出しています。

この時点で、LangSmith の主語はかなり明確です。PM 向けの business dashboard というより、agent を本番で回しながら改善するチームの operating console です。

LangChain / LangGraph との相性も読みやすいので、

agent failures を早く見つけたい
online evals と monitoring をつなげたい
trace だけでなく issue clustering や alerting まで欲しい

というチームには自然にハマります。

PostHog は「agent analytics 専用ツール」ではなく「既存KPIとつなぐ母艦」として強い

PostHog は、この4つの中でかなり異質です。

PostHog の強みは、

product analytics
funnel / retention
integrated data warehouse
generous free tier
self-hosting (MIT)

です。

つまり PostHog は、agent-specific な intent / resolution / correction を最初から深く持つというより、agent に関するイベントを既存のプロダクト指標へ接続できること が価値です。

たとえば次のような組織には強いです。

すでに PostHog で signup → activation → retention を追っている
AI support の会話後に conversion が上がったか見たい
data warehouse とつないで revenue を join したい
self-hosted analytics 基盤を維持したい

逆に、PM や CS がすぐ使える agent-native dashboard を最初から期待すると、イベント設計が必要になります。

実務で本当に見るべき選定軸

1. 誰が daily に見るか

ここが最重要です。

PM / CS / BizOps / leadership が daily に見る → Voker
Platform / AI engineer / applied ML が daily に見る → Langfuse / LangSmith
product analyst / growth / data team が既存基盤で見る → PostHog

この分け方を曖昧にすると失敗しやすいです。開発向け trace UI を PM に渡しても使われませんし、business dashboard だけで根本原因を直すのも難しいです。

2. まず欲しいのが「根本原因」か「成果説明」か

根本原因を追いたい → Langfuse / LangSmith
成果説明をしたい → Voker
既存 funnel / retention / revenue と join したい → PostHog

ここは順番の話でもあります。多くのチームは最初に observability を入れ、そのあと business analytics が欲しくなります。ただ、すでに本番運用が進んでいて PM / CS の不満が先に出ているなら、Voker を先に入れる判断もあります。

3. self-hosting / governance をどこまで重視するか

この軸では Langfuse と PostHog がかなり分かりやすいです。

Langfuse: OSS self-host、enterprise RBAC、audit logs、retention policy
PostHog: MIT self-host、Cloud と同一プロダクト系譜

Voker も self-hosting available を打ち出していますが、enterprise governance の細部は商談前提です。LangSmith は公開情報上だと cloud の見え方が中心です。

4. 既存スタックとの関係

Voker の公式でも「Works alongside Langfuse, LangSmith, PostHog, Mixpanel, Amplitude」と明示されています。

つまり Voker は、それらを捨てて置き換える前提ではない 可能性が高いです。

この見方をすると導入判断がかなり楽になります。

tracing / eval 基盤は残す
product analytics 基盤も残す
その上で AI agent 専用の self-serve analytics を足す

この構成が一番自然な組織は多いです。

どのチームにどれがおすすめか

Voker がおすすめのチーム

AI support / conversational AI がすでに本番で動いている
PM、CS、BizOps が同じ数字を見たい
intent、correction、resolution を business impact に変換したい
support quality や revenue contribution を人に説明する必要がある

Langfuse がおすすめのチーム

agent observability を OTel ベースで整えたい
traces、sessions、token / cost tracking をまず揃えたい
self-hosting や retention policy が必要
prompt management / eval まで一体で伸ばしたい

LangSmith がおすすめのチーム

LangChain / LangGraph 系の stack を使っている
monitoring / alerts / online evals を強く回したい
trace を読むだけでなく failure mode を自動で見つけたい
本番運用の改善速度を上げたい

PostHog がおすすめのチーム

すでに product analytics / growth / warehouse の中心が PostHog
agent event を conversion / retention / revenue と join したい
event 設計を自前で持てる data team がいる
self-hosted analytics 基盤を継続したい

迷ったときの選び方

最初に1つだけ入れるなら

本番の成果説明が先に必要 → Voker
まず agent を壊さず改善したい → Langfuse か LangSmith
すでに PostHog が全社標準 → PostHog

2レイヤー構成にするなら

一番自然なのはこの組み合わせです。

Langfuse or LangSmith で trace / monitoring / eval
Voker or PostHog で business analytics / ROI

この分け方だと、開発チームと business チームがそれぞれ必要な画面を持てます。

まとめ

AI agent analytics の比較は、単なる observability 比較ではありません。

Voker は outcome と ROI を self-serve で見せる
Langfuse は tracing と governance を整える
LangSmith は monitoring / insights / eval を強く回す
PostHog は product analytics と revenue 指標へつなぐ

一番ありがちな失敗は、debug 用の画面で business 判断をしようとすること です。逆に、business dashboard だけで agent を直そうとすること も危険です。

なので最初に決めるべきなのは、どのツールが一番多機能かではなく、誰が何を見て、どの改善ループを回すのか です。