inference theft と token theft は同じ意味ですか？

ほぼ同じ危機感を指しますが、Vercel の公式記事では inference theft が使われています。要点は、他人が負担している有料 AI 推論を無断利用し、無料消費や再販に回すことです。

login 必須なら十分ではないですか？

十分ではありません。Vercel は、session 開始時に一度だけ通る gate では bypass コストが大量 request に薄まると説明しています。throwaway account や residential proxy を組み合わせられると、auth と IP rate limit だけでは止めにくくなります。

どの endpoint がいちばん危ないですか？

prompt、model、parameter を広く触れる playground 型が最も危険です。公開 agent API や chat endpoint も、caller が prompt を実質コントロールできるなら同じ土俵に乗ります。

まず何から始めればいいですか？

まず公開中の AI endpoint を洗い出します。次に prompt 制御範囲、1 request あたりの原価、防御が session 単位か request 単位かを確認します。その後に verification、usage 監視、異常検知、コスト上限を route ごとに詰めると進めやすいです。

Vercel が inference theft 対策を公開｜公開AI endpointなら毎リクエスト検証で何を見直すべきか

先に結論

公開 AI endpoint を持っているなら、auth や rate limit だけで守れている前提は捨てたほうがいいです。

Vercel は 2026 年 5 月 29 日の公式記事で、AI request は通常の HTTP request より原価が桁違いに高いと整理しました。加えて、verification は session 単位ではなく request ごとに入れるべきだと明記しています。

特に危ないのは、caller が prompt を広く触れる playground、agent API、公開 chat です。ここを外に開いているなら、request ごとの検証を前提に設計を見直す価値があります。

何が変わったのか

Vercel は今回、inference theft を「他人が払う AI 推論を無断利用し、無料消費や再販に回すこと」とかなり具体的に説明しました。

俗に token theft と呼ばれることもありますが、公式記事の主語は inference theft です。単なる rate-limit abuse より一段重く、盗んだ推論を互換 API として再販できることまで含めて話しています。

背景にあるのは原価差です。Vercel は通常の HTTP request を 約 $2 / 100 万回 としつつ、frontier model を使う agent prompt は 1 回で $2 かかることもあると書いています。だから公開 AI endpoint が、そのまま高粗利の転売対象になります。

どの AI endpoint が危ないのか

一番危ないのは、caller が prompt、model、parameter を広く触れる endpoint です。

Vercel は AI SDK Playground のような playground 型を最も危険な形として挙げています。理由は単純で、攻撃者が欲しい自由度が最初から揃っているからです。

公開 chat や docs assistant でも安心ではありません。system prompt を server 側で固定していても、caller が実質的に prompt を揺らせるなら、十分に狙われます。

見るべきなのは「AI を使っているか」ではありません。外向き endpoint で、caller がどこまで推論内容に影響できるかです。

なぜ auth と rate limit だけでは足りないのか

Vercel の説明で大事なのは、古い web 防御の前提が AI endpoint と噛み合わないことです。

IP rate limit や login wall は、1 request あたりの価値がそこまで高くない攻撃を想定してきました。ところが stolen inference は 1 call の価値が高く、攻撃者は residential proxy と throwaway account を大量に使えます。

すると rate limit は IP の束に薄まり、auth は本物の account で通ります。session 開始時だけの判定だと、一度 bypass したコストがその後の大量 request に均されるので守りが急に弱くなります。

Vercel はここをかなり明確に書いています。守るべき境界は signup や login ではなく、いま proxy されてきたその AI request です。

実際に何が起きたのか

Vercel は自社の docs AI chat endpoint で受けた実例も公開しました。

2026 年 4 月 12 日、Anthropic Claude Haiku 4.5 を使う endpoint で traffic が通常の約 10 倍に跳ねました。ピーク時は 毎分 1,300 request に達し、そのまま続けば 1 日あたり 1 万ドル超の inference cost run rate だったとしています。

攻撃は residential proxy 経由で入り、2 日間で数十万件規模の bot request が来たと説明されています。ここでは標準的な per-IP rate limit だけでは有効な止血にならなかった、というのが公式の結論です。

Vercel はどう守ったのか

Vercel は every-request verification の実装例として BotID deep analysis を前に出しています。

記事では、AI request が model に届く前に route handler 内で検証を走らせ、すべての request を gate すると説明しています。BotID docs でも、server 側は checkBotId() を route handler で呼びます。対象 route を client 側に宣言し、challenge header を付ける前提です。

ここで重要なのは、見た目の CAPTCHA を増やすことではありません。Vercel は、従来の image CAPTCHA では足りず、人間か bot かを request ごとに見る invisible な判定 を毎回通せることが重要だとしています。

公式記事では、BotID deep analysis が spike の初期数分で 1 万件超の bot request を検知・遮断 し、24 時間以内に volume が平常へ戻ったと書かれています。

今すぐ見直すチェックリスト

1. 公開 AI endpoint を route 単位で棚卸しする

まず一覧化すべきなのは playground だけではありません。chat、docs assistant、agent API、text generation API まで含めて、外向きの AI endpoint を route 単位で洗い出します。

2. caller が prompt をどこまで触れるかを見る

危険度は model 名より、caller の自由度で決まります。prompt、tool、parameter、system 指示の迂回余地をどこまで渡しているかを確認したほうが早いです。

3. session gate で止まっていないか確認する

4. usage 監視とコスト止血を別レイヤーで持つ

verification だけで全部を賄うのは危険です。request 数、model 別 usage、異常 spike、日次コスト上限を合わせて持つと、突破された時も被害を縮めやすくなります。

5. 転売しやすい OpenAI 互換入口を特に疑う

Vercel は、攻撃者が victim endpoint を互換 API の adapter で包み直す形を説明しています。自前 API がその変換に乗せやすいほど、狙われた時の再販価値が上がります。

どんなチームが先に動くべきか

優先度が高いのは、公開 AI 機能を growth 用に前へ出している SaaS です。

たとえば freemium の chat、trial playground、agent demo、docs assistant は、利用導線を軽くするほど攻撃面も広がります。便利さのために session gate を薄くしているチームほど、request 単位の保護が要ります。

AI provider の統制まで見直したいなら、Vercel AI Gateway に provider allowlist 追加もつながります。

コスト監視の持ち方を比べたいなら、Edgee AI Gateway vs OpenAI usage tiers vs Gemini spend caps vs Anthropic cost reports が参考になります。

運用で spike を追う視点では、Vercel vercel alerts --ai 公開｜anomaly alert を terminal で調べる運用で何が変わったかも合わせて読むとつながりやすいです。

いま導入判断するなら

今回の Vercel 記事は、AI セキュリティ一般論というより 公開 AI endpoint の守り方を request 単位へ切り替えろ という実務メモに近いです。

公開 endpoint があるのに、auth、session、IP rate limit だけで止めているなら見直し優先度は高めです。逆に、閉じた社内用途だけで外へ開いていないなら、今すぐ同じ強度で入れなくても順番は下げられます。

まずやることは派手な新基盤ではありません。どの route が危ないかを洗い出し、request ごとの検証と usage stopgap を置くことです。そこまでやって初めて、AI endpoint を公開し続ける前提が少し固まります。