先に結論
公開 AI endpoint を持っているなら、auth や rate limit だけで守れている前提は捨てたほうがいいです。
Vercel は 2026 年 5 月 29 日の公式記事で、AI request は通常の HTTP request より原価が桁違いに高いと整理しました。加えて、verification は session 単位ではなく request ごとに入れるべきだと明記しています。
特に危ないのは、caller が prompt を広く触れる playground、agent API、公開 chat です。ここを外に開いているなら、request ごとの検証を前提に設計を見直す価値があります。
何が変わったのか
Vercel は今回、inference theft を「他人が払う AI 推論を無断利用し、無料消費や再販に回すこと」とかなり具体的に説明しました。
俗に token theft と呼ばれることもありますが、公式記事の主語は inference theft です。単なる rate-limit abuse より一段重く、盗んだ推論を互換 API として再販できることまで含めて話しています。
背景にあるのは原価差です。Vercel は通常の HTTP request を 約 $2 / 100 万回 としつつ、frontier model を使う agent prompt は 1 回で $2 かかることもあると書いています。だから公開 AI endpoint が、そのまま高粗利の転売対象になります。
どの AI endpoint が危ないのか
一番危ないのは、caller が prompt、model、parameter を広く触れる endpoint です。
Vercel は AI SDK Playground のような playground 型を最も危険な形として挙げています。理由は単純で、攻撃者が欲しい自由度が最初から揃っているからです。
公開 chat や docs assistant でも安心ではありません。system prompt を server 側で固定していても、caller が実質的に prompt を揺らせるなら、十分に狙われます。
見るべきなのは「AI を使っているか」ではありません。外向き endpoint で、caller がどこまで推論内容に影響できるかです。
なぜ auth と rate limit だけでは足りないのか
Vercel の説明で大事なのは、古い web 防御の前提が AI endpoint と噛み合わないことです。
IP rate limit や login wall は、1 request あたりの価値がそこまで高くない攻撃を想定してきました。ところが stolen inference は 1 call の価値が高く、攻撃者は residential proxy と throwaway account を大量に使えます。
すると rate limit は IP の束に薄まり、auth は本物の account で通ります。session 開始時だけの判定だと、一度 bypass したコストがその後の大量 request に均されるので守りが急に弱くなります。
Vercel はここをかなり明確に書いています。守るべき境界は signup や login ではなく、いま proxy されてきたその AI request です。
実際に何が起きたのか
Vercel は自社の docs AI chat endpoint で受けた実例も公開しました。
2026 年 4 月 12 日、Anthropic Claude Haiku 4.5 を使う endpoint で traffic が通常の約 10 倍に跳ねました。ピーク時は 毎分 1,300 request に達し、そのまま続けば 1 日あたり 1 万ドル超の inference cost run rate だったとしています。
攻撃は residential proxy 経由で入り、2 日間で数十万件規模の bot request が来たと説明されています。ここでは標準的な per-IP rate limit だけでは有効な止血にならなかった、というのが公式の結論です。
Vercel はどう守ったのか
Vercel は every-request verification の実装例として BotID deep analysis を前に出しています。
記事では、AI request が model に届く前に route handler 内で検証を走らせ、すべての request を gate すると説明しています。BotID docs でも、server 側は checkBotId() を route handler で呼びます。対象 route を client 側に宣言し、challenge header を付ける前提です。
ここで重要なのは、見た目の CAPTCHA を増やすことではありません。Vercel は、従来の image CAPTCHA では足りず、人間か bot かを request ごとに見る invisible な判定 を毎回通せることが重要だとしています。
公式記事では、BotID deep analysis が spike の初期数分で 1 万件超の bot request を検知・遮断 し、24 時間以内に volume が平常へ戻ったと書かれています。
今すぐ見直すチェックリスト
1. 公開 AI endpoint を route 単位で棚卸しする
まず一覧化すべきなのは playground だけではありません。chat、docs assistant、agent API、text generation API まで含めて、外向きの AI endpoint を route 単位で洗い出します。
2. caller が prompt をどこまで触れるかを見る
危険度は model 名より、caller の自由度で決まります。prompt、tool、parameter、system 指示の迂回余地をどこまで渡しているかを確認したほうが早いです。
3. session gate で止まっていないか確認する
login、signup、API key 発行時だけの判定で終わっている route は優先して見直すべきです。AI request の直前で検証していないなら、防御はまだ薄い可能性があります。
4. usage 監視とコスト止血を別レイヤーで持つ
verification だけで全部を賄うのは危険です。request 数、model 別 usage、異常 spike、日次コスト上限を合わせて持つと、突破された時も被害を縮めやすくなります。
5. 転売しやすい OpenAI 互換入口を特に疑う
Vercel は、攻撃者が victim endpoint を互換 API の adapter で包み直す形を説明しています。自前 API がその変換に乗せやすいほど、狙われた時の再販価値が上がります。
どんなチームが先に動くべきか
優先度が高いのは、公開 AI 機能を growth 用に前へ出している SaaS です。
たとえば freemium の chat、trial playground、agent demo、docs assistant は、利用導線を軽くするほど攻撃面も広がります。便利さのために session gate を薄くしているチームほど、request 単位の保護が要ります。
AI provider の統制まで見直したいなら、Vercel AI Gateway に provider allowlist 追加 もつながります。
コスト監視の持ち方を比べたいなら、Edgee AI Gateway vs OpenAI usage tiers vs Gemini spend caps vs Anthropic cost reports が参考になります。
運用で spike を追う視点では、Vercel vercel alerts --ai 公開|anomaly alert を terminal で調べる運用で何が変わったか も合わせて読むとつながりやすいです。
いま導入判断するなら
今回の Vercel 記事は、AI セキュリティ一般論というより 公開 AI endpoint の守り方を request 単位へ切り替えろ という実務メモに近いです。
公開 endpoint があるのに、auth、session、IP rate limit だけで止めているなら見直し優先度は高めです。逆に、閉じた社内用途だけで外へ開いていないなら、今すぐ同じ強度で入れなくても順番は下げられます。
まずやることは派手な新基盤ではありません。どの route が危ないかを洗い出し、request ごとの検証と usage stopgap を置くことです。そこまでやって初めて、AI endpoint を公開し続ける前提が少し固まります。