AIエージェントの「隠れコスト」を95%削減！Tool Attentionが変えるMCPの未来

導入 ― なぜ重要か
研究概要 ― 何をどうやったか
主なポイント（技術のキモ）
技術的詳細
まとめと今後の展望
元論文リンク

導入 ― なぜ重要か

大規模言語モデル（LLM）を外部ツールと接続する標準インターフェースとして、Model Context Protocol（MCP）が急速に普及しています。しかしその裏側では、見落とされがちな「隠れコスト」が存在していました。

MCPは会話のたびに、接続している全ツールのスキーマ情報（JSON形式の定義ファイル）をコンテキストに丸ごと注入します。複数サーバーを運用する典型的な環境では、この「MCPタックス（Tools Tax）」と呼ばれるオーバーヘッドが、なんと1万〜6万トークンにも達することが実務報告から明らかになっています。

これはただのコスト増加だけの問題ではありません。コンテキスト使用率が約70%に近づくと推論精度が劣化するという「フラクチャーポイント」が知られており、膨大なツール定義がその限界を早める要因になっているのです。この問題に真正面から取り組んだのが、本論文が提案する「Tool Attention」という新しいアプローチです。

研究概要 ― 何をどうやったか

Anuj SadaniとDeepal Kumarが提案するTool Attentionは、「Attention Is All You Need」（Transformerの自己注意機構）のパラダイムを、トークン間の注意からツール間のゲート付き注意へと一般化したミドルウェア層の仕組みです。

評価には、実際のMCPデプロイメントの公開監査データをもとに校正された120ツール・6サーバー構成のシミュレーションベンチマークを使用。このシミュレーション環境において、Tool Attentionはターンごとのツールトークン数を47,300トークンから2,400トークンへと95%削減し、有効コンテキスト使用率を24%から91%へと大幅に改善することが示されました。

主なポイント（技術のキモ）

MCPタックスの実態：複数サーバー運用環境では、毎ターン数万トークンがツールスキーマに費やされており、これが推論コストと品質の両方を圧迫している。
Tool Attentionの95%削減：シミュレーション環境で47,300→2,400トークンという劇的な削減を達成。コンテキスト効率が大幅に向上。
ミドルウェアとして実装：既存のMCPアーキテクチャを壊さず、間に挟むだけで機能する設計になっているため、導入ハードルが低い。
注意点：タスク成功率・レイテンシ・コスト・推論品質などのエンドツーエンド指標は、実測ではなく公開データに基づく推計値（プロジェクション）であることが論文内で明示されている。

技術的詳細

Tool Attentionは以下の3つのコアコンポーネントで構成されています。

① Intent Schema Overlap（ISO）スコア

文章埋め込み（Sentence Embeddings）を用いて、ユーザーの現在の意図と各ツールのスキーマ定義との意味的な重なりをスコアリングします。関係性の低いツールは最初からフィルタリングされます。

② 状態対応ゲーティング関数

単なる意味的類似度だけでなく、前提条件やアクセススコープ（ユーザー権限・システム状態など）を考慮したゲーティングを行います。必要なツールだけを動的に選択・制御することで、不要なスキーマ注入を防ぎます。

③ 2フェーズ遅延スキーマローダー（Lazy Schema Loader）

コンテキスト内に常駐するのはコンパクトなサマリープール（ツールの概要情報のみ）に抑え、ISOスコアとゲーティングを通過した上位k件のツールに対してのみ、フルのJSONスキーマを動的に「プロモート（昇格）」して注入します。これにより、通常時のトークン消費を劇的に抑えつつ、必要な時には完全な情報を利用できる設計です。

この3つの仕組みを組み合わせることで、「全ツールを毎回全部注入する」という従来の無駄を排除し、本当に必要なツールだけ、必要な詳細度で、必要な時にだけコンテキストに提示する動的な制御が実現されます。

まとめと今後の展望

本研究が示す核心的なメッセージは明快です。「スケーラブルなエージェントシステムにおけるボトルネックは、コンテキスト長の絶対値ではなく、プロトコルレベルの効率性にある」ということです。

Tool Attentionはこの問題に対し、既存アーキテクチャへの侵襲を最小限にしながら大きな改善をもたらす実用的なアプローチを提示しています。エンドツーエンドの性能指標が実測ではなく推計であるという限界はあるものの、トークン削減という測定可能な事実は、実際のLLMエージェント運用における大きな示唆を持ちます。

今後の展望としては、実際のライブLLMエージェントによる実証実験、さらに多様なツールセット・タスクへの適用、そしてISOスコアの精度向上（より高度な埋め込みモデルの活用など）が期待されます。MCPが業界標準として定着しつつある今、このような効率化レイヤーの重要性はますます高まるでしょう。コードはGitHubで公開されており、実際に試すことも可能です。