一次情報読解 AI原典ノート
RSS 保存
今日の更新 2026-07-04 - Model Context Protocol: MCP tool 実装前に読む型と確認 / Google AI for Developers: Gemini 本番化前に読む認証境界 / LangChain / LangGraph: agent memory 設計前に読む状態分離
ソース

NVIDIA TensorRT-LLM

推論 runtime の scheduler、KV cache、hardware occupancy を GPU 名比較ではなく architecture として読める。

公式ソースを開く
01 まず知りたい TensorRT-LLM architecture は、推論性能の主役を GPU 名から scheduler と KV cache 管理へ戻す NVIDIA TensorRT-LLM / page 上では公開日未記載(Last updated on September 15, 2025)