本文へ移動
一次情報読解
AI原典ノート
記事
読み方
トピック
ソース
用語集
週刊
RSS
保存
夜間
週刊メール
今日の更新 2026-07-04 - Model Context Protocol: MCP tool 実装前に読む型と確認 / Google AI for Developers: Gemini 本番化前に読む認証境界 / LangChain / LangGraph: agent memory 設計前に読む状態分離
ソース
NVIDIA TensorRT-LLM
推論 runtime の scheduler、KV cache、hardware occupancy を GPU 名比較ではなく architecture として読める。
公式ソースを開く
01
まず知りたい
TensorRT-LLM architecture は、推論性能の主役を GPU 名から scheduler と KV cache 管理へ戻す
NVIDIA TensorRT-LLM / page 上では公開日未記載(Last updated on September 15, 2025)