講演情報
[2B-03]GPUリソースを制限した場合のLLM推論の性能評価
*髙頭 まどか1、平井 聡2、木下 怜佳2、三輪 真弘2、小口 正人1 (1. お茶の水女子大学理学部情報科学科、2. 富士通株式会社)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
LLM推論、GPU、性能分析
ChatGPTをはじめとする大規模言語モデル(LLM)への注目が高まるとともに,それらを高速に処理するGPUの需要も急激に増加している.これにより世界的なGPU不足と価格の高騰が続き,今後ますます深刻化していくことが予測されている.そこで,GPUリソースの効率的な利用に向け,モデルごとに最低限必要なリソース量を明らかにし,最適なリソース割り当てを実現することを目指す.本研究では,LLM推論を実行する際にGPUリソースを制限してスループット等の性能測定を行い,リソース量と性能の関係を明らかにした.さらに,1つのモデルを単独で使用して推論を実行した場合と,単一のモデルを複数同時に動作させた場合の性能比較も行う.