Presentation Information

[2J1-GS-10a-05]Performance Improvement Through Inference-Based Data Selection

〇Kenji Horikoshi1, Reiko Kinouchi2, Yuji Tani2, Taiji Nagaoka2, Yuji Ayatsuka1 (1. Cresco.Ltd, 2. Asahikawa Medical University)

Keywords:

medical images,Inference-Based Data Selection,Quality of Training Data

医用画像の機械学習による分類において学習データのラベルの誤りは分類精度低下の要因となる。本研究では、眼底画像分類モデルにおいて、初回学習モデルで正しく分類されたデータ(推論正例抽出データ) は元のラベルの精度も高いものとみなし、それらのみを追加学習及び新規学習に用いることによる分類性能の向上が期待できると想定し、その度合いを検証した。1690眼の眼底の黄斑周辺の画像からのドルーゼンの抽出を学習対象とし、5-Foldの交差検証で評価した。初回学習モデル (Model_A)、初回学習モデルに推論正例抽出データで追加学習したもの (Model_B) 及び推論正例抽出データのみで新規に学習したもの (Model_C) の性能を較べたところ、Model_Bが正答率 0.81、ROC-AUC 0.84で最も高性能を示し、Model_Cも正答率 0.80、ROC-AUC 0.82で Model_A (正答率 0.75、AUC 0.79) を上回った。これらの結果から、推論正例抽出を行うことで曖昧な症例を除外し、高品質な学習データを生成することで、分類性能の向上に有効であることが示された。