セッション詳細

[4E5-GS-11b]AIと社会:AI安全性と信頼性評価

2026年6月11日(木) 15:30 〜 17:00
E会場(メインホールC)
座長:山本 頼弥(静岡大学)

[4E5-GS-11b-01]ポリシーフィルタリングによる効率的な大規模言語モデル向けガードレール

〇山田 美優2、伊東 邦大1 (1. 日本電気株式会社、2. 東京科学大学)
コメント()

[4E5-GS-11b-02]大規模言語モデルが内に抱える信念の一貫性の検証

〇辻村 有輝1、Rikters Matīss1、江上 周作1、浅田 真生1、石垣 達也1、矢野 憲1、高村 大也1 (1. 産業技術総合研究所)
コメント()

[4E5-GS-11b-03]日本語LLMを用いたシステムの安全性評価における人手評価とLLM-as-a-Judgeの比較分析

〇藤田 真伎1、駒田 拓也1、藤本 拓1、吉村 健1 (1. 株式会社NTTドコモ)
コメント()

[4E5-GS-11b-04]LLM内部状態の監視・制御に基づく報酬ハッキング低減の可能性検討

〇佐野 大河1、高橋 公海1 (1. NTT株式会社)
コメント()

[4E5-GS-11b-05]プロンプトインジェクションを用いた機密情報を窃取する攻撃の評価

〇早坂 健一郎1、小関 義博1、岡原 英輝1 (1. 三菱電機株式会社)
コメント()

[4E5-GS-11b-06]LLM 3段階防御システムの脆弱性分析と防御設計への示唆

高島 直也1、〇澤 風吹1、橋本 清斗1、下村 晃太1,2、藤原 勇人1、井上 顧基1、山下 隆義2 (1. 株式会社 Elith、2. 中部大学)
コメント()