講演情報

[9H-03]Diffusionモデルによる文字種とスタイルの特徴を利用した日本語手書き文字生成

*桑田 若菜1、三林 亮太1、谷 雅德2、大島 裕明1 (1. 兵庫県立大学、2. アカデミックビジョン)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

キーワード:

書道作品生成、文字画像生成、深層学習

本論文では日本語の手書き文字を対象とし、文字種とスタイルの特徴を利用したDiffusionモデルによる文字生成を行う。学習ネットワークは文字種エンコーダとスタイルエンコーダとノイズ予測モデルと分類器で構成される。文字種エンコーダとスタイルエンコーダには、Masked AutoEncoder(MAE)やSimSiamの手法で事前学習したVision Transformer(ViT)を用いる。文字種エンコーダとスタイルエンコーダで抽出した特徴をノイズ予測モデルに入力し、予測したノイズを用いて画像生成を行う。そして、生成画像を分類器に入力し、文字種とスタイルの分類を行う。今回用いるデータセットは日本書道データとくずし字データと日本語フォントデータからなる。このデータセットで学習した提案モデルとベースラインモデルを、3つの評価指標であるMAE、SSIM、LPIPSで比較する。