講演情報
[T7-P-8]多峰性を示す粒度分布のEMアルゴリズムを用いた分離と関数データ解析の応用
*吉田 雄博1、横川 美和1 (1. 大阪工業大学情報科学部)
キーワード:
粒度分布、多峰性分布、対数正規分布、EMアルゴリズム、関数データ解析
[はじめに]
粒度分析は多峰性を示すことが多い。先行研究では、一般的に、中央径、分級度、歪度、尖度といった堆積物粒度に関する代表的なパラメータが用いられてきた。しかし、それは粒度分布が単峰性を示すと仮定した場合である。多峰性の粒度分布は、複数の単峰性の粒度分布が混ざり合った結果と考えられ,異なる供給源や堆積過程を反映していると考えられている。Yamaguchi et al.(2024)は、多峰性の粒度分布を解析するには、単峰性の粒度分布に分解し、解釈することが望ましいとして、期待値最大化( Expectation Maximization :EM)アルゴリズムを用いて多峰性の粒度分布を適切な成分に分離した。本研究では分離した単峰性の粒度分布に対して関数データ解析を適用する。関数データ解析は本来連続的に表されるような離散的データを連続的なデータとみなして分析する手法である。本研究では、京都市左京区にある高野川砂州に対してEMアルゴリズムを適用し、それぞれの粒度分布に対して関数データ解析を用いて解釈を行えるか検討する。
[EMアルゴリズム]
EMアルゴリズムは、パラメータの最尤推定量を求める反復法の一種である。EMアルゴリズムでは、期待値ステップと最大化ステップを交互に繰り返すことで最尤推定量を求める。期待値ステップでは、現在のパラメータの推定値を用いて期待値を計算する。最大化ステップでは、期待値ステップで求めた期待値を最大化するパラメータを計算する。EMアルゴリズムは、混合正規分布を構成するそれぞれの正規分布の混合比、平均、および標準偏差を生成する。分析はRで行うことができ、EMアルゴリズムは“mixR”というパッケージを用いることで容易に実装できる。
[関数データ解析]
松井(2019)は、日ごとの気温や日照時間といった1つの個体が時間や位置などの変化に応じて繰り返して測定されるデータを経時測定データと呼んでいる。経時測定データに対して個々のデータを関数化し、得られた関数をデータとして扱う方法が関数データ解析である。関数データ解析を用いる利点として3つの利点が挙げられる。1つ目は観測データに混入されるノイズを除去することができる点である。観測ノイズによりデータのばらつきが大きい場合には本質構造をとらえるのが難しくなる。2つ目は観測時点数の増大によるデータの高次元化を抑えることができる点である。データの高次元化を抑えることで推定量が不安定になる可能性を抑えることができる。3つ目は個体ごとに観測時点や観測時点数が異なっていても容易に分析することができる。一般的に多変量解析手法を直接適用する場合、観測時点や観測時点数の違いは分析を困難にする。これらの3つが関数データ解析の利点である。分離されたそれぞれの粒度分布は経時測定データとみなして関数データ解析を適用することができると考える。
[試料]
試料は、2025年3月10日に採取した京都府左京区にある高野川の砂州の試料を用いる。試料は上流(京都府京都市左京区八瀬近衛町520:猫猫寺付近)と下流(京都府京都市左京区下鴨宮河町:河合橋下)の2種類がある。これらは7km離れている.その2つの試料から高野川の上流と下流で堆積状況や堆積過程に差があるのかを比較することができる。これらの試料の粒度分布を表し、EMアルゴリズムと関数データ解析を用いて解釈できるか検討する。
[引用文献]松井 秀俊(2019). 関数データに基づく統計的モデリ
ング. 統計数理. 67(1). 73-96.
Yamaguchi,N., Ando,T., Enokida,T., Nakada,N., Yamaki,S., Ohta,T.
(2024). Logratio analysis of components separated from
grain-size distributions and implications for sedimentary
processes: An example of bottom surface sediments in a
shallow lake. Sedimentology. 71. 1291–1304.
doi:10.1111/sed.13174.
粒度分析は多峰性を示すことが多い。先行研究では、一般的に、中央径、分級度、歪度、尖度といった堆積物粒度に関する代表的なパラメータが用いられてきた。しかし、それは粒度分布が単峰性を示すと仮定した場合である。多峰性の粒度分布は、複数の単峰性の粒度分布が混ざり合った結果と考えられ,異なる供給源や堆積過程を反映していると考えられている。Yamaguchi et al.(2024)は、多峰性の粒度分布を解析するには、単峰性の粒度分布に分解し、解釈することが望ましいとして、期待値最大化( Expectation Maximization :EM)アルゴリズムを用いて多峰性の粒度分布を適切な成分に分離した。本研究では分離した単峰性の粒度分布に対して関数データ解析を適用する。関数データ解析は本来連続的に表されるような離散的データを連続的なデータとみなして分析する手法である。本研究では、京都市左京区にある高野川砂州に対してEMアルゴリズムを適用し、それぞれの粒度分布に対して関数データ解析を用いて解釈を行えるか検討する。
[EMアルゴリズム]
EMアルゴリズムは、パラメータの最尤推定量を求める反復法の一種である。EMアルゴリズムでは、期待値ステップと最大化ステップを交互に繰り返すことで最尤推定量を求める。期待値ステップでは、現在のパラメータの推定値を用いて期待値を計算する。最大化ステップでは、期待値ステップで求めた期待値を最大化するパラメータを計算する。EMアルゴリズムは、混合正規分布を構成するそれぞれの正規分布の混合比、平均、および標準偏差を生成する。分析はRで行うことができ、EMアルゴリズムは“mixR”というパッケージを用いることで容易に実装できる。
[関数データ解析]
松井(2019)は、日ごとの気温や日照時間といった1つの個体が時間や位置などの変化に応じて繰り返して測定されるデータを経時測定データと呼んでいる。経時測定データに対して個々のデータを関数化し、得られた関数をデータとして扱う方法が関数データ解析である。関数データ解析を用いる利点として3つの利点が挙げられる。1つ目は観測データに混入されるノイズを除去することができる点である。観測ノイズによりデータのばらつきが大きい場合には本質構造をとらえるのが難しくなる。2つ目は観測時点数の増大によるデータの高次元化を抑えることができる点である。データの高次元化を抑えることで推定量が不安定になる可能性を抑えることができる。3つ目は個体ごとに観測時点や観測時点数が異なっていても容易に分析することができる。一般的に多変量解析手法を直接適用する場合、観測時点や観測時点数の違いは分析を困難にする。これらの3つが関数データ解析の利点である。分離されたそれぞれの粒度分布は経時測定データとみなして関数データ解析を適用することができると考える。
[試料]
試料は、2025年3月10日に採取した京都府左京区にある高野川の砂州の試料を用いる。試料は上流(京都府京都市左京区八瀬近衛町520:猫猫寺付近)と下流(京都府京都市左京区下鴨宮河町:河合橋下)の2種類がある。これらは7km離れている.その2つの試料から高野川の上流と下流で堆積状況や堆積過程に差があるのかを比較することができる。これらの試料の粒度分布を表し、EMアルゴリズムと関数データ解析を用いて解釈できるか検討する。
[引用文献]松井 秀俊(2019). 関数データに基づく統計的モデリ
ング. 統計数理. 67(1). 73-96.
Yamaguchi,N., Ando,T., Enokida,T., Nakada,N., Yamaki,S., Ohta,T.
(2024). Logratio analysis of components separated from
grain-size distributions and implications for sedimentary
processes: An example of bottom surface sediments in a
shallow lake. Sedimentology. 71. 1291–1304.
doi:10.1111/sed.13174.
