[ktyuto01] 統計モデルの違いを理解する | The 59th Annual Meeting of the Japanese Association of Educational Psychology

The 59th Annual Meeting of the Japanese Association of Educational Psychology

Oct 7 - Oct 9, 2017Nagoya Congress Center

Back

The 59th Annual Meeting of the Japanese Association of Educational Psychology

Oct 7 - Oct 9, 2017Nagoya Congress Center

[ktyuto01]統計モデルの違いを理解する一般線形モデル・一般化線形モデル・階層線形モデル・階層的重回帰モデル

^○荘島宏二郎¹, 橋本貴充², 登藤直弥³, 高野慶輔＃⁴, 宇佐美慧⁵(1.独立行政法人大学入試センター, 2.帝京大学, 3.大学改革支援・学位授与機構, 4.Ludwig-Maximilians-University, 5.東京大学)

Download PDF

企画趣旨

　統計モデルには，名前は類似しているが形式的・数理的に異なる意味合いをもち，また異なる目的のために利用される分析手法が存在する。また，単一ではなく幅広い種類のモデルを包含する統計モデルも多くあるため，その内容とともに他の名前の統計モデルとの関係性を理解することは，統計学の理解としてはもちろんのこと，研究実践上においても重要であろう。例えば，一般線形モデル・一般化線形モデル・階層的重回帰モデル・階層線形モデルと呼ばれる統計モデルは，いずれも心理データ分析で実際によく用いられるが，名前の類似性から，分析の目的や意味内容が混同されやすい。本チュートリアルでは特に初学者の方，具体的には，普段統計分析を行う機会が少ない方や統計学の基礎を学び直したい方を念頭において上掲の4手法について，扱うデータの特徴や分析目的の違いに着目して整理しながら，実践例とともに個々のモデルについて平易に解説する。

一般線形モデルとは
橋本貴充
　一般線形モデル (General Linear Model: GLM) とは，回帰分析，分散分析，共分散分析を統一的に扱う分析モデルである。これらの分析はいずれも，独立変数の値が変化したときに，量的な従属変数の値が変化するかどうかを調べる方法といえる。独立変数が全て量的ならば回帰分析，全て質的ならば分散分析，量的な独立変数と質的な独立変数が混在しているならば共分散分析となる。
　線形モデルといえば通常は回帰分析を指す。「一般」が付くのは，分散分析や共分散分析を，回帰分析として表現しているからである。では，一般線形モデルでは，分散分析や共分散分析の質的な独立変数を，どのようにして回帰分析の中で用いるのだろうか。
　参加者間1要因の分散分析を例に説明する。例えば，技能学習の実験で，参加者を無作為に4群に分け，群によってフィードバックの種類を変えて，正答数の平均値差を比較する状況を考える。具体的には，第1群には正解との差を数値で返し，第2群には正誤のみを返し，第3群には結果と無関係な文字列をランダムに返し，第4群には単なる「次へ」の語だけを毎回返すとする。
　一般線形モデルでは，例えば「第1群に属する参加者は値が1になり，それ以外の群に属する参加者は値が0になる」という変数（そのままではなく多少工夫を要するが，それについては当日説明する）を，(水準数－1)個用意する。このような変数をダミー変数といい，これらを独立変数にして重回帰分析を行うと，分散分析と同様の結果を得ることができる。
　分散分析と同じ結果が得られるというだけでは，わざわざ一般線形モデルにするメリットはない。
しかし，分散分析を行うためにSASやSPSSではGLMプロシジャやGLMコマンドが使われており，このことは一般線形モデルが広く使われることを示している。一般線形モデルのメリットについては当日説明する。

一般化線形モデルとは
登藤直弥
　近年教育界において話題となっているワードのひとつに，「アクティブラーニング（Active Learning, 以下ALとする）」と呼ばれるものがある。これは，「学生が主体的に考える授業」のことを指しており，単に知識や技能を習得するだけでなく，実際にそれらを活用し応用できるようになることを期待して授業に導入されるものである（大学改革支援・学位授与機構, 2017）。
　たとえば今，ある研究者が，このAL導入の効果について検証することを考え，AL導入の有無を操作した実験授業を行ったとしよう。そして，このAL導入の効果について，1)授業後のテスト（10問）における正答数や2)授業後に行われた先生への質問の回数に着目して検証したいと，考えているとする。このようなときに，この研究者は，どのような分析を行ったら良いのだろうか。
　真っ先に思い付くのは，教育心理学の研究でも使われることの多い独立な2群のt検定であろう。しかし，（独立な2群の）t検定では，分析の対象となる（従属）変数が正規分布に従うことが仮定されており，今の様に，1)対象となる変数が正の整数であり，かつ，上限（今の場合10）が存在する場合や，2)対象となる変数が正の整数である場合などには，分析手法として用いるのは不適切だと考えられる。そして，このようなときに使用し得る分析手法（モデル）の一つが，本発表で解説される「一般化線形モデル」と呼ばれるモデルである。
　本発表では，本チュートリアルセミナーで解説される一般線形モデルや階層線形モデルなどとの関係にも注意しながら，一般化線形モデルとはどのようなモデルのことを指しているのか，平易な解説を試みる。なお，解説にあたっては，「R」を用いた具体的な解析手順（e.g., スクリプトの書き方）についても，実際の解析例を交えながら紹介する。したがって，参加者には，本発表で学んだ知識・技能を自身のデータ解析時にも実際に活用し応用できるようになるため，ぜひセミナー後にも，Rを使った一般化線形モデルの分析を，復習がてら実践していただきたい。

階層的重回帰分析とは
高野慶輔
　階層的重回帰分析とは，重回帰分析を拡張したものであり，変数の投入順序に「階層性」をもたせるというテクニックである。これにより，共変量をコントロールしたうえでの，関心の変数の予測力を明示的に検証することができる。あくまで「プレーン」な重回帰分析であり，データの階層性を扱うことができるモデルではないので注意されたい。
　一般に，階層的重回帰分析では，所与の変数（群）に対し，新しい変数を加えたときに，どの程度説明率が上昇したかを検証する。これにより，この新しく加えた変数が，当該の予測にどの程度重要であるかを知ることができる。重回帰分析には，新たな変数を加えると，分散説明率が上昇するという性質があるため，この分散説明率の上昇分を統計的に検定することで，関心の予測変数の重要性を判断することになる。
　また階層的重回帰分析の特徴として，単一の変数の説明力だけではなく，複数の変数をまとめた「変数セット」全体でどの程度予測力があるかを判断することも可能である。同じような「くくり」の変数を複数個まとめてみたときに，全体としてどれくらいの説明力があるのか，というような疑問にも答えることができる。
　具体的な適用場面としては，疫学的研究などで，特定の疾患を予測するに当たり，人口統計学的な変数（性別，年齢，居住地，社会経済的情報など）を所与の変数セットとし，関心のリスクファクター（心肺機能，血液検査の結果など）を追加していく，というような場面が挙げられる。
　また心理学では，交互作用付きの重回帰モデルを検証する際に，階層的重回帰分析を用いることが多い。例えば，一定の脆弱性要因とストレスの経験の交互作用から病理の発症を予測したいという場面で，主効果（脆弱性，ストレス）を所与とし，交互作用の効果（脆弱性×ストレス）を追加するという手順を踏む。本セミナーでは，階層的重回帰分析における分析の流れと検定の方法を，実例と共に紹介する。

階層線形モデルとは
宇佐美慧
　教育学・心理学研究においては，例えば子どもの学力や心身の健康度の実態調査を行うために，全国の学校に調査を依頼し，そしてその協力校の生徒たちからの調査票への回答を通してデータを得ることがしばしばある。また医学・疫学の研究では，特定の治療方法の効果検証を行うために，クラスター無作為化試験(cluster randomized trial: CRT)を行って，全国の病院やケアセンターを実験群か統制群に無作為に割り当てて，各施設内の患者からデータを得ることがある。これらの例では，子どもや患者のような個人ではなく，学校や病院などの集団単位でデータのサンプリングがまず行われており，このようにして得られたデータは階層データ(hierarchical data)またはマルチレベルデータ(multilevel data)などと呼ばれる。階層線形モデルはこのような階層データを扱うための統計モデルを指す。
　階層データの孕む最大の問題点は，データの独立性(data independence)の性質が充たされないということである。例えば，前述の調査の例で，ある生徒のデータの情報（例えば，得点が高い）が分かったら，同じ学校の他の生徒のデータの情報も，完全ではなくとも，大まかには（同様に，ある程度は得点が高い，などと）予想ができてしまう。したがって，子どもの実態を把握するために，仮に単一の学校から100人分の(階層)データを得たとしても，それは様々な学校から100人分のデータを得た場合と明らかに情報量に違いがある。したがって，変数の平均や変数間の相関関係を推測する際には，データの非独立性（または従属性）の影響を適切に考慮しないと，その推定精度を誤って高めに見積もってしまう。
　階層データは実際のデータ収集の手続き上の制約から生じることが多いが，階層線形モデルはこのように階層データの非独立性を考慮するためだけの消極的な理由のみから利用されるものではない。階層データの収集により個人と集団という二つの側面の情報が得られるため，例えば子どもの勉強時間の長さと成績との関係といった（同一の学校内の）個人レベルの関係と，学校の特性（例えば，公立・私立や生徒数）と成績といった集団レベルを踏まえた関係の二点から成績に関する相関分析が実行できる。このように，階層データの収集により，検証できる研究仮説の幅が広がるという利点がある。
　階層線形モデルは，扱う変数や研究仮説の種類によっては，とりわけ一般化線形モデル及び階層的重回帰モデルとも特に強い関わりを持ちうるものである。本発表では，階層線形モデルについて，その適用の意義を前述の内容を中心に説明しながら，適用例や分析手続きとともに，そのほかの統計モデルとの関連性についても整理する。また，階層線形モデルに関する最近の研究動向についても適宜紹介する。

Back