馬場今日子

山下淳子先生

2000年4月15日

 

Understanding Research in Second Language Learningについて

 

<本の概要と所感>

序文にある通り,この本の目的は5つある。すなわち,統計の分野における基本用語を説明すること,表,チャート,グラフの効果を説明すること,適切な実験デザインの使用を説明すること,統計を使用する際の論理を説明すること,統計的な研究を批判し,評価する方法を説明することである。この本は統計を使って論文を書くような読者ではなく,そのような論文のなかの統計的な部分を読み飛ばしてしまうような,統計に不慣れな読者を想定しているので,当然だが重要なことが書いてある。また,論文に使われる統計的手法だけでなく,論文の構成自体の説明もあるところが良い。

私が最も感動したのは,p130以降,3回登場する「どの統計手法を使うか」決める表である。これは,変数が名義尺度か,順序尺度か,間隔尺度かということと変数の数によって,どの統計手法を使えば良いのかが一目で分かる表である。また,この本の最後に登場するポスト・テストはわざとおかしな論文にしてあって,とても面白い。

私は読後この本の歌い文句通り,論文で使われる統計に対する劣等感が薄れたような気がした。それだけでなく,それらの統計を批判・評価するのが楽しみになった。つまり,これは論文を批判的に読むための強力な武器を身に付けるきっかけとして,素晴らしい本なのである。

 

<要約と考察>

この本の性格により,内容に対してあまり批判を加えるところがないので,私が特に重要だと思った章をまとめたいと思う.

 

2章 変数について

変数(variable)と構成概念(construct)は別のものである。構成概念は人間の特徴や能力自体のことで,測定不可能である。それをなんとか観察したり,数値化しようとしているのが変数である。研究者は構成概念が正確に特定されているか,変数の操作的定義がその構成概念の特徴をきちんと描けているか,その定義が他の構成概念を描いていることはないか,などに注意しなければならない。変数がうまく定義できていなければ,まともな研究結果は望めないのである。

変数には5つのタイプがあって,その間には決まった関係がある(p13などを参照)。5つの変数とは従属変数,独立変数,仲介変数(moderator variable),統制変数(control variable),介在変数(intervening variable)である。研究で一番知りたいのは,独立変数が従属変数にどれくら影響を及ぼしているかであり,外の変数はその補助の役割をしている。例えば,独立変数がIQテストで,従属変数が外国語能力テストの場合を考えてみる。仲介変数というのは条件付けのようなもので,性別や年齢によってどのような差があるかというときの,性別や年齢のことである。統制変数は独立変数から他の要因を取り除くためのものである。例えば外国語能力テストという独立変数から「その外国を旅したことがある」という統制変数を除いて統制をはかるのである。最後の介在変数は,独立変数が従属変数に与える,抽象的な要因のことである。この変数は構成概念なので,測定はできない。この例では,IQや,ドイツ語の能力のことである。

論文を読む際には,これらの変数を論文の中ではっきり特定できるか,それらはがきちんと定義されているか,あるいはきちんと構成概念を表しているか,それらの関係は論理的かなどに気を付けて読まなければならない。

 

4章 無関係な変数を統制する

研究の妥当性を保つために特に4つのことを考えなければならない。すなわち(1)環境の問題 (2)グループ分けの問題 (3)人間の問題 (4)測定の問題,である。どんな研究においても重要なことは,その研究が論理的かどうかと,意味があるかということである。上の4つの問題においてそれぞれ測定したい変数を邪魔するような,無関係な要素が出てくるので,それを統制するとその実験の内的妥当性(論理的か)は高まるが,普遍性が少なくなるので,学的妥当性(意味があるか)は低くなってしまう。

 

8章 テストのための統計

言語プログラムでは2種類の異なるテストが使用される。一つはnorm-referenced test(N-RT)で,もう一つはcriterion-referenced test(C-RT)である。前者は被験者を正規分布させようとするもので,後者は被験者がどれくらい言語を習得したかを調べるものである。統計を使う場合は,N-RTのほうが使われる。

テストには一貫性と妥当性が必要である。まず,一貫性の方は信頼性(reliability)と測定の標準誤差(standard error of measurement)によって測られる。信頼性はテストが一貫している,あるいは安定している度合いである。テストを無限回繰り返したときの被験者のスコアを真のスコア(true score)といい,実際の被験者のスコアを観察されたスコア(observed score)という。真のスコアは計算によって予測することができるのだが,理論的には信頼性はこの真のスコアから観察されたスコアがどれくらいずれているか,から割り出す。実際にこの信頼性を計算するには,3種類のやり方がある。一つはテスト−再テスト信頼性で,これは同じテストを2回繰り返して2つの結果の相関を計算する。2つめは同等形態信頼性で,これは同じような2つのテストを行い,やはり2つの結果の相関を計算する。3つめは2分割法で,これは,まず偶数と奇数の項目がべつべつに計算し,この2つの相関を計算し,その係数がSpearman-Brown prophecy formulaと呼ばれる公式を使って全体のテストに当てはめられる。この3つめの2分割法は,2回もテストをせずに信頼性を計算できるので,よく使われる。

測定の標準誤差とは,どれくらいテストに一貫性があるかをパーセントを使って表すものである。つまり,被験者の真のスコアが起こり得る幅を計算するのである。だから,この幅は狭い方が信頼性が高い。

テストの一貫性が保証されたら,次は妥当性の計算をする。妥当性というのはそのテストが測っているとするものをどれくらい本当に測っている度合いである。妥当性にも3種類ある。項目妥当性(content validity)は,項目が本当に測りたいものを表しているかということである。例えばスペイン語の読解の能力をいくつかの項目に分けて測ったとすると(推論力とか語彙力とか),それぞれの項目をテストすることが本当にスペイン語の能力を測っていることになるかを調べるのである。構成概念妥当性(construct validity)は,心理学的構成概念と関係がある。(心理学的)構成概念というのは眼に見えないので,それ自体を測定することはできない。そこで,明らかにその構成概念を持ったグループと明らかに持っていないグループの差を測ったり,同じグループに期間をあけて2回テストをしてその差を測ったりする。基準関連妥当性(criterion-related validity)は,構成概念妥当性の変形だが,例えば第二言語としての英語能力を測るのにTOESLPを使ったとして,それと,信頼があると認められているTOEFLのスコアの相関を計算したりすることである。

 

9章以降

9章以降は様々な実験で用いられる実際の統計を解説したものである。Brown氏は9章で実際の実験ではどのような流れで統計が使われるかを解説し,その流れに沿って,10章以降で3種類の統計を紹介している。それは,言語実験では主にその3種類の統計が使われるからである。3種類とは,「相関を調べる」,「平均を比較する」,「頻度を比較する」である。もちろんそれぞれにはたくさんの統計手法があり,どれを使うべきかは上に述べた表を参考にするのだが,各章の終わりにはその統計に関連する統計手法の解説がアルファベット順にあって,参考になりそうである。ここではすべての統計をまとめる意味はあまりないと考えたので,9章だけをまとめたいと思う。

 

9章 統計の論理

実験は5つの段階からなっている。第一段階では,研究を絞り込む。まず最初に問題を特定する。実際の教授経験や文献を読むことで,解決すべき問題を見つける。次に,その問題を解くのに関係する全ての構成概念を書き出す。この作業は大変複雑なので,一生懸命考えなくてはならない。そして,その構成概念を測定可能な変数に置き換える。その後仮説を立てる。仮説は,もし理論的な理由が十分あれば,直接的な仮説を立てるし,そうでなければ間接的な仮説を立てる(帰無仮説をたてるか,複数の仮説を立てて選択する)。

第2段階ではサンプリングをする。サンプリングはランダム・サンプリングが望ましい。サンプリングの方法は2種類ある。一つは普通のランダム・サンプリングで,被験者全員に番号を付けて,乱数表でサンプリングする。もう一つは階層化ランダム・サンプリングで,これは被験者を何らかのはっきり区別できる階層に分け(性別とか,住んでいる場所とか),その階層の中でランダム・サンプリングをする。このサンプリングは被験者が区別してサンプリングされたとか,異質な属性を持っているときに特に有効である。

被験者の数が十分かどうかは難しい問題である。その研究で被験者の数がこれで十分だとしている理由をよく見ることが重要である。そしてサンプリングにおいて,研究が論理的であるためにもっとも重要なのは,そのサンプリングが普遍化され得るかどうかである。

第3段階では統計的決定事項を設定する。最初に正しい統計手法を選択する。これはその統計で何を見たいかを決めた後,変数の種類や数で選ぶ。その次に統計的仮説を立てる。最後に有意レベルを決定する(例えば5%レベルとか)。

第4段階では4つの考察をする必要がある。一つは観察された統計についてである。研究者は普通さまざまな統計ソフト(SPSSとかBCP:P-Seriesとか)を使って複雑な統計的計算を行っているが,まず最初に記述統計の部分(平均とか,標準偏差)を見て,その統計計算自体に意味があるのかを考えなければならない。2つめは,前提についてである。例えば,Person product-moment correlationという統計を使っているなら,各スコアは間隔尺度になっていなければならない,など。3つめは自由度について,そして4つめは棄却値についてである。

第5段階では統計的決定をする。一つは仮説検定である。最初に決めていた有意レベルと照らし合わせて帰無仮説が棄却できるか結果を出す。2つめは結果の解釈である。もし帰無仮説が棄却されたとすると最初に言いたかった仮説は優位に支持されたことになるが,有意であることと,有意味であることは別のことである。有意味かを調べる絶対的な規則はないがよく考える必要はある。研究者が統計的結論を解釈し過ぎていないかどうか気を付けて見なければならない。3つめは潜在的な落とし穴である。これは,今まで述べて来たように随所に隠れている(例えば変数とか,サンプリングなど)。その中でも,今述べたような,解釈のし過ぎには注意し過ぎることはない。統計的に有意なことと,その研究が有意味であることを混同してはいけない。また,有意水準も,時代によってどれくらいがいいということが変化するので,その水準が妥当かどうか判断するのは読者の責任なのである。