2群の代表値の差の検定

A と B でどちらが優れているかという比較検討はよく行われる行為である. 例えば, 野球であれば, 今年の打率が昨年と比べて上がったか, 下がったか, あるいは, 変化したというほどでもないのか, というものがその一例である.

例に挙げた打率は連続値(厳密には有理数しか取り得ないので離散値なのだが, 実用上は連続値として扱う)なのだが, 陸上競技の予選会などで C 校と D 校の複数の選手が予選会に参加したときに, その結果からどちらの学校が優秀であるのかを判断するのは難しい問題である. 大抵の陸上競技は所要時間(トラック競技)であったり, 距離(フィールド競技) があるので, 比較する指標は連続値として存在するが, 最大値, 最小値, 平均値, 中央値と, 様々な指標があるので, 採用する指標によってまるっきり評価が異なってしまう.

最大値, 最小値, 平均値は, 極端な値に大きく影響されしまうので, より頑健な指標が必要ではないだろうか. そういう意味では中央値の検定を行うのが望ましいといっていい.

以上の話を踏まえて, 2群の代表値の差の検定方法を比較した記事があるので引用する.

引用先の記事が消えてしまってもよいように, ここにも記しておく(表現は変えてある)

正規性の仮定\その他の分布の仮定母分散が等しいと仮定できる母分散が等しいと仮定できない
母分布が正規分布である(平均値の差の検定)スチューデント(Student)の t 検定ウェルチ(Welch)の t 検定
母分布が正規分布であるとは限らない(中央値の差の検定) マン(Mann) ホイットニー(Whitney) の U 検定 ブルンナー(Brunner) ムンツェル(Munzel) 検定
対応のない2群の代表値の差の検定手法

さて, これらの検定手法はすでに R 言語などの統計処理ソフトなどに実装されているが, 手順が示されているのであれば数表も作ってみたいと思うところ… t 検定は検定統計量が t 分布に従うので数表は簡単に見つけられる (ウェルチの t 検定は自由度が整数になるとは限らないので別途作成が必要となるが, 実装方法はよく知られている). マン・ホイットニーの U 検定についても, 統計検定の学習で大いに利用させていただいた青木重信教授のウェブサイトにU統計量の分布という記事で掲載されている. ところが, 筆者の検索の仕方が悪いのか, ブルンナー・ムンツェル検定の数表の作り方については記事を見つけることができなかった. t 分布に近似する方法であれば奥村晴彦教授によるBrunner-Munzel検定の記事に載っているのだが. R 言語に Permuted Brunner-Munzel test というライブラリがある以上, 標本サイズのみならず, 標本値も定まらないと数表が作れないのだろうか.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

数学

前の記事

平方完成