+ All Categories
Home > Documents > 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf ·...

全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf ·...

Date post: 07-Jun-2020
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
13
2 統計用語 9 2 統計用語 1. 帰無仮説 (Null hypothesis) 一般的に統計処理は,この帰無仮説を設定することから始まる. 全群間または二つの群間に差がないという仮説 5%水準で有意差 (P0.05)があれば帰無仮説を捨て差がありと判断する.なぜ帰無仮説をとるのかというと その理由は,吉田 (1980)によると実際の研究では,母数の推定も必要であるが,それよりも,新しい飼料 Aが,慣用の対照飼料 Aより優れているかどうかの判断が必要となるケースが多い.この判断を確率論に基づい て下すのが,統計的な仮説の検定法である.新飼料 Aがよいだろうと考えるからこそ,実験を計画するはずで あって,Aがだめだと分かっておれば,実験を計画する気にはならないだろう. しかし,統計的な方法では,まず,飼料 AAは同じ飼料価値を持つという仮説をたてる.すなわち,A>Aという予測に反する,A=Aという仮説をたてる.そして,データから見て,A=Aとはいえない場合, この仮説を捨てて,AAは同じではないと判断する.このように,統計的な仮説の検定は,ひとひねりひ ねった道順をたどるもので,内心は,A>Aと思っていながら,A=Aという仮説をたて,実はそれが誤りで A≠Aを証明する手順をとる.我々毒性・効果・薬理試験を担当しているものは,できれば捨ててしまいたい 仮説,A=Aを,帰無仮説と呼んでいる.対立仮説はこの逆であるが,調査および試験を目的とする分野は帰 無仮説をとる. 2. 有意差の P 値とは? P probability (確率)を示す. P0.05 で有意差ありとは,差がないのに誤って「差あり」としてしまう危険率が 5%以下を示す.したがっ て,差がないという帰無仮説は危険率 5%以下で捨てられ,有意差を示したことになる.この有意水準 P 値は, あくまでも試験結果を考察する上での目安であって,算出された群間の差の方が重要である.このように統計 処理は,算出された差について検定しているのであるから,群間の差が 10%以上も認められる体重や幾つかの 血液検査値・臓器重量の場合は,この差に注目すべきであり,有意水準は二の次であることを付け加えたい. またこの P 値と仮説検定の手順を説明する. 測定値および統計手法を選択する. 検定の有意水準 α を選択する.この際 2α (両側検定)または α (片側検定)のどちらを選択するかを決めておく. P 値を計算する. P 値が α より大きければ帰無仮説を棄却し群間差を示したことになる (津谷ら, 1995). 3. 有意水準値は何%水準のとり方については,5%にするか 1%にするかまた 0.1%にするか,どう決めるかという問題である.一 般的には,前述の 3 点をとるが,有意水準値を何%に設定するのが望ましいのかは,推計学の問題ではなく, 人生観・社会観・自然科学の問題である.たとえ同じ 1%水準といっても,それが赤血球数の差が認められるか どうかの場合の危険率と飛行機が墜落する危険率とでは,おのずから異なることが理解できよう.つまり,危 険率を何%にするかは,仮説が正しいにも関わらず仮説を捨ててしまうという誤りを犯した時に,こうむる損 害の重大さによって決めるべきである.生物統計解析では,有意水準値の境界をここ半世紀のあいだ国際的に 5%水準としている. なぜ生物試験では 5%の危険率を採用するのか? 1) 統計が育てられた農学の領域では,大学を出て 20 年くらいは現役で実務に就く.種子を蒔き収穫を調べる という試験では,1年単位である.そこで長い研究生活のうち,1回位の言い過ぎは,人の常として許し てよかろう.20 回に 1 回ということで 5%の線が認知された. 2) 八百長賭博の心理的な研究から,そうはざらにないという基準がおおよそ 5%になる. 3) 碁でもテニスでもよいが,ほぼ互角と思える相手と何回か勝負し,続けて負けたとする.この時何回続け て負けたら相手の方が強いと認めるだろうか.人の性格にもよるが,3 回で認める人は少ないだろう.3 ぐらいなら,互角の相手に続けて負けることが珍しくない.それが 4 回続けて負けたとなると大抵の人は 弱気になるに違いない.更に 5 回となるとどうであろうか, 5 回続けて負けたら,互角という帰無仮説を棄 却して,相手が強いことを認めるのが常識な判断であろう.相手が互角の時に 1 回負ける確率は 1/2 である. 5 回続けて負ける確率は (1/2) =0.03, すなわち 3%程度である.すなわち,「5 回続けて負けたら,相手が強
Transcript
Page 1: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

9

第 2 章 統計用語 1. 帰無仮説 (Null hypothesis) 一般的に統計処理は,この帰無仮説を設定することから始まる.

“全群間または二つの群間に差がない“という仮説 5%水準で有意差 (P≦0.05)があれば帰無仮説を捨て差がありと判断する.なぜ帰無仮説をとるのかというと

その理由は,吉田 (1980)によると“実際の研究では,母数の推定も必要であるが,それよりも,新しい飼料 A1

が,慣用の対照飼料 A2より優れているかどうかの判断が必要となるケースが多い.この判断を確率論に基づい

て下すのが,統計的な仮説の検定法である.新飼料 A1がよいだろうと考えるからこそ,実験を計画するはずで

あって,A1がだめだと分かっておれば,実験を計画する気にはならないだろう. しかし,統計的な方法では,まず,飼料 A1と A2は同じ飼料価値を持つという仮説をたてる.すなわち,A1

>A2という予測に反する,A1=A2という仮説をたてる.そして,データから見て,A1=A2とはいえない場合,

この仮説を捨てて,A1と A2は同じではないと判断する.このように,統計的な仮説の検定は,ひとひねりひ

ねった道順をたどるもので,内心は,A1>A2と思っていながら,A1=A2という仮説をたて,実はそれが誤りで

A1≠A2を証明する手順をとる.我々毒性・効果・薬理試験を担当しているものは,できれば捨ててしまいたい

仮説,A1=A2を,帰無仮説と呼んでいる.”対立仮説はこの逆であるが,調査および試験を目的とする分野は帰

無仮説をとる. 2. 有意差の P 値とは? P は probability (確率)を示す. P≦0.05 で有意差ありとは,差がないのに誤って「差あり」としてしまう危険率が 5%以下を示す.したがっ

て,差がないという帰無仮説は危険率 5%以下で捨てられ,有意差を示したことになる.この有意水準 P 値は,

あくまでも試験結果を考察する上での目安であって,算出された群間の差の方が重要である.このように統計

処理は,算出された差について検定しているのであるから,群間の差が 10%以上も認められる体重や幾つかの

血液検査値・臓器重量の場合は,この差に注目すべきであり,有意水準は二の次であることを付け加えたい.

またこの P 値と仮説検定の手順を説明する. 測定値および統計手法を選択する. 検定の有意水準 α を選択する.この際 2α (両側検定)または α (片側検定)のどちらを選択するかを決めておく. P 値を計算する. P 値が α より大きければ帰無仮説を棄却し群間差を示したことになる (津谷ら, 1995).

3. 有意水準値は何%?

水準のとり方については,5%にするか 1%にするかまた 0.1%にするか,どう決めるかという問題である.一

般的には,前述の 3 点をとるが,有意水準値を何%に設定するのが望ましいのかは,推計学の問題ではなく,

人生観・社会観・自然科学の問題である.たとえ同じ 1%水準といっても,それが赤血球数の差が認められるか

どうかの場合の危険率と飛行機が墜落する危険率とでは,おのずから異なることが理解できよう.つまり,危

険率を何%にするかは,仮説が正しいにも関わらず仮説を捨ててしまうという誤りを犯した時に,こうむる損

害の重大さによって決めるべきである.生物統計解析では,有意水準値の境界をここ半世紀のあいだ国際的に

5%水準としている. なぜ生物試験では 5%の危険率を採用するのか?

1) 統計が育てられた農学の領域では,大学を出て 20 年くらいは現役で実務に就く.種子を蒔き収穫を調べる

という試験では,1年単位である.そこで長い研究生活のうち,1回位の言い過ぎは,人の常として許し

てよかろう.20 回に 1 回ということで 5%の線が認知された. 2) 八百長賭博の心理的な研究から,そうはざらにないという基準がおおよそ 5%になる. 3) 碁でもテニスでもよいが,ほぼ互角と思える相手と何回か勝負し,続けて負けたとする.この時何回続け

て負けたら相手の方が強いと認めるだろうか.人の性格にもよるが,3 回で認める人は少ないだろう.3 回

ぐらいなら,互角の相手に続けて負けることが珍しくない.それが 4 回続けて負けたとなると大抵の人は

弱気になるに違いない.更に 5 回となるとどうであろうか,5 回続けて負けたら,互角という帰無仮説を棄

却して,相手が強いことを認めるのが常識な判断であろう.相手が互角の時に 1 回負ける確率は 1/2 である.

5 回続けて負ける確率は (1/2)5=0.03, すなわち 3%程度である.すなわち,「5 回続けて負けたら,相手が強

Page 2: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

10

いと認める」という判断基準では,本当は互角なのに相手が強いと判断する確率,第一種の過誤の確率が

5%程度はあることになる (吉村ら,1987). 2 回続けて負ける確率は, (1/2)2=25%, 3 回続けて負ける確率は, (1/2)3=12.5% 4 回続けて負ける確率は, (1/2)4= 6.3%,5 回続けて負ける確率は, (1/2)5= 3.2%

“確実な現象”,”少ない確率” 「十中八九は確実だが,万に一つの場合もあるので」という表現を使う.この場合,80~90%が「確実なこ

と」で 1 万分の 1,すなわち,0.01%が「まれな現象」となる. また,「親の意見となすびの花は万に一つも無駄がない」という言葉がある.統計では,信頼率 95%や 99%,

あるいは,まれな確率とする「有意水準」が 5%や 1%とはどのようなものか? サイコロの出目は一回だけ当ててもマグレ当たりといわれる.でたらめで出る目を 1 回当てる確率は 6 分の

1 で約 16%,2 回当てる確率は 36 分の 1 で約 3%である. また相手が引いたカードを当てるトランプ・マジックで種も仕掛けもなくでたらめに適当な数値をいって当

てる確率は 52 分の 1 で約 2%である.これを当てたら見事大当たりとなる.日常感でも”1%は「まれな現象」”,そして,”5%は少しゆるめの「まれな現象」”といえる. たくさんの部品を扱う精密機械や電子機器などの場合,一つひとつの部品が一定の使用期間内に故障を起こ

さない確率が 99.999999(9 が 7 つ:セブン・ナイン)でも,100 万個の部品を使うシステムでは,故障を起こ

さない確率は 90%,800 万個なら 43%となる.だから,半導体の材料として使われるシリコンの純度は,

99.999999999(9 が 11 つ:イレブン・ナイン),10000 億個のシリコン原子の中に紛れ込んでいる他の原子がた

ったの 1 個の状態に精錬されたものである(郡山,和泉,1997). ルーレットと確率 ルーレット盤は,永久運動を研究していた 18 世紀のフランス哲学者・科学者のブレーズ・バスカルである.

ルーレット版には記憶がない,回転はそれぞれ独立しているのなら,どうして運のよい結果が何度も続けて出

るように思われるのか? モンテカルロのカジノのルーレット盤には,スロットルが 37 個アリ,0~36 までの番号が付いていて,ルー

レット盤が回転すると最後にいずれかのスロットに小さい金属の玉が転がり込む.客は偶数か奇数に賭ける.

もちろん,1~36 までだけを考えれば,偶数 18 個,奇数 18 個があるのでカジノの収支はとんとんとなる.平

均して,賭けの半分は奇数,半分は偶数への賭けなのでカジノはかけ手の半分から巻き上げ,もう半分には金

を支払う.ところが,0 があるおかげで,カジノはルーレットで利益を上げる事ができる.ゼロは偶数でも奇

数でもないと見なされている.球が 0 に転がり込むと,賭けられた金はカジノの総取りとなる.したがって,

カジノが勝つ可能性は,37 個のスロットの一つから生まれる.球が 0 に転がり込む確率は 1/37 で,ルーレット

は一日でおおよそ 500 回転するので,奇数と偶数のどちらに賭けられた金もカジノの取り分になることが 1 日

平均 13 回か 14 回ある. 米国のカジノのルーレットは一層カジノ側にとって得だ.0 と 00(ダブルゼロ)があるので,球が「中立」

の数に転がり込んで,奇数と偶数のどちらに賭けられた金額もカジノが取る確率は 2/38 である.いずれにせよ,

どちらに賭けた金もカジノのものとなる確率はかなり高い(1/37 は 2.7%,2/38 は 5.3%).そして,こうした確率

は長期的に確実に成り立つ.出目が偏らないように技術者によって毎日検査されている(ホランド著,林訳,

2004). 4. 5%水準の棄却限界値は,以下 (P≦0.05)または未満 (P<0.05)のどちらを基準にして判定するのか? この決まりはない,試験結果を判断する責任者が判断すればよい.各検定法の分布表の値(棄却限界値)も

算出者によってその桁数は,小数点以下 3 から 7 桁と異なる.これは概して数学者の書いた文献は,その桁が

大きく,生物学者は,それが小さい.以下または未満かどちらが多く使用されているか幾つかの動物試験に対

して調査したところ,内外を問わず両者に差はないようである.著者は,いまだにこの棄却限界値と同一な計

算値を得たことはない.一般的には,5%以下で判定したという場面が多い.したがって,P≦0.05 と表示をした

方がよいと思う.20 回に 1 回の過ちは許そうという万国の取り決めからもそう願いたい.

Page 3: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

11

5. 5%水準と帰無仮説の把握 “丁・半”とは?

“丁”とは,丁度で偶数,”半”とは,半端で奇数のことである.サイコロの目の話である.時代劇映画の「座

頭市・水戸黄門」でおなじみの場面である.丁・半は,二つのサイコロの出目に対する合計値である.敗者は

全額没収される.勝者は,掛け金の二倍が還元されるが,胴元が掛け金から 10%減額したものを勝ち金額とし

て掛け金に沿えて顧客に還元される.つまり胴元は負けても掛け金の 10%は懐に入る(仲田,1998). したがって,日本の博打は西洋のルーレットと異なり,かなり良心的である.また「イカサマ」とは漢字で

書くと「如何様」でいかにもそうだと思わせるようなまやかしものを,いわゆるインチキのことである.イカ

の墨で証文を書くと一年後には劣化のため消えているという. 賭博場である.プロの壺振り士がいて,丁・半をかなり自由に振り分けているらしい.胴元は,最近どうも

賭が減っておかしいと思っていたところ,顧客の一人から「八百長」の苦情があった.そこで壺振りが怪しい

とにらんだ胴元は手下に「100 回のうちで丁と半が何回ずつ出たか数えろ」と命令した.結果は,丁=46,半=54であった.統計処理の結果は「八百長とはいえない」であった.次の日,同じ客から「やっぱり八百長だ」と

苦情があったので,手下に「今度は 1000 回数えて来い」と命令した.結果(表 1),丁=512,半=488 で,やは

り「八百長とはいえない」と結論した.

表 1. 第一・二回目の調査結果

丁半 丁=46, 半=54 丁=512, 半=488

期待値 (%) 50 50

有意水準 (%) 42.4 44.8

翌々日,その顧客から「なにいってんだ!ふざけんじゃねー,八百長だ!」といわれた胴元は,手下に「丁

と半とがどんな順番に出たか 50 回分記録して来い」と命令した.結果は,丁丁半丁半丁半半丁丁半半丁半丁丁丁丁

半半半半丁半半丁半半丁丁半半半丁丁丁半半半半丁丁半丁半丁半半丁半 (丁=23, 半=27)であった (規則性があれば八百

長が分かると思ったのだが).丁と半の出方が本当にランダムかを検定するには,Run 検定 (ラン検定)を行えば

よい. 丁丁 半 丁 半 丁 半半 丁丁 半半 丁 半 丁丁丁丁 半半半半 丁 半半 丁 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

半半 丁丁 半半半 丁丁丁 半半半半 丁丁 半 丁 半 丁 半半 丁 半

16 17 18 19 20 21 22 23 24 25 26 27 28 Run の数=28,丁の数=23, 半の数=27

2.11966.1476409.3

16.4

)1()()2(2

12

212

21

212121

21

21

===

-++--

úû

ùêë

é-

+-

=

nnnnnnnnnn

nnnn

σ=28, ランの数,n1=23, n2=27 Run 検定法結果,Z=1.1966 (計算値)に対する,正規分布表 (数表 1-1)の片側は 0.1170 で両側検定のため 2 倍

すると 0.234 (23.4%)となる.したがって,5%水準で有意差は認められないことになる.

Page 4: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

12

数表 1-1. 正規分布表 (Z score for normal distribution) (Gad et al,1986)

比例部分 Z 値

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379 1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170

1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985

ということは丁と半はランダムであり八百長はなかったとなる.ところが賭は減るし,複数の客から「もっ

とよく調べろ」と怒鳴り込まれるし,途方に暮れた胴元であったが,手下に「気づかれないように天井裏から,

客一人一人について丁半のどちらにいくら張ったかを,50 回分正確に記録して来い」と命じた.その結果は,

表 2 に示した. その結果,客 D が高額を賭けた時は必ず客 D が勝ち,客 D が少額を賭けた時には客 D が必ず負けることが

分かった (P<0.05).この関係は,検定の結果 (カイ二乗検定),統計学的に有意であったので,壺振り士と客 Dをつるし上げたところ八百長を自白したのであった.

表 2. 2×2 のクロス検定 (カイ二乗検定)

SAS JMP に入力する数値および尺度を表 3 に示した.

表 3. 2×2 のクロス検定 (カイ二乗検定)

SAS JMP による解析結果を下記に示した. 分析→ニ変量の関係→掛け金の額を(X) 説明変数へ・勝負の結果を(Y) 目的変数へ→該当人数を重みへ

→OK・・・・・モザイク図・分割表・検定が表示される.

高額 低額 計

勝ち 16 9 25

負け 9 16 25

25 25 50

賭金の額 (文字)名義尺度

勝負結果 (文字)名義尺度

該当人数 (数値)連続尺度

高額 勝ち 16 低額 勝ち 9 高額 負け 9 低額 負け 16

Page 5: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

13

カイ二乗の計算値=3.92,P=0.047 or P<0.05 で有意差を認めた. 生データ(個体データ)を入力する場合を以下に示す.

勝ち 高額 勝ち 高額 勝ち 低額 負け 高額 負け 低額 勝ち 高額 勝ち 高額 勝ち 低額 負け 高額 負け 低額 勝ち 高額 勝ち 高額 勝ち 低額 負け 高額 負け 低額 勝ち 高額 勝ち 高額 勝ち 低額 負け 高額 負け 低額 勝ち 高額 勝ち 高額 勝ち 低額 負け 低額 負け 低額 勝ち 高額 勝ち 高額 負け 高額 負け 低額 負け 低額 勝ち 高額 勝ち 低額 負け 高額 負け 低額 負け 低額 勝ち 高額 勝ち 低額 負け 高額 負け 低額 負け 低額 勝ち 高額 勝ち 低額 負け 高額 負け 低額 負け 低額 勝ち 高額

勝ち 低額

負け 高額

負け 低額

負け 低額

順次縦につづく SAS JMP による解析結果を下記に示した. 分析→ニ変量の関係→掛け金の額を(Y)目的変数へ・勝負の結果を(X)説明変数へ→重みは無い→OK・・・・・

モザイク図・分割表・検定が表示される.

Page 6: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

14

集計データの場合と同一の結果が得られる.カイ二乗検定では集計データを使用した方が操作

しやすい. 高額,低額,勝ちおよび負けの間に 5%水準で有意差を示す. ここで 50 回中に現れる頻度がどの程度で有意差が認められるか検討した結果を表 4 に示した. カイ二乗検定の適合度の検定・理論値との一致性の検定 (佐藤,1968)による.

表 4. 50 回の勝負で勝ちと負けが 1:1 とした場合の有意差検出パターン

50 回中 P= 50 回中 P= 50 回中 P= 50 回中 P=

勝ち 26 勝ち 20 勝ち 19 勝ち 18

負け 24 0.77

負け 30 0.15

負け 31 0.089

負け 32 0.047*

*P<0.05, 結論:18:32 の比率となると作為的となる. 舌自慢を検定する話・・・・酒のブランドが分かるか・・・・・ 目かくしテスト:10 人が 5 社のビールの銘柄を当てる目かくしテストの結果,全部正解はゼロ,正解なしが

2 名という成績 (週間文春,S39.6.1)であった.仮説検定の考え方を適用するとどうなるか(佐藤,1968)?ブラン

ドが 3 つの場合:スコッチウイスキーのオールドパー,ブラック・アンド・ホワイトおよびジョニー・ウオー

カーの 3 銘柄当ての試験結果である.手法:各ウイスキーの前に該当と思われるカードを置く.イのウイスキ

ーの前にイのカードを置けば正解となる(表 5). ①ブランドを区別できないという仮説つまり,帰無仮説(ゼロ仮説)をたてる. ②3 つの銘柄を全て当てる確率を計算する.

表 5. 目隠しテスト(1) ウイスキー (イ) (ロ ) (ハ ) 正解の数

[イ] [ロ] [ハ] 3 [イ] [ハ] [ロ] 1

カードの [ロ] [イ] [ハ] 1 並べ方 [ロ] [ハ] [イ] 0

[ハ] [イ] [ロ] 0 [ハ] [ロ] [イ] 1

表 6. 目隠しテスト(1)の結果

上記の結果をまとめると次のようになる 正解の数 その起こり方

3 1 通り 1 3 通り

0 2 通り

1+3+2=6

全部で 6 通りの並べ方がある.完全な正解は 1 通りである(表 6).したがって,マグレ当たりで完全正解に

なる確率は 1/6 すなわち,16.7%である.5%より大きい値となる. ブランドが 4 つの場合はどうか? (佐藤,1968):3 種のウイスキーに加えて国産高級ウイスキーを 1 銘柄加

えた場合を表 7 に,その結果を表 8 に各々示した.

表 7. 目隠しテスト(2) (イ) (ロ) (ハ) (ニ) 正解数 (イ) (ロ) (ハ) (ニ) 正解数 イ ロ ハ ニ 4 ハ イ ロ ニ 1 イ ロ ニ ハ 2 ハ イ ニ ロ 0 イ ハ ロ ニ 2 ハ ロ イ ニ 2 イ ハ ニ ロ 1 ハ ロ ニ イ 1 イ ニ ロ ハ 1 ハ ニ イ ロ 0 イ ニ ハ ロ 2 ハ ニ ロ イ 0

Page 7: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

15

ロ イ ハ ニ 2 ニ イ ロ ハ 0 ロ イ ニ ハ 0 ニ イ ハ ロ 1 ロ ハ イ ニ 1 ニ ロ イ ハ 1 ロ ハ ニ イ 0 ニ ロ ハ イ 2 ロ ニ イ ハ 0 ニ ハ イ ロ 0 ロ ニ ハ イ 1 ニ ハ ロ イ 0

表 8. 目隠しテスト(2)の結果

上記の結果をまとめると次のようになる 正解の数 その起こり方

4 1 通り 2 6 通り 1 8 通り

0 9 通り

1+6+8+9=24

全部で 24 通りの並べ方がある.完全な正解は 1 通りである.したがって,マグレ当たりで完全正解になる確

率は 1/24 すなわち,4.2%である.5%より小さい値となる. 4.2%=<5%の解釈は,P<0.05 であるということで,差がないという帰無仮説が 5%の危険率で棄却され,識別

能力を認めたことになる.または有意水準 5%で 4 銘柄を当てたことになる. 6. 両側検定と片側検定のどちらを選ぶ 両側検定:①単に群間差があるかどうかの問いかけの場合 ②群間の差の正負が事前に想定できない場合 ③試験責任者が正負の両方向同時の結果を望む場合 片側検定:①強弱を扱う問いかけの場合 ②群間の差の正負が事前に想定できる場合 ③試験責任者が一方向のみの重要性を指摘する場合 したがって,結果および考察には,両側検定を採用した場合は,単に差があったとしか述べられないのに対

して片側検定を採用した場合は,群間差が 30%増加または減少したと述べることができる.したがって,我々

の分野では,調査する場合何らかの期待があるはずと思われることから片側検定を適用したい.多くの文献は

どちらの検定で実施したかを明記していないものが極めて多い.両側検定は 2α で片側検定は α で表示する. “一般的には両側検定で吟味した方が無難である.自信があれば検出力の高い片側検定で実施したい” 食パン 1 斤は 450g である.砂糖 1 斤は 600 g である.食パン 1 斤が本当に 450 g であろうか? 7 日間につ

いて調べた結果を表 9 に示した.一斤は日本固有の単位で各業界にて適当に重さを決めている.

表 9. 7 日間について食パンの重量を調べた結果 個体値:444, 434, 450, 430, 458, 446, 422 g 平均値:440 g,標準偏差:±11.4 g

14.2

174.11450440

-=

-

-=t

数表 2-1. t-分布表(吉村ら,1987)

DF\2α* 0.2 0.1 0.05 0.02 0.01 0.002 0.001 DF\α** 0.1 0.05 0.025 0.01 0.005 0.001 0.0005

5 1.476 2.015 2.571 3.365 4.032 5.893 6.869 6 1.440 1.943 2.447 3.143 3.707 5.208 5.959 7 1.415 1.895 2.365 2.998 3.499 4.785 5.408

*両側検定,**片側検定

Page 8: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

16

両側検定を採用してみると,t-分布表の値(棄却限界値)は 2.447 で,計算結果の 2.14 より大きい

(数表 2-1 参照).したがって,差が無いという「帰無仮説」は捨てることができない. しかし,我々は「食パンが小さいのではないか?」という仮説をたてるのが一般的である.食

パンが大きければ問題は無い.したがって,片側検定が妥当となる.片側の 5%水準点は, 1.943である.計算値の 2.14 は 1.943 より大きい.したがって,5%水準で「差が無いという帰無仮説」

は捨てられ,10 g 少ないことになる. 7. 両側検定および片側検定で実施した場合の有意差検出の差異 t-検定と Dunnett 検定それぞれの両側および片側検定による有意差検出の差異を表 10 に示した.t-検定による

検定結果,片側検定に対して両側検定による有意差検出数は少なく片側検定のそれに比較して平均 85 (76-95)%を示した.Dunnett 検定による検定結果,片側検定に対して両側検定による有意差検出率は平均 86 (71-95)%を

示した.すなわち,t-検定および Dunnett 検定各の片側検定および両側検定による有意差検出率の動向は,同様

の傾向を示し,両側検定による有意差検出数は少なく,片側検定のそれに比較して 85%前後を示した.

表 10. ラットを用いた慢性毒性/発癌性併合試験に対する仮説を片側および両側検定で 吟味した場合の有意差 (P<0.05)検出数の差異

t-検定 Dunnett の多重比較検定 測定項目 検定回数

片側検定 両側検定 片側検定 両側検定

体重 528 246 (100) 233 (95) 223 (100) 212 (95)

飼料摂取量 832 349 (100) 279 (80) 235 (100) 189 (80)

血液学的検査 352 159 (100) 126 (79) 123 (100) 105 (85)

生化学的検査 576 272 (100) 235 (86) 215 (100) 181 (84)

尿検査 64 11 (100) 10 (91) 7 (100) 5 (71)

臓器重量 224 80 (100) 61 (76) 47 (100) 42 (89)

臓器重量体重比 224 104 (100) 89 (86) 82 (100) 67 (81)

合計 2800 1221 (100) 1033 (85) 932 (100) 801 (86)

8. t-検定および Dunnett 検定の棄却限界値の比較検討 t-検定および Dunnett 検定の各 5%の棄却限界値 (分布表)を抜粋し数表 1-1 に示した.両側検定の表の値に対

して片側検定の棄却限界値は 1/2 とはならず t-検定では 0.78 となり,Dunnett 検定で 4 群設定の場合は 0.85 とな

る.コンピュータがさほど多くなかった時代,用手法の時代は,計算値を下記の棄却限界値と比較して大きけ

れば有意とした.しかし,SAS JMP などでは,確率が直接表示されることから,最近では棄却限界値 (分布表)はさほど必要でなくなった.

数表 1-1. t-検定および Dunnett の多重比較検定の両側および 片側検定による棄却限界値 (吉村ら,1987)

5%の棄却限界値

t-検定 Dunnett の多重比較検定* 自由度

両側検定 片側検定 両側検定 片側検定 1 12.706 6.314 -- -- 2 4.303 2.920 -- -- 3 3.182 2.353 3.867 2.912 4 2.776 2.132 3.310 2.598 5 2.571 2.015 3.030 2.433 6 2.447 1.943 2.863 2.332 7 2.365 1.895 2.752 2.264 8 2.306 1.860 2.673 2.215 9 2.262 1.833 2.614 2.178

Page 9: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

17

10 2.228 1.812 2.268 2.149 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 21 2.080 1.721 2.370 2.021 22 2.074 1.717 2.363 2.016 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 31 2.040 1.696 2.317 1.986 32 2.037 1.694 2.314 1.984 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 41 2.020 1.683 2.291 1.969 42 2.018 1.682 2.289 1.968 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 60 2.000 1.671 2.265 1.952

120 1.980 1.657 2.238 1.934 240 1.970 1.651 -- -- ∽ 1.960 1.645 2.212 1.916

比率** 1:0.78 1:0.85 * 4 群設定の場合. **両側検定値の合計を 1 とした場合の値. 9. 両側および片側検定の使用状況 文献 (論文)からの傾向を表 11 に示した. (1)日本国内の 3 誌はどちらかを記載した論文は両側検定のみで,

ほとんど記載がなく片側検定の使用はなかった. (2)TAP 誌の 103 論文中 87 が記載なし,12 論文が両側検定ま

た 4 論文が片側検定の使用であった. (3)FTC 誌の 51 論文中 33 が記載なし,15 論文が両側検定の使用また 3論文が片側検定の使用であった.この中で,Drewitt et al. (1993)は, 予備試験では t-検定の両側検定を用い,本

試験では片側検定を使用していた.Shertzer et al. (1991) は,代謝試験において分散分析で吟味し有意差を示し

た場合,群間の検定を t-検定の片側検定で実施していた.上述の出典論文は,少し古いが現在 (2007) も大きな

変化はない. 表 11. 実験動物を用いた安全性試験に用いられる両側

および片側検定の使用状況 論 文 数

調査文献 片側検定 両側検定 記載なし

医薬品研究 0 5 25 応用薬理 0 3 58

日本癌学会誌 0 5 20 TAP 4 12 87 FCT 3 15 33

TAP: Toxicology and Applied Pharmacology. FCT: Food and Chemical Toxicology. 以下に示す 7 つの論文の記述を示す. 1) Shirley et al. (1997) は Student および Cochran の t-検定で両側検定を使用している.そして分散分析で有意

差が認められた場合,Dunnett 検定の片側検定で実施している. 2) Dunnett (1955)は,対照群と各用量群間の差を高い・低い両方について検定したい場合は両側検定を,また

対照群に対して高いか低いかのどちらかを検定したい場合は,片側検定で実施することを推奨している. 3) Gad et al.(1986)は,体重差の検定に両側検定を使用している. 4) 吉村ら(1992, 1987)は,片側検定を推奨している.なぜならば毒性試験の多くの場合,試験責任者は平均値

の増加が対照群に対して認めたか否かによって評価する.更に定量データを対照群と比較する場合は,片

Page 10: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

18

側検定で吟味するべきといっている.そしてこの設定は試験前に設定する.両側検定は試験前にその反応

が予測できない場合に使用すべきである.試験後の選択は第一種の過誤を招く.群間差の有意差検出力の

増加は,重要なことである.通常毒性試験では,試験責任者が試験前に被験物質の生物学的または薬理学

的影響を推察して決定する. 5) 佐久間(1977)は,片側または両側を採用するかは,どちらの研究の内容にふさわしいかを吟味することと,

また同種の試験の報告を参考にすることを強調している. 6) 中村(1986)も検定が片側検定になるか両側検定になるかは,検定目的・内容から決まるものであって,統計

を前提にしてはならないと述べている. 7) 石居(1975)は,両者の差が正か負のどちらかの片側だけを考えればよいのか,あるいは正負の両側ともに考

慮しておかなくてはいけないかによって両者を使い分けすることが必要であると述べている. 有意差は,両側または片側検定の選択によって評価が変化する.公表文献は,片側検定の使用例が少ない.

米国 NTP/NIHs の既存化学物質の短期および長期毒性・発がん性試験では,傾向検定を含めて全て片側検定を

使用している. 化審法による既存化学物質 122 の報告書に記載されている統計解析法について調査し分類した.

体重,臨床検査値および器官重量などの定量値に対する有意水準(棄却限界値)を片側または両側かどちら

によって有意差を検出したか,その結果を表 12 示した.

表 12. 有意水準を片側検定・両側検定の表示試験数(定量値) 仮説 片側検定 両側検定 表示なし 合計

試験本数 22 13 87 122 両側検定に比較して片側検定の表示が多く認められた.また表示なしの試験数が 87 と大半を占めた. 尿検査値および病理学的所見などの定性値に対する有意水準(棄却限界値)を片側または両側かどちらによ

って有意差を検出したか,その結果を表 13 に示した.

表 13. 有意水準を片側検定・両側検定の表示試験数(定性値) 仮説 片側検定 両側検定 表示なし 合計

試験数 34 22 70 126 最も多い記載は,表示なし,片側検定および両側検定の順であった. 10. 第一種の過誤 帰無仮説が正しい (違いがない)にも関わらず,誤って帰無仮説を棄却 (違いがあると判断)する過ちを,第一

種の過誤と呼ぶ.以下に二つの例を用いて説明する. 1) 3 群以上の平均値の比較に,2 群間比較に用いる t-検定の繰り返しを行うことは,問題であるとされている.

3 群以上設定の場合,2 群間比較の t-検定で平均値の比較を繰り返すと,α=0.05 で有意か否かを検定しても,

比較の回数が増えると 1 回 1 回の比較に α=0.05 が使用されることになることから,実際には α は 0.05 以

上 (4 群設定で対照群との比較の場合は α=0.13 となる)になる.したがって,多群を設定した場合,t-検定による有意差検定を繰り返ことは,偶然による有意差ありの確率を増やすことになる.表 14 に実際のデ

ータから第一種の過誤について検討する.

表 14. B6C3F1雌マウスを用いた 13 週間毒性試験の肝重量

Tukey-Kramer's 多重範囲検定

t-検定の 繰り返し 試験群 標本数 平均値±S.D.

A B C A B C

A 10 1.083±0.057 - - - - - -

B 10 1.098±0.077 NS - - NS - -

C 10 1.154±0.050 NS NS - * NS -

D 10 1.273±0.062 * * * * * *

NS; Not significant, *; P<0.05.

Page 11: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

19

全ての対の比較に用いる Tukey-Kramer 多重範囲検定法を用いた場合,有意差は 3 群間に認められるのに対し

て,2 群間検定の t-検定では 4 群間に認められる.試験群 A (1.083)と C (1.154)の小さい差の 6.5%は,第一種の

過誤となる. SAS JMP では,サンプルデータの「ゴルフポール」の耐久性について t-検定と Tukey-Kramer’多重範囲検定

の検定で実施する.両者の検定結果は異なる.t-検定は Tukey-Kramer's 多重範囲検定に比較して有意差が多

く認められる.分析→ニ変量の関係→ブランドを説明変量へ・耐久性を目的変量へ→アクション OK→図の

赤三角をクリック→平均値の比較→各ペア,Student の t-検定→次に全てのペア,Tukey の HSD 検定,t-検定では有意差がブランド A および B に対してブランド C に認められる.しかし,Tukey の検定では,全

ての組み合わせで有意差が認められない. 2) t-検定および Dunnett の検定などは,二群間の差を群間の標準誤差の割合によって判断する.表 15 に示し

た通り群間差が 3 では,有意差が認められないが,仮に各群の標本数を 1000 とした場合 P<0.001 で有意差

を示す.これが第一種の過誤である.

表 15. t-検定による結果

群 平均値±標準偏差 標本数 有意差

1 100±8 10

2 103±10 10 なし

3) 生物試験の場合,効果試験では第一種の過誤を毒性試験では第二種の過誤 (差があるのに統計学的に差が

ないと結論すること)を小さくしたいが,完全に両者をコントロールすることはできない.したがって,

ある程度この過誤を認める (全有意差の 5%ぐらい)ことは,生物試験では許される.表 16 に第 1 種の過

誤と第 2 種の過誤の把握の仕方を示した. 4) 最近の過誤の概念から興味ある知見を述べている論文(西,2004)を紹介する.著者は生物統計を長年担

当してきた結果,西の意見に賛成したい.従来の過誤については,Neyman と Pearson らが提唱している理

論を下記に示す.この理論が現在までの通説である.

Neyman と Pearson らの理論 正しい仮説を棄却する過ち----------第 1 種の過誤 間違った仮説を採択する過ち----------第 2 種の過誤

仮説を棄却したり採択したりする決定を行う際に,2 種類の過誤があることを彼らは提唱している.各解析

法ではこの 2 種の過誤を小さくするように数学的に工夫をして説明できるようにしている.西は「過誤の概念

は非現実的である.根本的な問題は,我々が真実を知らないことである.現実の臨床試験では,我々は実験か

ら学び,真実を知りたいと願うのであって,真実がすでに知られており,我々の観察を判断するのに利用でき

る,というようなものではない.現在利用できる情報だけに基づく決定は,それ以上の情報が利用できるとき

には間違っていたと分かることもあり得る.それ以上の情報が得られないとき,決定を行った基になる情報で

その決定の評価を行うことは理論的に不可能である.一つの試験では,試験差そのものから得られる情報が,

利用できる唯一の情報である.利用できる情報の調査と競合する利害の注意深いバランスを考慮した後でのみ,

仮説の棄却や採択の判断が行われる.その後の試験の情報が利用できるようになるまでは,現在の判断が正し

いか誤りかを判断する情報は存在しない.したがって,一つの試験にとっては,過誤の考え方は全く意味を持

たない」と和訳して述べている.

表 16. 第 1 種の過誤と第 2 種の過誤 第 1 種の過誤(α), error of the first kind 第 2 種の過誤(β), error of the second kind

awatemono α (ローマ字の a に相当) bonyarimono β (ローマ字の b に相当) 能力が無い(差が無い)にもかかわらず「あ(a)わてて」見逃す

能力がある(差がある)にもかかわらず「ぼ(b)んやりして」見逃す

犯罪を犯していない(無罪)なのに有罪となる 犯罪を犯してる(有罪)なのに無罪となる 通常は,5%を採用する 通常は,20%を採用する

Page 12: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

20

また標本数を変えることによってP値が変化する例を表 17に示す.データは強心剤と心係数のデータである.

心係数の変化は標準偏差 0.31L/分/㎡ であると仮定する.平均増加量が 0.50L/分/㎡ であれば 10~100 人のどの

標本数であっても統計学的に有意であるのに対して増加量が 0.10L/分/㎡の場合には,標本数に依存して P 値は,

0.29 (有意ではない)~0.001 (有意である)の間の値をとる (津谷・折笠, 1995).

表 17. 標本数数を変えることにより,観測される心係数の 平均増加量別の両側 P 値

標本数 平均増加量 (L/分/㎡) 10 25 100

0.10 P=0.29 P=0.09 P<0.001 0.25 P=0.01 P<0.001 P<0.001 0.50 P<0.001 P<0.001 P<0.001

微細な差でも標本数が極めて多くなると統計学的有意差が検出される.これを第一種の過誤という.

11. 検定結果をどう理解すべきか 統計学的結果に対して生物・医学・病理学・公衆衛生学的 (分野によってここの項は変わる)結果の両者が一

致すれば,算出された群間差は,自信を持って世に問うことができる.試験および調査結果から得られる統計

学的結果と生物学的結果の組み合わせによって表 18 の如く結論が出せる (AOKI, 2006).

表 18. 生物学的有意差と統計学有意差と解釈 生物学的有意差 統計学的結果 解釈

意味がある 有意である 得られた知見すなわち「意味がある」を採用する 意味がある 有意でない 得られた知見すなわち「意味がある」を採用する* 意味がない 有意である 得られた知見は捨てる 意味がない 有意でない 得られた知見は捨てる

*標本数を増やして再度検定を実施するという見解もあるが,著者は生物学的有意を優先したい.

以上のように統計処理はあくまで試験・調査を実施した責任者が群間差を把握するための一つの指標である.

決して統計処理の結果を生物学有意差に優先してはいけない. この理由を説明する例として,ある薬物を各々10 人の皮膚アレルギーを起こしたことのない群と皮膚アレル

ギーを経験した群に分けてパッチテスト (一次刺激性試験)を実施した.試験結果,皮膚アレルギーを経験し

た群の 3 人に軽度の赤色斑が認められた.これを統計処理した場合を表 19 に示した.

表 19. 統計学的有意差と生物学的有意差をどう解釈する

試験群 軽度の赤色斑

を認めた人数 刺激性が認められ

なかった人数 治検人数

アレルギー非経験者 0 10 10 アレルギー経験者 3 7 10

合計 3 17 20

Fisher の直接確率検定で検定した場合,有意差は認められない.ちなみに有意差が認められる発生率は,0/10に対して 4/10 である.統計学的に 3 人の人に対して一次刺激性が認められた.しかし,統計学的には意味がな

いと結論されるが,30%の刺激性は,誰が見ても薬剤の影響と認められよう.この場合,統計処理の応用は不

適当である.ちなみに有意水準値 P は Fisher の直接確率検定が 4.3%およびカイ二乗検定 (Yate's の補正処理)が2.8%である.

Page 13: 全群間または二つの群間に差がない - University of Hyogoarima/lectures/JT-2.pdf · ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は

第 2 章 統計用語

21

【引用文献および引用資料】

石居 進 (1975):生物統計学入門 ---具体例による解説と演習--- , pp68, 培風館,東京.

大村 平 (2002):統計のはなし,日科技連出版,東京.

郡山 彬・和泉澤正隆(1997):統計・確率のしくみ,日本実業出版社,東京.

佐久間昭 (1977):薬効評価Ⅰ,pp56, 東京大学出版会,東京.

佐藤 信 (1968):推計学のすすめ,講談社,東京.

仲田紀夫(1998):「丁か半か」いやイカサマか,東宛社,東京.

中村義作 (1986):よくわかる実践統計,pp106-107,海鳴社,東京.

西 次男(訳)(2004):臨床試験のための統計的方法,pp194-195, サイエンティスト社,東京.

バート・K・ホランド著,林 大訳(2004):確率統計で世界を読む白揚社,東京.

津谷喜一郎,折笠秀樹 監訳 (1995):医学統計学の活用,pp131, 138, サイエンティスト社,東京.

吉田 実 (1980):畜産を中心とする実験計画法, pp53-54,養賢堂,東京.

吉村 功 (1987):毒性・薬効データの統計解析,サイエンティスト社,東京.

吉村 功,大橋靖雄 (1992):毒性試験データの統計解析,地人書館,東京.

AOKI (2006): http://aoki2.si.gunma-u.ac.jp/JavaScript/

Drewitt P N, Butterworth CD, Springall CD and Moorhouse SR. (1993): Plasma levels of aluminum after tea ingestion in healthy volunteers, Fd Chem Toxic 31: 19-23.

Dunnett C W. (1955): A multiple comparison procedure for comparing several treatments with a control, J Am Stat Assoc, 50, 1096-1121.

Gad, S. and Weil, C.W. (1986): Statistics and experimental design for toxicologists, pp283-282, The Telford Press Inc., New Jersey, U.S.A.

Ishikawa, A. et al. (1997): Reproductive toxicity, mutagenicity and antigenicity of pamiteplase, J. Toxicol. Sci, 22, 207-217.

Shirley E. A. (1977): Non-parametric equivalent of Williams' test for contrasting increasing dose levels of a treatment, Biometrics, 33, 386-389.


Recommended