Rのこと。

R言語のことをまとめる備忘録

Rで因果推論~その6:実験タイプ~

Note:スマートフォンでは数式が表示されないのでPC版で開いて見る。

はじめに

この記事は因果推論について学習した内容を自分の備忘録としてまとめたものです。 rlang.hatenablog.jp rlang.hatenablog.jp rlang.hatenablog.jp rlang.hatenablog.jp rlang.hatenablog.jp

介入研究と観察研究

今回は、介入研究と観察研究からリスク比とオッズ比についてまとめていく。

この例は 介入研究か観察研究のどちらだろうか。また、因果効果は推定できるか。とあるECサイトを運営する企業が、下記のような新しいサービスを実装したとする。ここではAmzonの「今すぐ買うボタン」のようなものを想像する。無論、「今すぐ買うボタン」の実際の研究ではない点、注意されたい。

f:id:AZUMINO:20190406143243p:plain Source|Amazon

※余談ではあるが、このボタンは個人的にはすごく便利でありがたい機能。

そして、「今すぐ買うボタン」を使った人1000人、「今すぐ買うボタン」を使っていない人1000人を会員マスタから抽出し、1ヶ月の平均注文金額を比較した。t検定の結果として、0.1%水準で今すぐ買うボタンを「使っていない人」よりも、「使っていた人」のほうが1ヶ月の平均注文金額が1万円高く、有意な差があった。さて、この比較は介入研究と観察研究のどちらだろうか。また、「今すぐ買うボタン」は効果があったと言えるのか。

これは、介入研究ではなく、観察研究であり、因果効果は不明である。因果効果は不明である点については、「今すぐ買うボタンを使った人」と「今すぐ買うボタンを使っていない人」で単純に平均年齢(平均30歳と平均20歳)が10歳も高かった(いかもしれない)。基本的には年齢が高いほうが、自由に使えるお金は増える。また、年齢だけではなく、性別、職業、趣味嗜好などが、グループ間で会員の背景情報がずれている可能性が指摘される。この場合、ボタンの効果なのか、年齢の効果なのかの切り分けができない。というように、研究にも種類がある。

介入研究は、疫学とかだったら曝露とかトリートメントとか言うらしいが、「今すぐ買うボタン」が研究のために実験的に割り当てられているかによって決まる。ランダムにトリートメントが割り当てられている研究デザインのことをランダム化比較試験と呼ぶ。

観察研究では、トリートメントを割り当てる際に、分析者は介入することができない。「今すぐ買うボタン」を使うかどうかは会員個人によって決められる。

コホート研究とケースコントロール研究

さらにコホート研究とケースコントロール研究に分解できる。コホート研究はあるアウトカムが発生していない集団(コホート)を、トリートメントグループとコントロールグループにわけて追跡し、アウトカムの発生率を比較するもの。一方で、ケースコントロール研究は、アウトカムが発生した集団とそうではない集団にわけて、トリートメントされているかどうかを調べることで、因果効果を推定する研究。

コホート研究の例としては、プレミアムプランに変更するかどうかに、特定の施策が有効かどうかを調べるため、ある時期にスペシャルクーポンを配布したグループと、そうではないグループにわけて6ヶ月追跡し、プレミアムプランへの変更率を検証する。クーポンありの変更率は2.7%で、クーポンなしの変更率は1.8%であった。リスク比は1.44倍なので、クーポンありの場合、プラン変更が1.44倍起こりやすくなる。

プラン変更あり プラン変更なし 合計
クーポンあり 80 2920 3000
クーポンなし 90 4910 5000
合計 170 7830 8000

ケースコントロール研究の例としては、プレミアムプランへの変更があった人数170人に対して、残りの7930からランダムに会員を抽出し、分析する場合がこれに当たる。クーポンありの変更率は55%で、クーポンなしの変更率は45%となる。リスク比は1.22倍なので、クーポンありの場合、プラン変更が1.22倍起こりやすくなる。ケースコントロール研究におけるリスク比の扱いについては後述。

プラン変更あり プラン変更なし 合計
クーポンあり 80 63 143
クーポンなし 90 107 197
合計 170 170 340

リスク比とオッズ比

これまでにも何度か説明したが、使い方を間違えやすい概念なので、おさらいする。下記の分割表を参考にする。

CVあり CVなし 合計
施策あり 8 6 14
施策なし 11 5 16
合計 19 11 30

まずはリスク比を計算すると、0.57/0.68=0.83となる。つまり、つまり0.83倍起こりやすくなる(=17%CVしなくなるので、施策しないほうがいい)。

次はオッズ比を計算する。1.33/2.2=0.60となる。つまり、CVオッズは0.6倍になる。特定の文脈では同じように扱えが、基本的にはCVが0.6倍起こりにくくなるというように、リスクと同じ文脈で語ることはできない。また、オッズ比は、イベントの発生率が大きくなればなるほど、大きな値になる。

左からリスク比-オッズ比のペアで表現するとリスク比=2-オッズ比=2.25、リスク比=2-オッズ比=3.5、リスク比=2-オッズ比=11となる。リスク比は集団の人数を分母にして比率を計算するが、オッズ比はありとなしの比率を取るため、ありとなしの分布が異なると大きな値を取るようになる。

CVあり CVなし 合計 - CVあり CVなし 合計 - CVあり CVなし 合計
施策あり 20 80 100 - 60 40 100 - 90 10 100
施策なし 10 90 100 - 30 70 100 - 45 55 100
合計 30 170 200 - 90 110 20 - 135 65 200

オッズ比

ここで疑問が生まれる。解釈のしにくいオッズ比は必要なのだろうか。コホート研究とケースコントロール研究の例をつかう。左がコホート研究、右がケースコントロール研究。コホート研究の場合、リスク比は1.5、ケースコントロールの場合、リスク比は1.2、結果がおなじになるようにランダム(7930/170なので46人に1人の割合で抽出すると、2920/46=63人と、4910/46=107人)に抽出したのに結果は異なる。

プラン変更あり プラン変更なし 合計 - プラン変更あり プラン変更なし 合計
クーポンあり 80 2920 3000 - 80 63 143
クーポンなし 90 4910 5000 - 90 107 197
合計 170 7830 8000 - 170 170 340

まず、ケースコントロール研究は後ろ向き研究ということ。つまり、そこから得られるデータは、「プラン変更ありの会員のクーポンありの確率」と「プラン変更なしの会員のクーポンありの確率」となるので、クーポンによるプラン変更のリスクを計算できない。

リスクという考え方は、もともとイベントの起こっていない人の中で、時間経過の中でイベントが起こるということを前提としている。つまり、誰がプラン変更したのか、ということを踏まえて、誰が研究に参加するかを決めるので、時間軸がコホートは逆になっているので、ケースコントロール研究ではリスクを計算できない。

このようなケースでは、オッズ比を使うことで関係を表現できる。今回のケースだとオッズ比は、1.26/0.84=1.51となる。コホート研究の場合、リスク比は1.5なので、ケースコントロール研究からオッズ比を計算すると近い値になった。つまり、コホート研究ではなくても、ケースコントロール研究でオッズ比を求めれば近似的なリスク比を計算できる。今回のようにイベントの発生率が小さければ、リスク比とオッズ比は似たような値になるため、近似可能であるが、そうではない場合には近似できない。また、オッズ比はコホート研究、ケースコントロール研究でも使用可能ではあるが、リスクとは異なる概念なので、リスクのように**倍もイベントが起こりやすい、とは表現できない。