ロジスティック回帰分析とは
ロジスティック回帰分析は、商品の購入確率、病気の発症確率といった二値判別問題に対して回帰分析を考えたいときに有用な手法です。
二値判別問題とは、0か1であるダミー変数を予想、分析するような問題です。
ロジスティック回帰分析を以下の式で表します。
p= 1+ exp(−(a1x1 + a2x2 + ⋯ + anxn + b))1 ... ①
目的変数は確率であるため pと置きました。
この式を見ると、xiがどんな値をとっても目的変数pが0から1までの範囲に収まることが分かります。
aiはxiに対する偏回帰係数です。
最小二乗法での偏回帰係数の導出
線形単回帰分析でも用いた最小二乗法を使って偏回帰係数aiを求めます。
①の式を変形し、以下の式②を導出します。
p= 1+ exp(−(a1x1 + a2x2 + ⋯ + anxn + b))1
1−p= 1+ exp(−(a1x1 + a2x2 + ⋯ + anxn + b)) exp(−(a1x1 + a2x2 + ⋯ + anxn + b))
1−pp= exp(a1x1 + a2x2 + ⋯ + anxn + b)
ここで対数を取ると、
ln1−pp = a1x1 + a2x2 + ⋯ + anxn + b= l ... ②
ln1−pp=y′とすれば、最小二乗法が使える形になっていると確認できます。
式②のlのことをロジットと呼びます。ロジットに対して指数を取るとオッズが出てきます。
exp(l)=1−pp
このオッズは、ある事象が発生する確率と発生しない確率の比になっています。
説明変数の解釈
目的変数に対して説明変数の影響度を比較する方法について説明します。
例として、健康である確率を、血圧、性別、年齢などのn個の要因から予測することを考えます。
まずは血圧の影響を考えましょう。
血圧が150の人をオッズA、180の人をオッズBとし、他の条件に関してすべて同じであるとします。
このとき、オッズ比は次のように表されます。(bpは血圧)
オッズA/オッズB= exp( abp180+asexxsex + ⋯ + anxn +b)exp( abp150+asexxsex + ⋯ + anxn + b)=exp(−30abp)
オッズ比、オッズA/オッズB が1より大きければ、血圧が150の人は血圧が180に人に比べ健康である確率が高いと分かります。
次に、性別の影響を考えましょう。
性別が男性の場合をオッズM、女性の場合をオッズWとし、ダミー変数をそれぞれ男性→1、女性→0とします。
このとき、オッズ比は次のように表されます。
オッズM/オッズW= exp( abpxbp+asex∗0 + ⋯ + anxn +b)exp(abpxbp+asex∗1 + ⋯ + anxn + b)=exp(asex)
血圧のオッズ比exp(−30abp)と性別のオッズ比exp(asex)を求めることができれば、健康である確率に対する血圧と性別の影響度を比較することができます。
この二つの偏回帰係数は、以下の式のabp,asexについて考えることで求められます。
ln1−pp = abpxbp + asexxsex + ⋯ + anxn + b=l
これに対して最小二乗法を用いれば、偏回帰係数abp,asexが求めることができます。
この時exp(−30abp)とexp(asex)を比較し、例えばexp(asex)の方が大きかったとします。
その場合、性別の方が血圧よりも健康である確率に影響を及ぼすと説明できます。
このようにすることで、目的変数に対する説明変数の影響の大きさを比較することができます。