end0tknr's kipple - web写経開発

太宰府天満宮の狛犬って、妙にカワイイ

回帰分析における寄与率(=決定係数)と、残差や相関係数との関係

先程のエントリにも記載していますが、 「寄与率」は回帰分析にもあり、それを混同していたので、再整理。

f:id:end0tknr:20170521193847g:plain

寄与率(=決定係数) の定義式


総平方和: S_T = \sum_{i=1}^{n} (y_{i} -  \overline{y} )^{2}

ここで、  y_{i} は実測値で、  \overline{y} は実測値の総平均。


残差平方和: S_E = \sum_{i=1}^{n} (y_{i} -  \hat{y_{i}} )^{2}

ここで、  \hat{y} はモデル値(予測値)。

これらを用いて、寄与率(=決定係数)は次のように定義されています。


寄与率(決定係数): R^{2} = \frac{ S_T - S_E }{ S_T }

また、上記の「回帰による平方和」を利用し、次のように表すことが可能です。


回帰による平方和: S_R = \sum_{i=1}^{n} (\hat{y_{i}} - y_{i})^{2}

寄与率(決定係数):
R^{2} = \frac{ S_R }{ S_T } =  \frac{ S_T - S_E }{ S_T } = 1 - \frac{S_E}{S_T}

寄与率(=決定係数) は、なぜ Rの2乗で表すか?

相関係数であるRと、寄与率(=決定係数)の間に2乗の関係があることが理由のようです。

更に…自由度修正済み寄与率

先程、記載した寄与率は説明変数が増える程、上昇するらしい。 (実際の説明力の有無に関らず、寄与率が増加…)

そこで「自由度」を考慮し修正した「自由度修正済み寄与率」があるらしい。(以下)


自由度修正済み寄与率( R^{2} ) :
R^{2} = 1 - \frac{ \frac{残差の平方和}{残差の自由度} }
                 { \frac{総平方和}{ n - 1} }

ただし、 n=データ数、残差の自由度 = データ数(n) - 説明変数の数 - 1