重回帰分析2
数量化理論T類を利用して重回帰分析をします。
前回使ったデータを使用して数量化理論T類を利用した重回帰分析をおこないます。 数量化理論T類は曜日や天気など定性的なデータを使って被説明変数を説明する式を求めます。 月、火などカテゴリを数値化するために定性的データを0、1で表現しなおします。これをダミー変数と言います。 カテゴリに該当する場合は1、該当しない場合に0を入れます。
ダミー変数の例(図3-5
曜日データは月曜日から金曜日までありますが、月曜日〜木曜日までの情報があれば金曜日のデータは推測できるため金曜日の列は削除しておきます。
前回使用したデータを使い実際に重回帰分析をしてみます。
説明変数(アイテム)は、DOW騰落率+0.2%以上、-0.2%以下を定性的データ、6日騰落率を定量的データとして取り扱います。(図3-6
分析結果(図3-7
決定係数は0.011398となります。
また、日中騰落を求める重回帰式はY=−0.00163×+0.2%以上(X1)+0.00077×-0.2%以下(X2)-0.03645×乖離率(X3)−0.00009(切片)となることがわかります。
元は同じデータですが、ダミー変数を使用したものと定量的データのままで重回帰分析をしたのでは結果はかなり異なってきます。具体的な違いは、 システムトレード〜エッジの合成でシステムの性能チェックをしていますので参考にしてください。
Excelに戻る
重回帰分析3
自然対数や多項式を利用して重回帰分析をおこないます。
- ■LN(数値)
- 数値の自然対数を求めます。数値は正の実数値を指定します。
- ■POWER(数値,指数)
- 数値にはべき乗の底を指定します。任意の実数を指定します。
散布図から求められる近似式を利用すれば自然対数や多項式の単回帰分析はできます。 しかし、線形と自然対数、自然対数と多項式のような場合にはグラフから求めることはできません。 この場合は、分析ツールの回帰分析を利用します。
実際に重回帰分析をしてみます。Y軸は標準偏差、X軸は変数の数です。
データは
エッジ概論で使用したものです。(図3-8
右側グラフは、データを散布図にしたものとグラフ機能で線形近似、対数近似を追加したものです。
線形と自然対数
最初に、変数の自然対数を求めておきます。自然対数はLN関数を使い求めます。
セルC3に【=LN(B3)】と入力し下のセルにコピーします。(図3-9
次に分析ツールを使い重回帰分析をおこないます。入力Y範囲は【$A2:$A$28】、入力X範囲は【 $B$2:$C$28】を指定します。ラベルにチェックをいれ出力先を指定し【OK】をクリックします。(図3-10
分析結果(図3-11
決定係数は0.98927と単回帰分析のときよりも向上しています。
また、重回帰式(青線)はY=0.00036×変数の数(X1)+0.00790×LN(X2)+0.00083(切片)となります。(図3-9
自然対数とべき乗
最初に、変数のべき乗を求めておきます。べき乗は【数値^指数】もしくはPOWER関数を使い求めます。
セルD3に【=POWER(B3,3)】と入力し下のセルにコピーします。(図3-13
右側グラフは、グラフ機能で多項式近似(次数3)を追加したものです。
次に分析ツールを使い重回帰分析をおこないます。入力Y範囲は【$A2:$A$28】、入力X範囲は【 $B$2:$D$28】を指定します。
分析結果(図3-8
決定係数は0.98933と自然対数のときよりも若干向上しています。
また、重回帰式はY=0.00039×変数の数(X1)+0.00754×LN(X2)+0.00754×X^3(X3)+0.00083(切片)となります。
決定係数だけを比較した場合、後者の重回帰分析のほうがいいです。
しかし、実際に後者の方が最適な回帰式かどうかは別の話です。なぜなら、説明変数を増やすほど決定係数が良くなることが多いためです。
そこで有効な説明変数かどうかを判断するための指標として説明変数選択基準(Ru)を利用します。
Ruは以下の式で表されます。
Ru=1−(1−R2)×(データ数+説明変数の個数+1)÷(データ数−説明変数の個数−1)
具体的に計算してみます。
・前者(説明変数2つ) Ru=1-(1-0.98927)*(26+2+1)/(26-2-1)=0.98647
・後者(説明変数3つ) Ru=1-(1-0.98933)*(26+3+1)/(26-3-1)=0.98545
となり前者の方がRuはよくなります。よって前者の方がよりよい回帰式ということになります。
説明変数が複数ある場合は、すべてのパターンでRuを求めRuが最大となる組合せを最適な回帰式とします。
Excelに戻る