エッジ概論

         

有意なエッジとは

 複数の変数を使いシステムを構築した場合、変数の数を増やすほど勝率はよくなります。
これはカーブフィッティングが原因の場合もありますが単純に変数が多くなることに起因している場合もあります。 エッジのない完全にランダムなふるい分けをした場合、変数を増やしても限りなく50%に近い結果が得られると考えそうです。しかし、これは母集団が無限にある場合で現実にはそんなことにならないと思われます。
 ここでは、母集団と変数の数がエッジにどういった影響を与えるかを調べ有意なエッジを見つけ出しの性能を客観的に判断できる手法を考えてみたいと思います。

曜日&月の騰落確率

 図1は1989/4/1〜2009/3/31の20年間の日経平均株価のデータ(データ数4926)を元に曜日と月の組合わせで前日比の騰落確率がどう変わってくるかを調べたものです。月曜日が51%というのは前日終値に対して月曜日の終値がプラスとなる確率が51%ということです。1988年以前は土曜日が取引日に存在するので取り除きました。

■【曜日&月】騰落確率

【曜日&月】騰落確率(図1

 曜日別では月・金曜が48%と悪く、木曜が52%で一番いいです。 月別では8月が46%で悪く、12月が54%でいいです。
一方、月と曜日の組合わせでは最小値34%、最大値62%となります。 参考に月別のグラフも載せます。(図2

【曜日&月】騰落確率グラフ(図2

 それぞれの標準偏差も求めてみます。【曜日別】1.47%、【月別】1.94%、【曜日&月別】5.76%
標準偏差が大きいということは、バラツキが大きいことになります。バラツキが大きいということは騰落確率の差が大きくなることなのでエッジが存在することになります。 つまり標準偏差が大きいほどエッジが強いといえます。

 各要素のエッジ優劣ですが単純に標準偏差の大きさでいうと【曜日&月別】が強そうです。しかし、それぞれ変数の数が異なります。変数の数がエッジに影響を与えると考えるならどのエッジがいいかは一概に言えません。

エッジの比較検証(案)

 変数が増えた場合標準偏差の増加にどのくらいつながるのか? 実際に母集団にランダムな変数を割り当て変数の増加によって標準偏差に差が生じるのか調べてみました。
上述の1989/4/1〜2009/3/31のデータを使用し関数RANDBETWEENを使用し変数を割り当てます。

■  例)変数5の場合、RANDBETWEENで1〜5の変数を割り当て1〜5それぞれの前日比騰落確率求めていきます。 これを10回行います。(図3 そしてそれぞれの標準偏差を計算し平均します(図4

エッジの比較検証1(図3 エッジの比較検証2(図4

 その結果を散布図にしたものがグラフ5になります。グラフ5の橙色の点 ・ は10回の平均標準偏差になります。また変数1つにつき10個プロットしていますから変数1つにつき100回ランダムな変数を割り当てた計算を行っていることになります。

エッジの比較検証3(図5

 散布図の形状から何かしらの法則がありそうです。とりあえず線形近似と対数近似の2種類のグラフを追加してみます。(図6

エッジの比較検証4(図6

 決定係数も高くどちらもそれなりに当てはまっていますが変数が少ない時とさらに増えたときに誤差が大きくなる形状です。グラフ上の点は線形近似と対数近似の中間あたりになりそうなので、変数をX1、変数の自然対数をX2とし標準偏差をYとした重回帰分析を行ってみます。結果(図7

エッジの比較検証5(図7

 決定係数は0.98とさらに向上しました。この予測式と線形近似、対数近似とグラフにしてみます。 グラフ上の青色の点 ・ は標準偏差の平均(100回分)です。(図8

エッジの比較検証6(図8

 かなり精度のいい予測ができています。
このことから、変数(X)と標準偏差(Y)の関係はY=0.00040+0.00811LN(X)+0.00035X の式であらわすことができ、変数が増えれば標準偏差は前式に従いゆるやかに増加(エッジは強くなる)するといえます。ただし、LNは自然対数、対象は期間は1989/4/1〜2009/3/31の日経平均株価となります。

 次に、母集団を1975/1/6〜2009/3/31(データ数8972)にして同じことをしてみます。 変数の数は60までしか計算してませんが散布図にしたものがグラフ9、平均と回帰式を入れたものがグラフ10になります。
回帰式はY=0.00184+0.00491LN(X)+0.00032Xです。

エッジの比較検証7(図9 エッジの比較検証8(図10

 グラフのY軸を比べてみれば明らかですが母集団の多い1975/1/6〜2009/3/31の期間のほうが標準偏差が小さくなっています。変数50の場合で比較すると前者(データ数4926)の標準偏差が5.01%に対し後者(データ数8972)は3.71%です。 このことから変数以外にも母集団の数も標準偏差に影響していることが明らかです。

 これらのことから母集団が十分に多いといえない状態では変数の数を増やすことでエッジが強まることを意味します。 また、この傾向は母集団が少ないほど顕著になります。つまり本来エッジではないものもエッジに見えてくることが多聞にあるということです。
おそらく統計学では【母集団と変数の比率が標準偏差にどう影響をあたえるか】というような研究もあると思います。ただ僕はまったくの門外漢なので詳しくは知りませんが。

 とりあえずここではエッジの比較方法の検討なのでそちらに戻りたいと思います。ただこれだけだと少しさびしいので比較用に九星気学による分類もしてみます。 古来から星の運行などから相場を予測した話はよくありますので面白いかと。(図11

 ■フリー百科事典『ウィキペディア(Wikipedia)』  → 九星
九星の暦は日記のページのカレンダーにも表示されますが、詳しい暦は高度計算サイト → 九星カレンダーを参考にしてください。

【九星】騰落確率(図11

 先ほど求めたY=0.00040+0.00811LN(X)+0.00035Xのグラフ上に各データの標準偏差をプロットしてみます。(図12

エッジの比較検証9(図12

 これを見れば【月別】、【月九星】、【日九星】は回帰式を下回っています。 つまりランダムの平均以下の標準偏差なので有意なエッジがないといえます。 逆に他の分類にはいくらかエッジがありそうです。
 【月九星】、【日九星】を除いた各分類のすべての標準偏差をプロットしてみます。(図13
算出期間の騰落のプラス確率は49.5%です。これに前述の回帰式から得られた±σのラインを引いています。 プロットした点が上下にバラけているほど有意なエッジと考えられます。

エッジの比較検証10(図13

 また、エッジの強弱判定を【各分類の標準偏差−回帰式】【各分類の標準偏差÷回帰式】の二通りでしてみます。

■ 【各分類の標準偏差−回帰式】
1.【日陰陽別】  1.18%
2.【五曜・陰陽】  0.82%
3.【年九星別】  0.80%
4.【曜日&月別】  0.30%
5.【曜日別】  -0.06%
■ 【各分類の標準偏差÷回帰式】
1.【日陰陽別】  2.76
2.【年九星別】  1.37
3.【五曜・陰陽】  1.36
4.【曜日&月別】  1.06
5.【曜日別】  0.96

 現時点ではどちらの手法が適切かははっきりしませんが【日陰陽別】や【五曜・陰陽】が【曜日&月別】や【曜日別】よりエッジが強いといえそうです。

 一方、九星ですが【年九星別】と【日陰陽別】の標準偏差が他の九星に比べ高かったです。 思いつく理由としては
  ・【年九星別】…年単位の比較サンプル数が少なく景気の山や谷の影響を受けている。
  ・【日陰陽別】…例年陽遁が1月頃〜6月頃 、隠遁は6月〜12月頃となります。これは株価が上半期で強含み下半期は弱含むという例年のアノマリーに一致しているともいえます。
 九星の動きが相場にも影響していると言えなくもないですが、もっと長期的に観察してみなければなんともいえません。とりあえず、他のエッジと組合わせて回帰式を大きく上回るようなら使っても問題ないかもしれません。

 次に曜日と様々な日数に設定した移動平均の組合わせが標準偏差にどう影響するか調べてみます。 ブル相場とベア相場では週初と週末では行動に差がでる可能性が高いです。そのブル相場とベア相場をわける指標でもっとも単純な手法が移動平均と考えているからです。

 図14は単純移動平均線の設定を2日から順に変化させたものです。予測値は変数10の時の回帰式から予測した標準偏差です。
9日と14日の時に標準偏差が4.9%と最大になります。また、100日を超えたあたりから3%弱で推移するようになります。 いずれにせよ大部分で平均値を上回っていますので移動平均はそれなりに有意なエッジといえます。

移動平均と曜日の標準偏差の推移(図14

 図15は単純移動平均の設定を14日にした時のプラス確率の一覧です。曜日だけの時に比べてはっきりとバラツキがでています。特に月曜日に大きな差があるようです。                 

14日移動平均と曜日の騰落確率(図15


戻る