2007/05/21

T法の本質を考える(2)

 T法の本質を考えるのであれば数理の違いだけでなく、というよりむしろ、その目的の違いに踏み込まなければなるまい。

 前節で述べたように、T法では重回帰分析、マハラノビス距離、主成分分析などのように相関行列(の逆行列)を用いた、偏相関の考え方が入っていない--偏相関が入っていないからダメというのではなく、行列Rが正則でなく、統計的な方法で計算できない場合にT法を用いる--ので、各項目(説明変数)が予測値に対してどのように効いているかは、擬似相関も含めた表面上の解釈としてしか知ることができない。

 予測したい対象がどのようなモデルで説明できるのか、という科学的な目的であれば、確かに上記の多変量解析手法で用いる偏相関を考慮した方法が必要である。しかし、T法の場合--もっと広くMT法の場合--の目的は、予測システムの設計およびその評価である。従って、各説明変数の予測値への振る舞いは、擬似相関も含めた、表面上の振る舞いが単位空間(正常状態)と異なっているかどうかが分かればよいのである。擬似相関が単位空間と信号空間で差があり、それが普遍的なののであれば、その挙動もそのまま使ってしまおうということで、これを田口博士は「パターン」と言っているのであろう。

 従って、多変量解析による予測の手法と、T法とはまず目的を異にしており、その上でには項目が多数であったり、相関係数行列が正則でない場合、項目のσ=0の場合にも「予測システムの設計と評価」に対応できるようにした手法である。よって前節でも述べたが、T法では項目が制約条件が少なく大幅に増やせるため、一概に予測精度が低いとは言えない。最終的には予測のSN比の評価であり、最適予測システム設計のための一手段--しかもかなり制約条件のつかない汎用的な手段--と考えるのが妥当であろう。

2007/05/14

T法の本質を考える

 時系列データ(為替レート)の予測の連載の途中になるが、その予測の参考にもなると思われるので、今回はT法(単位空間が真ん中のもの、以下同)のことをつれづれと考えたい。

 T法の考えかたは、各項目i(i=1~k)の値xiと真値の回帰比例定数βiからの単回帰で推定される個別の推定値xi/βiを求めて、それら項目の値と真値の相関を表す動特性のSN比ηiで加重平均したもので総合評価の推定値を求めるというものである。
 重み付けを行っているとはいえ、単回帰からの推定値の和(平均)がベースとなっているので、MT法(逆行列を用いるもの、以下同)や重回帰分析のように、項目間の相関を考慮しているわけではない。ここでいうところの項目間の相関の考慮とは、項目の擬似相関を排除するべく、相関係数行列の逆行列を用いて偏回帰係数を算出し、それをベースに真値の推定を行うということである。

 擬似相関についての例を挙げる。たとえば、項目に身長と体重、真値にBMI(肥満度の指標)をとった場合に、BMIの定義、BMI=体重(kg)÷身長(m)^2から考えると、BMIは身長に対して負の相関、体重に対して正の相関があるはずである。これは正確に言えば、体重を固定した場合の身長に対しては負の偏相関、身長を固定した場合の体重に対しては正の偏相関があるということである。つまり、下記のようなデータ

身長(m)   体重(kg)   BMI
1.50     52       23.1
1.60     45       17.6
1.55     57       23.7
1.65     60       22.0
1.75     72       23.5
1.70     80       27.7
1.80     90       27.8
1.85     88       25.7

に対して重回帰分析を行うと、下記のように身長に対する係数はマイナスになり、体重に対する係数はプラスになるということである(BMIの定義と一致する)。

項目    係数
切片    48.85
身長    -29.44
体重    0.3582

 MT法についても相関係数の逆行列から距離を求めているので、偏相関とは少し異なるが、数理は似通っている。

 さて、T法の場合で、比例定数βiの符号を調べるために、上記のデータを使って、各項目とBMIの単回帰の相関係数を計算してみる。

身長 vs. BMI   r=+0.545
体重 vs. BMI   r=+0.865

 この場合、困ったことが起きる。すなわち単回帰の、身長について、正の相関が現れてしまう(重回帰分析の係数および、BMIの定義からは負の相関となる)。これは、項目である身長と体重の相関関係を無視したことによって生じる、身長とBMIの擬似相関である。
 ちなみに、体重を層別して(上記のデータで体重の小さい順にたとえば2,3,3データの組を作って)、その中で身長とBMIの傾向を見るとこれは負の相関になっている。つまり、身長とBMIの単回帰においては、身長と体重の背後関係に引きずられて、実際の関係(偏相関)とは異なった結果になってしまうことを示している。







 最初に述べたとおり、T法では単回帰の相関係数の符号がβiの符号と同一であるので、上記のように相関の傾向が逆転する場合や、実際は大きい偏相関があるのに相関がなくなったしまう場合や、またその逆の場合もあり、当然のことながら推定の精度は悪化してしまう。

 このように見ると、T法は偏相関係数で推定するMT法や重回帰分析よりも推定精度は原理的に一歩劣るといわざるを得ない。T法はもともと、他のMTシステムや重回帰分析では扱えない非常に項目が多く計算に時間がかかる場合や、項目に多重共線性がある場合、項目のσ=0の場合の方法の提案である。従って、このあたりは、計算速度や多重共線性による精度低下と、項目間の相関を考慮しないことによる精度低下のトレードオフということになる(データの性質によって選びうる手法は限られると考えられるが)。
 田口博士いわく「最終的にはSN比の評価である」ということである。項目を多く--しかも多重共線性やσ=0を気にせずに、原理的には無尽蔵に--取ることで、推定の精度を上げようというのがT法の戦略なのであろう。

 このような戦略は、パラメータ設計で混合系直交表に多数の制御因子の主効果を割り付ける戦略と通じているように感じられる。すなわち、Box博士のいう列の汚染(交互作用の交絡)は気にせずに、多数の制御因子の主効果を求めるにはどうすればよいか、という問題に対する実践的な解決法の徹底である。
 T法も原理的には偏相関から推定する方法よりも推定の精度は落ちるが--項目が同じで、いずれの手法も選べる場合の話--、では項目が非常に多かったり、多重共線性、σ=0の場合にどうするか?という問題の解決として提案されたT法も、実践的な解決策の徹底と言えるであろう。

 MT法に話を戻すと、MDを求める数理は偏相関係数の利用であり、重回帰分析の数理と似通ったクラッシクな部分である(Mahalanobis博士の功績)。従って、MT法のオリジナリティーは、予測システムの精度をSN比で評価することと、直交表を用いて項目選択、診断を行うことである。なお、単位空間の概念はすでに1950年代に多変量管理図のところで示されていたとのことである(このことは、宮川雅巳博士の論説に詳しい:過去のblogも参照されたし)。 T法についてはその名称のとおり、戦略からSN比、直交表まで一貫した田口博士のオリジナルと言ってよいものになっている。


※筆者注:「重回帰分析はあてはめなので、推定の精度は悪い」と言われるが、それは既知データだけで推定式を作る場合であって、MT法と同じように、未知データを導入してSN比で評価、項目選択すれば、原因系と全く関係ない項目による説明力の向上の問題は解決されると考える。その場合、重回帰分析で作った式の推定精度は、MT法やT法と遜色がない場合も多いと考えられる(データの性質によるので、最後は田口博士の指摘するとおりSN比の評価である)。

※筆者注:本稿では単位空間の議論は省略している。またT法で使用するのは単相関係数ではないが、項目のβiの符号を簡単に(Excelの関数レベルで)知るために便宜上用いている。

※追記:マハラノビス距離では相関係数の逆行列を使用しているが、重回帰分析の偏回帰係数の算出とは目的も方法が違うようである。数理に詳しい方の助言をいただければ幸いである。


株式会社ジェダイト(JADEITE:JApan Data Engineering InstituTE)