nano_exit

基礎的なことこそ、簡単な例が必要だと思うのです。

EXAFS解析の"Thorough Search"法について。

www.jstage.jst.go.jp

Curve fitting (CF)だと最小のR因子を与えるパラメータ(の組)しか最終結果が得られないが、Thorough search (TS)だと(大雑把に言って)他の極小値もわかる、というもの。
具体的には、R因子に上限(例えばR<0.05等)を設定して、それを満たすパラメータ群の中で、一つのパラメータに注目したヒストグラム(ある幅を持たせた値の中に、条件を満たしたパラメータが何個存在するかをプロットしたもの。R因子の値そのものは関係がない点に注意。)のピークが、CFで言うところの極小値に対応する(つまり、ピークを与えるパラメータが解析結果の候補となる)というもの。
複数の候補が得られるメリットとしては、他の実験事実との整合が付く「より正しい構造パラメータ」を抽出出来るという点である。スペクトルと幾何構造が一対一対応している保証がないので、一体何対応なのかがわかっておくと、そこから条件をかけて絞ることができる。

しかし、「R因子」を見る代わりに「ヒストグラム」に置き換えることは正当化されるのだろうか?少し考察する。

R因子がパラメータに対して連続関数であれば(そしてこれは通常満たされると期待して良い)、R因子の極小値においてパラメータによる微分はゼロになる。すなわち、極小値近傍でパラメータを微小変化させてもR因子は変化しないから、極小値を与えるパラメータ近傍もR因子に対する条件を満たしており、ヒストグラムを取った時に極小値近傍のパラメータは全部カウントされることになる。なので、一見良さそうに見える。
しかし、重要なのがパラメータの数である。パラメータの数が少ないとこの方法は使えない。例えばパラメータ1個では、条件を満たすか満たさないかだけでカウントするから、ゼロか定数かになってピーク構造が現れない。パラメータの数が多くなって条件を満たすことが難しくなった時に、極小値に対応したピークがヒストグラムに現れるようになる。
実際、論文のFig.2で示されている、パラメータが2個の場合の模式図では、TSは単に中心を与えていて、最小値はおろか極小値からもズレている。一方、Fig.4辺りで示されているPt L3-edge EXAFSの解析では、パラメータは4個であり、結果もCFとよく対応している。

前述したことを踏まえると、「ピークが狭ければ狭いほど、『ヒストグラムのピーク』と『R因子の極小値』の対応が良くなる」ということは言えると思う。論文のFig.2のヒストグラムのピークは明らかにlocal minimumを与えるピークより広く、対応が悪いことがわかる。
ただし、R因子が元々パラメータにどれくらい強く依存しているかを見ていないので、そもそも依存性がそんなに強くないパラメータでは元々幅が広いだろうから、「幅が広いからダメ」と直ぐに決め付けることは出来ない。
また、「スペクトルと構造モデルの誤差」そのものはR因子に含まれているので、ヒストグラムのピーク幅が統計的な意味での誤差には対応しないように思う。

極小値を与えるパラメータ(の組み)の候補が知りたいのであれば、R因子を小さい順に並べて、下からいくつか選べば済むように直観的には感じられる。しかし、前述した通り、極小値近傍のパラメータも小さいR因子を与えるため、並び替えるだけでは極小値が単一なのか複数あるのかがわからないのである。重要なのは、小さいR因子を与えるパラメータ群が近いのか遠いのかを判断することである。その意味において、ヒストグラムは「ピーク構造」という形で各パラメータ群を類別することができる。


以上のように、パラメータの多い複雑な系に対して上手い手法であることがわかる。
一つ注意としては、結局はパラメータフィッティングであるため、TSであれCFと同じようにフィッティングパラメータの数はデータ点の数によって制限を受けているという点である。そのため、複雑な系に対して有効であるが、複雑な系であればパラメータの数は増えるので、やはりパラメータの数をいかに減らすかというところに職人芸が必要であることには変わらない。