Take Your Time

仕事や研究、コンピューターとの付き合い方

Hot deck法によるimputation

Rでのimputationはいろいろ方法がある。今一番流行ってるのは恐らく機会学習とやらをつかったrandomForest系のパッケージだろう。ただ、正直ベイジアンと聞いただけで身の毛のよだつ自分には厳しいので一番簡単そうなものを使った。パッケージ"StatMatch"ではHot deck法によるImputationが手軽にできるようになっている。他には"yaImp"というパッケージもあったが、もともと森林学用らしくて高度すぎて使いづらいので途中まで勉強してやめた。ImputationはRubinとLittleという人がBig Guyらしい。統計学に突っ込んでも仕方ないので最低限の知識を手に入れた上で研究に突っ込んでみた。
StatMatchの使い方は至極簡単だが、類似の観測値をmahalanobis distanceによって求める場合、donarのpredictorsはすべてnon-NAである必要がある。