Stata Conference

ちょうどBostonでStata Conferenceが開かれていたので、行ってみた。

世界銀行がStataのプログラムを使って作った
ADePT
というソフトウェアがすばらしい。

http://ow.ly/2c94c

PCにStataがインストールされていて、
家計調査のデータがあれば、
貧困率や所得や健康状況や教育水準や栄養水準や労働に関するデータを自動的に集計してくれるし、
地域、性別など変数の分類ごとに集計することもできる。
そして、出力はExcel形式で行われて、
出力時にすでに出版用のフォーマットになっている。
ローレンツ曲線や人口ピラミッドなども自動的に作ってくれる。
Notification sheetも作ってくれるので、
これを使えば、
わずか10分くらいで、Self-explainingな集計データのシートができあがってあとは印刷するだけなので、
Consultantなどは大助かりだろう。
データを集計して図表のフォーマットを整える手間が大幅に省けるので、
知的生産に振り分けることの時間を増やすことができるはずだ。

きっとそのうち、
これを使っていろいろな集計データを出力してレポートにくっつけて、
実際は大した手間をかけていないんだけど、さも「がんばりました」というような顔をする学生が出てくると思うので、
大学の先生方は、要チェックだ。
授業であらかじめ、こんなすばらしいソフトウェアがあるということを教えておいて、
これを使って出力した図表を張り付けるだけじゃだめだぞ、
浮いた時間を使ってもっと踏み込んだ分析をしたりデータをもっと掘り下げたりしないと、
と先手を打っておく必要がある。


それから、Stata Journalに、
wdireshapeなるコマンドが載っていた。
世界銀行のWorld Development Indicatorにはいろいろな国のいろいろな変数の情報があるが、
もともとの形式がパネル形式になっていないので、
実際に使う際には何回かreformatしたり名前付けやラベル付けをする必要があって面倒くさいのだが、
wdireshapeを使えば、
World Development Indicatorを一発でパネル形式やクロスセクション形式にしてくれる。
国別データを使うクロスカントリー分析をする人にとっては、心強い味方だ。


計量分析の際に気をつけなければいけない、
クラスター間の誤差項の相関を取り扱うプログラムも興味深かった。
たとえば同じ村に住んでいる場合は、
村レベルのショックなどにより誤差項が相関する可能性があるが、
誤差項が相関する場合には標準偏差が過小推定され、
帰無仮説を過大に棄却してしまいやすくなる。
ミクロ計量経済学では、内生性の問題に由来するInconsistencyに注目が集まって、
それへの対処としてランダム化実験などが出てきた側面もあるが、
たとえConsistencyが確保されたとしても、
推定された標準誤差が過小推定されたとしたら、
本来なら有意にならない変数が有意に出てしまう可能性もあるので、
データ分析を行う際、あるいは査読をする際は、
標準偏差の問題も真剣に考えないといけない必要があると痛感した。
Stataでは、普通のrobustコマンドではクラスター間の誤差項の相関を無視してしまうので、
vce("cluster id")というオプションを使う必要がある。
ivreg2やxtivreg2のコマンドでは、パネルデータの同一個人というクラスターと、村というクラスター、というように、
二つ以上のクラスターを考慮できるコマンドもあるそうだ。
ただし、クラスターの種類が多くなってくると、一つのクラスター内のサンプル数がきわめて少なくなってしまうので、そこはちょっと悩ましい問題。
cgmregというのでも、複数クラスターの推計をやってくれるみたいで、
chatestやxtchatestというコマンドを使えば、
本当にクラスタリングが必要かというテストができる。


それと、
Coarsened Exact Matching (CEM)という、
Propensity Score Matchingより使い勝手がいいと本人たちが主張している推計手法についてのプレゼンも気になった。
カニズムはあまりよく分からなかったので、Propencity Score Matchingを使って論文を書く必要が出てきたらちょっと見てみようと思う。
http://gking.harvard.edu/cem/