不均衡データへの対応 - メモ的な何か

正例と負例の数が極端に偏っているデータのことを不均衡データという.
今回はBoW(Bag of Words)でスパムメールの判定をロジスティック回帰で行った.
BoWでは大量の単語の集合のうち, 出現頻度の高い単語のみを残すためサンプル数の多いクラスに影響されてしまう.
例えばスパムメール判定だと, 通常サンプルは正常メールよりスパムメールの数の比率が小さいのでBoWにより圧縮される過程で正常メールに出現する単語が多くなってしまう.
「振り込み」や「年会費無料」みたいな単語はスパムメールに多そうだが, サンプルが正常メール1万件に対してスパムメール100件だと正常メールに現れる単語ばかりに注目しスパムメールの情報を蔑ろにしてしまう.

この対策方法について調べた.

不均衡を調整する係数をモデルに導入
多数はデータを減少, 少数派データを増加

2番目の方法としてSMOTEアルゴリズムというものがあるらしい.
負例をアンダーサンプリングし, 正例をオーバーサンプリングする手法である.
アンダーサンプリングはランダムに行い, オーバーサンプリングはk-最近傍点までの距離でランダムに生成.

【参考文献】
・http://tjo.hatenablog.com/entry/2014/10/09/224106
・http://d.hatena.ne.jp/sfchaos/20111202/p1
・http://qiita.com/shima_x/items/370587304ef17e7a61b8