2017-09-09から1日間の記事一覧

不均衡データへの対応

正例と負例の数が極端に偏っているデータのことを不均衡データという. 今回はBoW(Bag of Words)でスパムメールの判定をロジスティック回帰で行った. BoWでは大量の単語の集合のうち, 出現頻度の高い単語のみを残すためサンプル数の多いクラスに影響されてし…