クローリングした画像を整備する
前回の続きでアニメ画像データセットを整備した際のメモ.
今回はゴミとして, 3次元画像・漫画画風画像を自動で除去した.
また, 顔でない画像などの微細なゴミは手動で除去した.
1キャラクタのディレクトリの中に複数のキャラクタが含まれる問題では,
今回は手動で1キャラにした.
今後の戦略としては, キャラクタごとのディレクトリに入っている各画像に対して,
髪色や目の色などを自動で分類し, ディレクトリに入っている半分以上の画像ファイルが同じ分類をされたらその半分を残すというアルゴリズムを用いれば, この問題を小さく抑えることができるという所感を持った.
取り合えず今の精度でも下のような感じのファイルが500ほど作れることが分かった.