【データ分析】特徴量の相関関係の図の見方

機械学習

図[2][4]は正の相関関係があるとわかる. 図[1][1]は緑と赤の分布がほぼ同じであり, 分離が厳しいことがわかる. 図[0][1]でも混じっている. これを処理するためには, SepalWidthCm特徴量を削除したり工夫する必要がある.

2017-11-13

【pandas】 DataFrameの操作について

Python 機械学習

Irisで試す # データCSVの読み込み iris = pd.read_csv("input.csv") # データのある特徴列を削除する iris.drop("Id", axis=1, inplace=True) # 同データのカウント # ”Species”という特徴列の名義特徴量の種類をそれぞれカウント iris["Species"].value_co…

2017-11-13

【Python】 Jupyter notebookで実行に影響のない警告は無視する

Python 機械学習

warning.filterwarning("ignore")により警告を無視して進めることができる. import warnings warning.filterwarnings("ignore")

2017-11-13

特徴量の削除

Python 機械学習

violinplotによって特徴量の分布が同じようなときjointplotによって, それらの特徴量の相関関係を調べる. 実際に相関係数の絶対値が1に近づいたらどちらかの特徴量を学習から削除することができるそう. 上図で2つの特徴量の分布が同じようなのでjointplotを…

2017-11-13

【seaborn】 plotについて

Python 機械学習

seabornライブラリでデータを可視化したい場合, BoxplotとViolinplotなどがある. ラベルAとラベルBの正規化, 標準化済の特徴量3つをとってきて比較することに用いられる. Boxplotでは下図のような図をプロットでき, 中央値などがわかりやすい. (図引用: http…

2017-11-13

【pandas】 DataFrame.iloc

Python 機械学習

DataFrameに対して列番号を指定する. 【参考】・http://ailaby.com/lox_iloc_ix/

2017-11-13

【pandas】 DataFrameに辞書形式で格納する

>>> pd.DataFrame({"feature1":[1,2,3],"feature2":[0.1,0.2,0.3]}) feature1 feature2 0 1 0.1 1 2 0.2 2 3 0.3 【参考】・【pandas】 CSVの読み込み - メモ的な何か・https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe…

2017-11-13

【pandas】 DataFrame.describe()について

Python 機械学習

DataFrame.describe()はDataFrameに格納されているそれぞれの特徴量(横軸)に対して数値データならcount, mean, std, min, 25%, 50%, 75%, maxを計算, カテゴリデータならcount, unique(カテゴリの種類), top(先頭), freq(最頻値)を計算してくれる便利な機能…

2017-11-13

【pandas】 CSVの読み込み

Python 機械学習

csvファイルをpandas.DataFrameに格納する方法 # 読み込み csv_path = "./data.csv" data = pd.read_csv(csv_path) # データの表示(Jupyter notebookなどで) # .head()メソッドを使えば,先頭から5行が表示される data.head() # 特徴量の名前をリストとして取…

2017-11-13から1日間の記事一覧