Web Application: 第４回　画像データをnpyデータに変換

こんにちはKeita_Nakamori(´・ω・`)です。

前回flickrから取得した画像データをTensor Flowが読めるように数値データに変換していきます。

必要なモジュールをインストール

pip install Pillow :
pip install scikit-learn :

Pillow-6.1.0とscikit-learn-0.21.3が入りました

スクリプト：generate_inputdata.py

from PIL import Image # image operation
import os             # get file list
import glob           # image treatment
import numpy as np    # culculation
from sklearn.model_selection import train_test_split # split data

# initialize parameters
classes = ['car', 'motorbike'] # define 2 classses 
num_classes = len(classes)     # the number of classes
image_size = 150               # pixels of width or height

# read images and cnvert numpy array
X = [] # ready to make list
Y = [] # ready to make list

# numbering and 
for index, class_label in enumerate(classes):
    
    # create class_label directories (car or motorbike)
    photos_dir ='./' + class_label

    # search jpeg fileb and create files object
    files = glob.glob(photos_dir + '/*.jpg')

    for i, file in enumerate(files):

        # open image files as instance
        image = Image.open(file)

        # convert image into RGB value data
        image = image.convert('RGB')

        # align to the same size (just in case)
        image = image.resize((image_size, image_size))

        # convert RGB value into numpy array 
        data = np.asarray(image)

        # normalize
        data = data / 255.0

        # append value to list
        X.append(data)
        Y.append(index)

# convert list into numpy array
X = np.array(X)
Y = np.array(Y)

# split data (training and test)
X_train, X_test, y_train, y_test = train_test_split(X, Y)

# replace 1 variable
xy =(X_train, X_test, y_train, y_test)

# save values as npy file 
np.save('./image_files.npy', xy)

from PIL import Image # image operation

import os # get file list

import glob # image treatment

import numpy as np # culculation

from sklearn.model_selection import train_test_split # split data

# initialize parameters

classes = ['car', 'motorbike'] # define 2 classses

num_classes = len(classes) # the number of classes

image_size = 150 # pixels of width or height

# read images and cnvert numpy array

X = [] # ready to make list

Y = [] # ready to make list

# numbering and

for index, class_label in enumerate(classes):

# create class_label directories (car or motorbike)

photos_dir ='./' + class_label

# search jpeg fileb and create files object

files = glob.glob(photos_dir + '/*.jpg')

for i, file in enumerate(files):

# open image files as instance

image = Image.open(file)

# convert image into RGB value data

image = image.convert('RGB')

# align to the same size (just in case)

image = image.resize((image_size, image_size))

# convert RGB value into numpy array

data = np.asarray(image)

# normalize

data = data / 255.0

# append value to list

X.append(data)

Y.append(index)

# convert list into numpy array

X = np.array(X)

Y = np.array(Y)

# split data (training and test)

X_train, X_test, y_train, y_test = train_test_split(X, Y)

# replace 1 variable

xy =(X_train, X_test, y_train, y_test)

# save values as npy file

np.save('./image_files.npy', xy)

実行しましょう

(djangoai) C:\Users\keita\anaconda_projects\djangoai>python generate_inputdata.py

フォルダを見ると新しく「image_files.npy」　　609,516,317 （６０９MB？）のデータが生成されました。

次回

Web Application: 第５回　はじめてのwebアプリ

Web Application: 第３回　flickr（フリッカー）で画像収集

こんにちはKeita_Nakamori(´・ω・`)。

flickrのサイトから画像を引っ張ってきてTensorFlowに流すサンプルデータにしようと思います。

登録とAPIキーの取得

トップページの一番下のDeveloperをおしてAPIキーのリスエストを行います。まずはメルアドの登録などをやってサインアップします。

そうすると APIキーのリスエストができるようになりますので、APIキーを取得します。

flickrapiのインストール

flickrのapiにアクセスするためのモジュールflickrapiをインストールします。

VSコードのコマンドプロンプト内で、

PS C:\Users\keita\anaconda_projects\djangoai> pip install flickrapi

とすると、flickrapi-2.4.0 が入りました。が、これは使えません。

Anaconda プロンプトでconda activate djangoで仮想環境にはいり(djangoai) C:\Users\keita>pip install flickrapi　します。

flickrapi-2.4.0が入りました。

Imageをdownloadするスクリプト

ではflickrapiを使ってimageを取得していきましょう。djangoaiフォルダ内へ新たにdownload_images.pyを作成します。

from flickrapi import FlickrAPI
from urllib.request import urlretrieve
import os
import time
import sys

key = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
secret = 'xxxxxxxxxxxxxxxx'
wait_time = 1 # 1 request per 1 second

# 2nd argument  on cmd becomes searching keyword
keyword = sys.argv[1] 

# directry for saving image files
save_dir ='./' + keyword

# cliant object to access to api
flickr = FlickrAPI(key, secret, format='parsed-json')

# api excuted result
result =flickr.photos.search(
    text = keyword,
    per_page = 400,     # the number of images
    media = 'photos',   # define collecting type
    sort = 'relevance', # new images
    safe_serch= 1,      # to avoid violence
    extras = 'url_q, license' # with url and licence data
)

# extracted photos(as key) from result object
photos = result['photos']

# extract photo in order from photos object and do numbering
for i, photo in enumerate(photos['photo']):

    # extract url
    url_q = photo['url_q']

    # make filepath : directory / photo id .jpg
    filepath = save_dir + '/' +photo['id'] + '.jpg'

    # need to make directory(mkdir) in advance
    # before excution thins script
    if os.path.exists(filepath): continue
    
    # save download data
    # arg1= download url , arg2= save directory/file name
    urlretrieve(url_q, filepath)
    print('url_q, filepath : ', url_q,'  ', filepath)

    # download interval
    time.sleep(wait_time)

print('==== Script is done. ====')

from flickrapi import FlickrAPI

from urllib.request import urlretrieve

import os

import time

import sys

key = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'

secret = 'xxxxxxxxxxxxxxxx'

wait_time = 1 # 1 request per 1 second

# 2nd argument on cmd becomes searching keyword

keyword = sys.argv[1]

# directry for saving image files

save_dir ='./' + keyword

# cliant object to access to api

flickr = FlickrAPI(key, secret, format='parsed-json')

# api excuted result

result =flickr.photos.search(

text = keyword,

per_page = 400, # the number of images

media = 'photos', # define collecting type

sort = 'relevance', # new images

safe_serch= 1, # to avoid violence

extras = 'url_q, license' # with url and licence data

)

# extracted photos(as key) from result object

photos = result['photos']

# extract photo in order from photos object and do numbering

for i, photo in enumerate(photos['photo']):

# extract url

url_q = photo['url_q']

# make filepath : directory / photo id .jpg

filepath = save_dir + '/' +photo['id'] + '.jpg'

# need to make directory(mkdir) in advance

# before excution thins script

if os.path.exists(filepath): continue

# save download data

# arg1= download url , arg2= save directory/file name

urlretrieve(url_q, filepath)

print('url_q, filepath : ', url_q,' ', filepath)

# download interval

time.sleep(wait_time)

print('==== Script is done. ====')

Imageを保存するフォルダを作成

車とバイクの画像をいれるフォルダを作っておきます。

(djangoai) C:\Users\keita\anaconda_projects\djangoai>mkdir car
(djangoai) C:\Users\keita\anaconda_projects\djangoai>mkdir motorbike

スクリプトを実行する。

仮想環境(conda activate djangoai)に入って、まずはモーターバイクの画像を収集しましょう。

(djangoai) C:\Users\keita\anaconda_projects\djangoai>python download_images.py motorbike

じゃんじゃん入ってきました。

次回

Web Application: 第４回　はじめてのwebアプリ

Web Application: 第２回　VS codeのインストールとセッティング

こんにちは　Keita_Nakamori(´・ω・`)　です。

前回はTensor Flowの試運転に成功しました。

今後アプリ開発をやっていく上でVSコードを使っていこうと思います。PyCharmよさようなら・・・。

VSコードのインストール

https://code.visualstudio.com/でWindows版を選択してインストーラーをダウンロードした後、実行します。

Pathは通しておきましょう。再起動後、画面左側にあるExtentionsボタンをおして、検索窓でpythonと入力して、pythonをインストールしましょう。

データ収集プログラムを作ってみる

では、左上のエクスプローラーボタンを押して、第１回目に作成した keita>Anaconda_projects>djangoaiフォルダを選択しましょう。

Jupyter Notebookで作成した tensorflow_test.ipynbが入っています。

練習のためHello World をやってみましょう

djangoaiフォルダの右側にNew Fileボタンを押してhello_world.pyを作ります。

右側のウィンドウにスクリプトが書けるように成りますのでテキトーにhello worldをプリント出力しましょう。

実行方法

どのPythonバージョンを使用するかの選択

メニュー>View>Command Pallet>Select interpriterで

第１回目で作成した仮想環境であるdjangoai:condaのPython3.7.4 64-bitを選択します。

画面の下に青い帯で変更されたことが確認できます。

ついでにpylintが入っていませんようと警告がでますのでInstallしましょう。condaかpipか聞かれますのでcondaにしてみました。

実行

スクリプト窓内で右クリックをしてrun python file in terminal　します。

するとコマンドプロンプト窓内で実行されます。

次回

Web Application: 第３回　はじめてのwebアプリ

Web Application: 第１回　Anaconda3のインストールと仮想環境構築

こんにちは、Keita_Nakamori(´・ω・`)です。

webアプリというものを少し作ってみたいと思います。

言語：Python
機械学習：TensorFlow
フレームワーク：Django
データベース : MySQL
サーバー：Xserver

あたりを使っていきます。

Anacondaのインストール

Anaconda 2019.07 for Windows Installerをインストールしました。

PathとRegister 両方ともチェックをいれました。

仮想環境djangoaiを作って、ついでにtensorflowを入れます。

Anaconda プロンプトを開いて、

(base) C:\Users\keita>conda create -n djangoai tensorflow

-nってなんでしょう。

# To activate this environment, use
#
# $ conda activate djangoai
#
# To deactivate an active environment, use
#
# $ conda deactivate

ということなので、

$ conda activate djangoai

して使ってみます。モジュール群を確認してみましょう。

(djangoai) C:\Users\keita>pip list

Package Version
——————– ———
absl-py 0.7.1
astor 0.8.0
certifi 2019.6.16
gast 0.2.2
grpcio 1.16.1
h5py 2.9.0
Keras-Applications 1.0.8
Keras-Preprocessing 1.1.0
Markdown 3.1.1
mkl-fft 1.0.14
mkl-random 1.0.2
mkl-service 2.3.0
numpy 1.16.5
pip 19.2.2
protobuf 3.8.0
pyreadline 2.1
scipy 1.3.1
setuptools 41.0.1
six 1.12.0
tensorboard 1.14.0
tensorflow 1.14.0
tensorflow-estimator 1.14.0
termcolor 1.1.0
Werkzeug 0.15.5
wheel 0.33.4
wincertstore 0.2
wrapt 1.11.2

確かにtensorflow 1.14.0が入っていますね。OKです。

Kerasも自動的に入ってきていますね。

仮想環境を抜けましょう。

(djangoai) C:\Users\keita>conda deactivate

(base) C:\Users\keita>

頭の(djangoai)が(base)に切り替わり仮想環境を抜けたことがわかります。

Anaconda Navigator

次に、Anaconda Navigatorを使ってみます。

Anaconda Navigatorを立ち上げて、Application on (base)にの部分をdjangoaiに切り替えます。このときまだJupyter NotebookはインストールされていませんのでInstallボタンを押します。完了したらLaunchにボタンが変わりますのでLaunchします。

これでいつものJupyter Notebookが起動しますが。

今回作っていくdjangoaiアプリはユーザーフォルダkeitaの下にanaconda_projectフォルダを作って、その下djangoaiフォルダを作って、その中にスクリプトを入れていきます。

では、Jupyter Notebookを起動したらanaconda_project > djangoフォルダに移動して新規にNewボタン > Python3 しましょう。

TensorFlowの試運転

初心者向けのテストスクリプトがありましたので、実行してみます。

サンプルデータを取得します。

import tensorflow as tf

# サンプルデータとしてmnistのデータをダウンロード
mnist = tf.keras.datasets.mnist
(x_train, y_train),(x_test, y_test) = mnist.load_data()

# 入力データの形を確認する
print(x_train.shape) # (60000, 28, 28)
'''
60000データあってそれぞれが
(28行x28列)の数字画像データ
'''
# １つのデータを見てみる
print(x_train[0].shape) # (28, 28)
print(x_train[0])       # 0から255までの数字が入っている。

# 正解データの形を確認する
print(y_train.shape) # (60000,) 60000個の１次元データ
print(y_train) # [5 0 4 ... 5 6 8]

import tensorflow as tf

# サンプルデータとしてmnistのデータをダウンロード

mnist = tf.keras.datasets.mnist

(x_train, y_train),(x_test, y_test) = mnist.load_data()

# 入力データの形を確認する

print(x_train.shape) # (60000, 28, 28)

'''

60000データあってそれぞれが

(28行x28列)の数字画像データ

'''

# １つのデータを見てみる

print(x_train[0].shape) # (28, 28)

print(x_train[0]) # 0から255までの数字が入っている。

# 正解データの形を確認する

print(y_train.shape) # (60000,) 60000個の１次元データ

print(y_train) # [5 0 4 ... 5 6 8]

訓練しやすいようにデータを加工します

# 入力データの数値 0-255 を255で割り算して0-1 に正規化する
x_train, x_test = x_train / 255.0, x_test / 255.0

1 2	# 入力データの数値 0-255 を255で割り算して0-1 に正規化する x_train, x_test = x_train / 255.0, x_test / 255.0

機械学習モデルと訓練と評価

# ニューラルネットワークモデルを作成する
model = tf.keras.models.Sequential([
    # 入力層の定義：入力データの形を教えて１行にフラット化
  tf.keras.layers.Flatten(input_shape=(28, 28)),

    # 中間層の定義：128ノード　活性化関数はrelu
  tf.keras.layers.Dense(128, activation='relu'),

    # データに偏りが発生しないように20%を捨てる
  tf.keras.layers.Dropout(0.2),

    # 出力層の定義：0-9の数字を判定したいので10ノード用意する。
    # 活性化関数はsoftmax
  tf.keras.layers.Dense(10, activation='softmax')
])

# 機械学習モデルのコンパイル
model.compile(optimizer='adam',
              #損失関数の定義：最適化（今回は最小化）する対象を定義
              loss='sparse_categorical_crossentropy',
              
              metrics=['accuracy'])

# 訓練する エポック数=5
model.fit(x_train, y_train, epochs=5)
'''
Epoch 1/5
60000/60000 [==============================] - 4s 68us/sample - loss: 0.2970 - acc: 0.9146
Epoch 2/5
60000/60000 [==============================] - 4s 65us/sample - loss: 0.1440 - acc: 0.9567
Epoch 3/5
60000/60000 [==============================] - 4s 75us/sample - loss: 0.1077 - acc: 0.9667
Epoch 4/5
60000/60000 [==============================] - 5s 84us/sample - loss: 0.0884 - acc: 0.9731
Epoch 5/5
60000/60000 [==============================] - 4s 74us/sample - loss: 0.0747 - acc: 0.9768
10000/10000 [==============================] - 0s 41us/sample - loss: 0.0709 - acc: 0.9780
'''

# 評価する
model.evaluate(x_test, y_test) 
'''
損失と精度
[0.07094512566379271, 0.978]
'''

# ニューラルネットワークモデルを作成する

model = tf.keras.models.Sequential([

# 入力層の定義：入力データの形を教えて１行にフラット化

tf.keras.layers.Flatten(input_shape=(28, 28)),

# 中間層の定義：128ノード　活性化関数はrelu

tf.keras.layers.Dense(128, activation='relu'),

# データに偏りが発生しないように20%を捨てる

tf.keras.layers.Dropout(0.2),

# 出力層の定義：0-9の数字を判定したいので10ノード用意する。

# 活性化関数はsoftmax

tf.keras.layers.Dense(10, activation='softmax')

])

# 機械学習モデルのコンパイル

model.compile(optimizer='adam',

#損失関数の定義：最適化（今回は最小化）する対象を定義

loss='sparse_categorical_crossentropy',

metrics=['accuracy'])

# 訓練するエポック数=5

model.fit(x_train, y_train, epochs=5)

'''

Epoch 1/5

60000/60000 [==============================] - 4s 68us/sample - loss: 0.2970 - acc: 0.9146

Epoch 2/5

60000/60000 [==============================] - 4s 65us/sample - loss: 0.1440 - acc: 0.9567

Epoch 3/5

60000/60000 [==============================] - 4s 75us/sample - loss: 0.1077 - acc: 0.9667

Epoch 4/5

60000/60000 [==============================] - 5s 84us/sample - loss: 0.0884 - acc: 0.9731

Epoch 5/5

60000/60000 [==============================] - 4s 74us/sample - loss: 0.0747 - acc: 0.9768

10000/10000 [==============================] - 0s 41us/sample - loss: 0.0709 - acc: 0.9780

'''

# 評価する

model.evaluate(x_test, y_test)

'''

損失と精度

[0.07094512566379271, 0.978]

'''

はい、ちゃんと動きました。

次回予告

Web Application: 第２回　はじめてのwebアプリ

機械学習：sklearnで３０日間の株価予測をやってみる

前回、pandas_datareaderで株価を取得してpandasで統計処理してmatplotlibで可視化するということをやりました。

今回は機械学習をやっていきましょう。

理屈：

ある１日の株価データのうち、High Low Open Close Volume AdjClose の６データと、さらにOpen Close から算出されるエンジニアリングデータ change　を含めて、計７つのデータを入力データとします。（ここまでは前回の話）

その正解データとして、３０日後の終値Closeを定義します。

数学モデルは線形回帰モデルを使います。複数の入力データがあるので重回帰分析と呼ばれています。

y : 正解データ
x1～x7：入力データ
a1～a7：回帰パラメータ　偏回帰係数とも呼ばれます
error：入力データと正解データの差（誤差）　数学モデル上では切片に相当します

y　=　(a1*x1) + (a2*x2) + (a3*x3) + (a4*x4) + (a5*x5) + (a6*x6) + (a7*x7) + ierror

たくさんの入力データ（１日１データ）をこのモデルに入力して、正解データと入力データの Σ(ai*xi) の部分との差 errorがトータルでできるだけ小さくなるように、最小二乗法を使って ai を決めていきます。

その結果、予測モデルが確定しますので、３０日前から現在までの入力データを代入すれば、それぞれの日に対して３０日後の終値が予測されます。

# 終値を30日間前にずらしたcolumnを作成します。

ずらされた部分はNaNという値なしの状態で埋められます。

# 機械学習
df_nvda["label"] = df_nvda["Close"].shift(-30) #30日間過去にずらした。
df_nvda.tail(35)

# 機械学習

df_nvda["label"] = df_nvda["Close"].shift(-30) #30日間過去にずらした。

df_nvda.tail(35)

# 入力データを作成します

# 入力データを作成する
# labelとSMA列は除外して　High Low Open Close Volume AdjClose change の計７列を使用する
X = np.array(df_nvda.drop(["label","SMA"],axis=1))
X.shape # (1172, 7)

# 入力データはスケーリングする（平均を引いて標準偏差で割る）
X = sklearn.preprocessing.scale(X) 

# ３０日前から現在までのデータを予測に使用する入力データとして定義
predict_data = X[ -30 : ]
predict_data.shape # (30, 7)

# 直近３０日間を除外した入力データ
X = X[ : -30]
X.shape #(1142, 7)

# 入力データを作成する

# labelとSMA列は除外して　High Low Open Close Volume AdjClose change の計７列を使用する

X = np.array(df_nvda.drop(["label","SMA"],axis=1))

X.shape # (1172, 7)

# 入力データはスケーリングする（平均を引いて標準偏差で割る）

X = sklearn.preprocessing.scale(X)

# ３０日前から現在までのデータを予測に使用する入力データとして定義

predict_data = X[ -30 : ]

predict_data.shape # (30, 7)

# 直近３０日間を除外した入力データ

X = X[ : -30]

X.shape #(1142, 7)

# 正解データを定義します

# 正解データを定義 :30日後の終値のこと
y = np.array(df_nvda["label"])
y.shape #(1172,)


# 正解データのない部分を削除
y = y[ : -30]
y.shape #(1142,)

plt.plot(y)

# 正解データを定義 :30日後の終値のこと

y = np.array(df_nvda["label"])

y.shape #(1172,)

# 正解データのない部分を削除

y = y[ : -30]

y.shape #(1142,)

plt.plot(y)

# データを訓練用と検証用に分割して、学習モデルを選択して、学習させて、検証します

# データを訓練用と検証用に分割する
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, test_size = 0.2)

# 学習モデルを定義する（インスタンスの作成）
lr = sklearn.linear_model.LinearRegression()

# 学習する（fitメソド実行）
lr.fit(X_train, y_train)

#検証する
accuracy = lr.score(X_test, y_test)
accuracy # 0.9232607206984768

# データを訓練用と検証用に分割する

X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, test_size = 0.2)

# 学習モデルを定義する（インスタンスの作成）

lr = sklearn.linear_model.LinearRegression()

# 学習する（fitメソド実行）

lr.fit(X_train, y_train)

#検証する

accuracy = lr.score(X_test, y_test)

accuracy # 0.9232607206984768

精度：92％　って出ています。(´・ω・`)

# 過去３０日間の入力データ predict_data から、それぞれ３０日後の未来終値データ predicted_dataを予測します。

# 過去３０日間の入力データ predict_data から、
# それぞれ３０日後の未来終値データ predicted_dataを予測する
predicted_data=lr.predict(predict_data)
predicted_data.shape # (30,)
predicted_data

# 過去３０日間の入力データ predict_data から、

# それぞれ３０日後の未来終値データ predicted_dataを予測する

predicted_data=lr.predict(predict_data)

predicted_data.shape # (30,)

predicted_data

# 可視化：予測結果

# 予測済みデータをデータフレームに追加するため、
# 予め、空データを入れておく
df_nvda["Predicted"] = np.nan

# 最終日indexを取得する
last_date = df_nvda.iloc[-1].name # Timestamp('2019-09-27 03:00:00')

# 1日の数値を定義（決まっている）
one_day = 86400

# 最終日に１日足す
next_unix = last_date.timestamp() + one_day

# 予測済みデータ
for data in predicted_data:
    
    # 日付を定義
    next_date=datetime.datetime.fromtimestamp(next_unix)
    
    # 1日カウントアップ
    next_unix += one_day
    
    # index（未来の日付）に予測終値を追加していく
    df_nvda.loc[next_date] = np.append([np.nan]*(len(df_nvda.columns)-1),data)

# 可視化：終値と予測終値
df_nvda["Close"].plot(figsize=(16,5),color="green")
df_nvda["Predicted"].plot(figsize=(16,5),color="orange")

# fig 保存
plt.savefig("predict_result.png")
plt.show()

last_date　＃Timestamp('2019-06-28 00:00:00')

# 予測済みデータをデータフレームに追加するため、

# 予め、空データを入れておく

df_nvda["Predicted"] = np.nan

# 最終日indexを取得する

last_date = df_nvda.iloc[-1].name # Timestamp('2019-09-27 03:00:00')

# 1日の数値を定義（決まっている）

one_day = 86400

# 最終日に１日足す

next_unix = last_date.timestamp() + one_day

# 予測済みデータ

for data in predicted_data:

# 日付を定義

next_date=datetime.datetime.fromtimestamp(next_unix)

# 1日カウントアップ

next_unix += one_day

# index（未来の日付）に予測終値を追加していく

df_nvda.loc[next_date] = np.append([np.nan]*(len(df_nvda.columns)-1),data)

# 可視化：終値と予測終値

df_nvda["Close"].plot(figsize=(16,5),color="green")

df_nvda["Predicted"].plot(figsize=(16,5),color="orange")

# fig 保存

plt.savefig("predict_result.png")

plt.show()

last_date　＃Timestamp('2019-06-28 00:00:00')

後ろの黄色いやつが未来の３０日間の株価予想です。

Linear Regression でも　まあまあそれっぽい答えは帰ってきますね。

機械学習:Scikit-Learn ボストンデータを良く眺めてみる。ついでにKNNの回帰をやる。

Keita_Nakamoriです。

今回は、ボストンの住宅のデータを眺めて行こうと思います。

ついでにKNNの回帰を試していこうと思います。（前回はKNNの分類でした）

モジュール

#ボストンデータ

%matplotlib inline

#今回はインポートするための処理時間を計測しています
import time
start_time=time.time()

#必要なモジュール群
import numpy as np
import pandas as pd
import sklearn
import matplotlib.pyplot as plt
import mglearn

end_time=time.time()
erapsed_time=end_time-start_time

print("処理時間 : ",erapsed_time) #0.6951429843902588

#ボストンデータ

%matplotlib inline

#今回はインポートするための処理時間を計測しています

import time

start_time=time.time()

#必要なモジュール群

import numpy as np

import pandas as pd

import sklearn

import matplotlib.pyplot as plt

import mglearn

end_time=time.time()

erapsed_time=end_time-start_time

print("処理時間 : ",erapsed_time) #0.6951429843902588

ボストンデータをロード

#ボストンデータをロードしましょう
from sklearn.datasets import load_boston

#ボストンデータのインスタンスを作成しましょう
boston=load_boston()

#キーを確認しましょう
boston.keys()
"""
dict_keys(['data', 'target', 'feature_names', 'DESCR'])
"""
#

#ボストンデータをロードしましょう

from sklearn.datasets import load_boston

#ボストンデータのインスタンスを作成しましょう

boston=load_boston()

#キーを確認しましょう

boston.keys()

"""

dict_keys(['data', 'target', 'feature_names', 'DESCR'])

"""

どういうことに使えるでしょうか？

このデータから回帰を行う（学習する）
以降、”特徴量を持つ新規データ”が入ってきたら、その住宅の価格を予測する。理論価格と呼ぶ
理論価格より、新規データの価格が１０％安ければ買いの判断をする

どんな機械学習アルゴリズムが良いでしょうか

多次元の回帰系ですから、KNN-Regressorをやってみましょう。だめだったら他のやつを探してみます。

data とtargetの形を確認しましょう

訓練用データと検証用データに分割しましょう

#data とtargetの形を確認しましょう
boston["data"].shape   #(506, 13) 506データ　特徴量13
boston["target"].shape #(506,)    506データ

#訓練用データと検証用データに分割しましょう
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(boston["data"],boston["target"],random_state=0)

#data とtargetの形を確認しましょう

boston["data"].shape #(506, 13) 506データ　特徴量13

boston["target"].shape #(506,) 506データ

#訓練用データと検証用データに分割しましょう

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test=train_test_split(boston["data"],boston["target"],random_state=0)

特徴量について　featrue_namesを確認しましょう

boston["feature_names"]

"""
array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='<U7')
"""

#feature_namesの記号の意味がわからないので、詳細を確認しましょう
print(boston["DESCR"],"\n")


"""
# boston["DESCR"]だけをprintすると、文字列の羅列が出力されます。
#文字列の中に、改行と思われる"\n"があるので、
 print文の引数に"\n"をいれるとテキストが整列されて見やすくなります。
以下は、英語で出力された属性情報をgoogle翻訳にべたばりして日本語化したものです。
だたい言いたいことは分かります。

：属性情報（順）：
          - 町ごとの一人当たりの犯罪率
          - 住宅地のZN比率が25,000平方フィートを超える敷地に区画されている。
          - 町あたりの非小売業エーカーのINDUS比率
          -  CHAS Charles Riverダミー変数（トラクトが川の境界にある場合は1、それ以外の場合は0）
          - 一酸化窒素濃度（1000万分の1）
          - 住居ごとのRM平均部屋数
          -  1940年以前に建設された所有者居住ユニットのAGE比率
          -  5つのボストンの雇用センターまでのDIS加重距離
          - ラジアルハイウェイへのアクセス可能性のRAD指数
          -  10,000ドルあたりのTAX全額固定資産税率
          - 町によるPTRATIO生徒教師比率
          -  B 1000（Bk  -  0.63）^ 2 Bkは町による黒人の割合である
          - 人口のLSTAT％地位が低い
          -  MEDV 1000ドルでの所有者居住住宅の中央値

"""

#targetの数値の意味がわからないので確認しましょう。

"""
:Median Value (attribute 14) is usually the target
前述の属性情報における　１４番め　MEDVがtargetのようです。

-  単位は1000ドル　所有者居住住宅の中央値

なぜ中央値がtargetなのでしょうか。
どうやら、このデータひとつひとつは、特定の住宅のデータではなく、地域ごとのデータのようです。
なので、MEDVも、とある地域の中央値ということなのでしょう。

"""

boston["feature_names"]

"""

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',

'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='<U7')

"""

#feature_namesの記号の意味がわからないので、詳細を確認しましょう

print(boston["DESCR"],"\n")

"""

# boston["DESCR"]だけをprintすると、文字列の羅列が出力されます。

#文字列の中に、改行と思われる"\n"があるので、

print文の引数に"\n"をいれるとテキストが整列されて見やすくなります。

以下は、英語で出力された属性情報をgoogle翻訳にべたばりして日本語化したものです。

だたい言いたいことは分かります。

：属性情報（順）：

- 町ごとの一人当たりの犯罪率

- 住宅地のZN比率が25,000平方フィートを超える敷地に区画されている。

- 町あたりの非小売業エーカーのINDUS比率

- CHAS Charles Riverダミー変数（トラクトが川の境界にある場合は1、それ以外の場合は0）

- 一酸化窒素濃度（1000万分の1）

- 住居ごとのRM平均部屋数

- 1940年以前に建設された所有者居住ユニットのAGE比率

- 5つのボストンの雇用センターまでのDIS加重距離

- ラジアルハイウェイへのアクセス可能性のRAD指数

- 10,000ドルあたりのTAX全額固定資産税率

- 町によるPTRATIO生徒教師比率

- B 1000（Bk - 0.63）^ 2 Bkは町による黒人の割合である

- 人口のLSTAT％地位が低い

- MEDV 1000ドルでの所有者居住住宅の中央値

"""

#targetの数値の意味がわからないので確認しましょう。

"""

:Median Value (attribute 14) is usually the target

前述の属性情報における　１４番め　MEDVがtargetのようです。

- 単位は1000ドル　所有者居住住宅の中央値

なぜ中央値がtargetなのでしょうか。

どうやら、このデータひとつひとつは、特定の住宅のデータではなく、地域ごとのデータのようです。

なので、MEDVも、とある地域の中央値ということなのでしょう。

"""

英語を日本語へ翻訳する方法

前述のようなドキュメントを調べるとき、対象とする分野、業界の用語が列挙されると、そこそこ英語ができても単語の意味がわかりません。

そんなときは逆にチャンスで、ドキュメントをまるごと、google翻訳にかけると、専門用語を英語と日本語で一気に覚えることができます。

私は常に躊躇することなくgoogle翻訳します。

念の為

#アンパックの順番を良く間違うので念の為確認

X_train[:1],X_test[:1],y_train[:1],y_test[:1]

"""ちゃんとあっている
(array([[1.9133e-01, 2.2000e+01, 5.8600e+00, 0.0000e+00, 4.3100e-01,
         5.6050e+00, 7.0200e+01, 7.9549e+00, 7.0000e+00, 3.3000e+02,
         1.9100e+01, 3.8913e+02, 1.8460e+01]]),
 array([[6.7240e-02, 0.0000e+00, 3.2400e+00, 0.0000e+00, 4.6000e-01,
         6.3330e+00, 1.7200e+01, 5.2146e+00, 4.0000e+00, 4.3000e+02,
         1.6900e+01, 3.7521e+02, 7.3400e+00]]),
 array([18.5]),
 array([22.6]))
 """

X_train[:1],X_test[:1],y_train[:1],y_test[:1]

"""ちゃんとあっている

(array([[1.9133e-01, 2.2000e+01, 5.8600e+00, 0.0000e+00, 4.3100e-01,

5.6050e+00, 7.0200e+01, 7.9549e+00, 7.0000e+00, 3.3000e+02,

1.9100e+01, 3.8913e+02, 1.8460e+01]]),

array([[6.7240e-02, 0.0000e+00, 3.2400e+00, 0.0000e+00, 4.6000e-01,

6.3330e+00, 1.7200e+01, 5.2146e+00, 4.0000e+00, 4.3000e+02,

1.6900e+01, 3.7521e+02, 7.3400e+00]]),

array([18.5]),

array([22.6]))

"""

#データフレーム化してデータを眺めてみる

#データフレーム化してデータを眺めてみる
columns=boston["feature_names"] #データフレームの列名を定義df=pd.DataFrame(X_train,columns=columns)
 
df=pd.DataFrame(X_train,columns=columns)
df[:5]

#データフレーム化してデータを眺めてみる

columns=boston["feature_names"] #データフレームの列名を定義df=pd.DataFrame(X_train,columns=columns)

df=pd.DataFrame(X_train,columns=columns)

df[:5]

スキャッターマトリクスを眺めてみる

今回もデカイです。

grr=pd.plotting.scatter_matrix(df,c=y_train,figsize=(20,20),marker="o",hist_kwds={"bins":10},s=100,alpha=0.5)

1	grr=pd.plotting.scatter_matrix(df,c=y_train,figsize=(20,20),marker="o",hist_kwds={"bins":10},s=100,alpha=0.5)

訓練開始

一瞬過ぎて何事も起こってないようですが、ちゃんと計算できています

#訓練開始
from sklearn.neighbors import KNeighborsRegressor
knn=KNeighborsRegressor(n_neighbors=5)
knn

"""
KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
          metric_params=None, n_jobs=1, n_neighbors=5, p=2,
          weights='uniform')
          
デフォルトでは n_neighbors は5個になっていますね。
"""
#機械学習モデルを作成する
knn.fit(X_train,y_train)

#訓練開始

from sklearn.neighbors import KNeighborsRegressor

knn=KNeighborsRegressor(n_neighbors=5)

knn

"""

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',

metric_params=None, n_jobs=1, n_neighbors=5, p=2,

weights='uniform')

デフォルトでは n_neighbors は5個になっていますね。

"""

#機械学習モデルを作成する

knn.fit(X_train,y_train)

予測

#データを入れて予測をしてみる。
n=len(X_test)
prediction=knn.predict(X_test[:n])

"""prediction
array([20.76, 29.54, 23.08, 11.94, 21.82, 21.4 , 22.96, 24.38, 30.24,
       18.26])
"""
#生データのtargetを見てみる
"""y_test[:10]
array([22.6, 50. , 23. ,  8.3, 21.2, 19.9, 20.6, 18.7, 16.1, 18.6])
"""

#データを入れて予測をしてみる。

n=len(X_test)

prediction=knn.predict(X_test[:n])

"""prediction

array([20.76, 29.54, 23.08, 11.94, 21.82, 21.4 , 22.96, 24.38, 30.24,

18.26])

"""

#生データのtargetを見てみる

"""y_test[:10]

array([22.6, 50. , 23. , 8.3, 21.2, 19.9, 20.6, 18.7, 16.1, 18.6])

"""

スクリーニングしてみる

#比較してみる
y_rate=y_test/prediction
y_is_cheaper=y_test[:n]<prediction
y_is_05_cheaper=y_test[:n]<prediction*0.95
y_is_10_cheaper=y_test[:n]<prediction*0.90
y_is_20_cheaper=y_test[:n]<prediction*0.80

cheaper_df=pd.DataFrame([prediction,y_test[:n],y_rate,y_is_cheaper,y_is_05_cheaper,y_is_10_cheaper,y_is_20_cheaper],
             index=["prediction","y_test","y_rate","y is cheaper","5% cheaper","10% cheaper","20% cheaper"])
cheaper_df

#比較してみる

y_rate=y_test/prediction

y_is_cheaper=y_test[:n]<prediction

y_is_05_cheaper=y_test[:n]<prediction*0.95

y_is_10_cheaper=y_test[:n]<prediction*0.90

y_is_20_cheaper=y_test[:n]<prediction*0.80

cheaper_df=pd.DataFrame([prediction,y_test[:n],y_rate,y_is_cheaper,y_is_05_cheaper,y_is_10_cheaper,y_is_20_cheaper],

index=["prediction","y_test","y_rate","y is cheaper","5% cheaper","10% cheaper","20% cheaper"])

cheaper_df

20%以上安い物件の数

22件あるんですね。

この２２件について、実際に不動産の知識を持って調査すると良いのではないでしょうか。

#20%以上安い物件の数
cheap_count=np.sum(y_rate<=0.8,axis=0)
print("20%以上安い物件の数 : ",+cheap_count) # 22

#20%以上安い物件の数

cheap_count=np.sum(y_rate<=0.8,axis=0)

print("20%以上安い物件の数 : ",+cheap_count) # 22

課題：精度の算出　と　可視化

精度を検証しようとknn.score(X_test,y_test)したところ、0.4616380924610112 と出ましたが、これは一体なんでしょうｗ

分類と違って、回帰ですから、％ってわけでもないですし・・・あとで、もう少し考えてみましょう。今は保留。

#精度を検証する
print(knn.score(X_test,y_test))

1 2	#精度を検証する print(knn.score(X_test,y_test))

また、可視化については、回帰ですから、回帰直線みたいなのを引きたいのですが、このような高次元に対しての回帰直線はどのように書いたら良いのでしょうか。今後の課題といたします。

以上、でした。

機械学習:Scikit-learn　ブレストキャンサーデータを良く眺めてみる。ついでにKNNをやる。

こんにちはKeita_Nakamoriです。

今日はブレストキャンサーデータを良く眺めてみようと思います。

データをロードしてキーを確認しましょう。

#ロードブレストキャンサーデータを眺める
from sklearn.datasets import load_breast_cancer

#ロードブレストキャンサーデータのインスタンスを作成
cancer_data=load_breast_cancer()

#キーを確認する
cancer_data.keys()

"""
dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])
"""

#ロードブレストキャンサーデータを眺める

from sklearn.datasets import load_breast_cancer

#ロードブレストキャンサーデータのインスタンスを作成

cancer_data=load_breast_cancer()

#キーを確認する

cancer_data.keys()

"""

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])

"""

キーを指定してデータの内容を確認しましょう

# 内容を確認する

cancer_data["data"].shape  #(569, 30) 30次元のベクトルが569データある

cancer_data["target"].shape#(569,)　  1次元の0と1の羅列が569データある

cancer_data["feature_names"]

"""様々な特徴量
array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')
"""

cancer_data["target_names"]

"""
array(['malignant', 'benign'], dtype='<U9')

    malignant は悪性
    benign    は良性 を意味する

"""

# 内容を確認する

cancer_data["data"].shape #(569, 30) 30次元のベクトルが569データある

cancer_data["target"].shape#(569,)　 1次元の0と1の羅列が569データある

cancer_data["feature_names"]

"""様々な特徴量

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',

'mean smoothness', 'mean compactness', 'mean concavity',

'mean concave points', 'mean symmetry', 'mean fractal dimension',

'radius error', 'texture error', 'perimeter error', 'area error',

'smoothness error', 'compactness error', 'concavity error',

'concave points error', 'symmetry error',

'fractal dimension error', 'worst radius', 'worst texture',

'worst perimeter', 'worst area', 'worst smoothness',

'worst compactness', 'worst concavity', 'worst concave points',

'worst symmetry', 'worst fractal dimension'], dtype='<U23')

"""

cancer_data["target_names"]

"""

array(['malignant', 'benign'], dtype='<U9')

malignant は悪性

benign は良性を意味する

"""

おまけ

np.bincount()を使うと　順番に[0の数 , 1の数 , 2の数,・・・]というようなベクトルが得られる

#  ターゲットの 0の数（悪性）と1の数（良性）をカウントする

import numpy as np
np.bincount(cancer_data["target"])

"""
array([212, 357], dtype=int64)
    悪性=212 個
    良性=357 個

"""

# ターゲットの 0の数（悪性）と1の数（良性）をカウントする

import numpy as np

np.bincount(cancer_data["target"])

"""

array([212, 357], dtype=int64)

悪性=212 個

良性=357 個

"""

勢い余って、KNNをやってしまおう

# ====   勢い余って、KNNをやってしまおう    ====

%matplotlib inline

from sklearn.model_selection import train_test_split 
 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import mglearn

#入力データと出力データを定義する
X=cancer_data["data"]    # as input
y=cancer_data["target"]  # as output

#訓練用データと検証用データに分ける
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)

from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=1)

#機械学習モデルを作成する
knn.fit(X_train,y_train)

"""
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=1, p=2,
           weights='uniform')
"""

#スコアを確認する
knn.score(X_test,y_test)

"""
0.916083916083916
"""

# ==== 勢い余って、KNNをやってしまおう ====

%matplotlib inline

from sklearn.model_selection import train_test_split

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import mglearn

#入力データと出力データを定義する

X=cancer_data["data"] # as input

y=cancer_data["target"] # as output

#訓練用データと検証用データに分ける

X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)

from sklearn.neighbors import KNeighborsClassifier

knn=KNeighborsClassifier(n_neighbors=1)

#機械学習モデルを作成する

knn.fit(X_train,y_train)

"""

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

metric_params=None, n_jobs=1, n_neighbors=1, p=2,

weights='uniform')

"""

#スコアを確認する

knn.score(X_test,y_test)

"""

0.916083916083916

"""

おわりに

ということで、たったこれだけで、92%の正解率が得られました。

これは、データがしっかり整っているからできることです。

実際に自分自身の課題に対して機械学習を適用しようとすると、データを収集してきれいに整えることにエネルギーを費やすのだと思います。

番外：データフレームとスキャッターマトリクスを眺めてみる

データ数と特徴量が多すぎて、すごいことになっています。

#データフレーム化してデータを眺めてみる
columns=cancer_data["feature_names"] #データフレームの列名を定義df=pd.DataFrame(X_train,columns=columns)

df=pd.DataFrame(X_train,columns=columns)
df[:5]

#データフレーム化してデータを眺めてみる

columns=cancer_data["feature_names"] #データフレームの列名を定義df=pd.DataFrame(X_train,columns=columns)

df=pd.DataFrame(X_train,columns=columns)

df[:5]

grr=pd.plotting.scatter_matrix(df,c=y_train,figsize=(20,20),marker="o",hist_kwds={"bins":1},s=100,alpha=0.5,cmap=mglearn.cm3)

1	grr=pd.plotting.scatter_matrix(df,c=y_train,figsize=(20,20),marker="o",hist_kwds={"bins":1},s=100,alpha=0.5,cmap=mglearn.cm3)

うわ～～～～～　(*´﹃｀*)

機械学習:Scikit-learn　アイリスデータでk-最近傍法をやってみる

Keita_Nakamoriです。

前回、アイリスデータの内容を確認しました。

今回は、機械学習で最も単純と思われるk-最近傍法をやっていきます。

必要なモジュールをインポート

データをロードして、入力データと出力データを定義

%matplotlib inline
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split 

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import mglearn

#データをロードする
iris_dataset=load_iris()

#データのキーを確認する
iris_dataset.keys()  #dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])

#入力データと出力データを定義する
X=iris_dataset["data"]    # as input
y=iris_dataset["target"]  # as output

%matplotlib inline

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import mglearn

#データをロードする

iris_dataset=load_iris()

#データのキーを確認する

iris_dataset.keys() #dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])

#入力データと出力データを定義する

X=iris_dataset["data"] # as input

y=iris_dataset["target"] # as output

トレインデータ(訓練用）とテストデータ（検証用）に分割する

X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)

1	X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)

# データはランダムに振り分けるが,固定し、0という番号を付ける。

X_train のデータをデータフレーム化して、内容を確認する

columns=iris_dataset[“feature_names”] #データフレームの列名を定義
df=pd.DataFrame(X_train,columns=columns)
df[:5]

X_train のデータフレームをpd.plotting.scatter_matrix（）で可視化して眺める。

grr=pd.plotting.scatter_matrix(df,c=y_train,figsize=(15,15),marker="o",hist_kwds={"bins":10},s=100,alpha=0.5,cmap=mglearn.cm3)

"""pd.plotting.scatter_matrix()の引数を説明する

df        : データフレームを入れるだけで、各列同士(4列)を組み合わせた２次元グラフを、
　　　      総当たり戦で自動的に作図してくれる。（度数分布　と　２次元散布図）
         
c=y_train : y_trainは 0,1,2 のどれかの値ということを利用して、
            プロットのcolorを区別した。

figsize=(15,15):グラフのサイズを大きくする。

marker="o" : マーカー形状を " o " にする。

hist_kwds={"bins":10} : 度数分布の表示をバーチャート、階級数を10とする。

S=100 :プロットのサイズ

alpha=0.5 : プロットの透明度

cmap=mglearn.cm3　：配色の設定（なくても問題ないが慣例的につけている）


"""

grr=pd.plotting.scatter_matrix(df,c=y_train,figsize=(15,15),marker="o",hist_kwds={"bins":10},s=100,alpha=0.5,cmap=mglearn.cm3)

"""pd.plotting.scatter_matrix()の引数を説明する

df : データフレームを入れるだけで、各列同士(4列)を組み合わせた２次元グラフを、

　　　総当たり戦で自動的に作図してくれる。（度数分布　と　２次元散布図）

c=y_train : y_trainは 0,1,2 のどれかの値ということを利用して、

プロットのcolorを区別した。

figsize=(15,15):グラフのサイズを大きくする。

marker="o" : マーカー形状を " o " にする。

hist_kwds={"bins":10} : 度数分布の表示をバーチャート、階級数を10とする。

S=100 :プロットのサイズ

alpha=0.5 : プロットの透明度

cmap=mglearn.cm3　：配色の設定（なくても問題ないが慣例的につけている）

"""

k- 最近傍法分類　をやってみる

モデルの作成とトレーニング

from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=1)

#機械学習モデルを作成する
knn.fit(X_train,y_train)

"""機械学習モデル　output

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=1, p=2,
           weights='uniform')

"""

from sklearn.neighbors import KNeighborsClassifier

knn=KNeighborsClassifier(n_neighbors=1)

#機械学習モデルを作成する

knn.fit(X_train,y_train)

"""機械学習モデル　output

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

metric_params=None, n_jobs=1, n_neighbors=1, p=2,

weights='uniform')

"""

予測する

#　お試しで新規データを学習済みモデルにinputする
X_new=np.array([[5,2.9,1,0.2]]) # sklearnの入力データの仕様としてnumpyの２次元配列にすることになっている。

#予測する
prediction=knn.predict(X_new)
print("Predicted target name is {} .".format(iris_dataset["target_names"][prediction]))

"""output

Predicted target name is ['setosa'] .

"""

#　お試しで新規データを学習済みモデルにinputする

X_new=np.array([[5,2.9,1,0.2]]) # sklearnの入力データの仕様としてnumpyの２次元配列にすることになっている。

#予測する

prediction=knn.predict(X_new)

print("Predicted target name is {} .".format(iris_dataset["target_names"][prediction]))

"""output

Predicted target name is ['setosa'] .

"""

予測性能の評価

#検証データをすべて学習済みモデルにinputし予測結果を得る
y_pred=knn.predict(X_test)

"""y_pred

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 2])

"""

#検証データをすべて学習済みモデルにinputし予測結果を得る

y_pred=knn.predict(X_test)

"""y_pred

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,

0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 2])

"""

#正解率を算出する
np.mean(y_pred==y_test)

1 2	#正解率を算出する np.mean(y_pred==y_test)

結果：0.9736842105263158

または、

#正解率を算出する 他の方法
knn.score(X_test,y_test)

"""
この場合、正解率を算出するために、個別の予測結果であるknn.predict()をやる必要はない。

"""

#正解率を算出する他の方法

knn.score(X_test,y_test)

"""

この場合、正解率を算出するために、個別の予測結果であるknn.predict()をやる必要はない。

"""

でもいいです。

機械学習:Scikit-learn　アイリスデータを良く見る

Keita_Nakamoriです。

今日はsklearnのアイリスデータを良く見てみようと思います。

インストール

>pip install sklearn

して

Requirement already satisfied: sklearn in c:\users\omoiy\anaconda3\lib\site-packages (0.0)
Requirement already satisfied: scikit-learn in c:\users\omoiy\anaconda3\lib\site-packages (from sklearn) (0.19.1)

と出るので、すでに入っていました。アナコンダですから。

インポートそしてインスタンス作成

アイリスデータが入っている、ロードアイリスをsklearn.datastetsからインポートします。
from sklearn.datasets import load_iris

関数としてロードアイリスのインスタンス、アイリスデータセットを作成します。

iris_dataset=load_iris #ロードアイリス関数

では、アイリスデータセットを見てみましょう。

iris_dataset()

わけのわからないデータの羅列が出てきますが、よく見るとディクショナリによく似た”Bunchクラス”という形式でデータが入っています。

ディクショナリと同様に、キーとバリューを指定できます。

iris_dataset().keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])

1	dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])

キーを指定してみます。長いので500文字で切りましょう。DESCRはディスクドライブの略です。

まずは、データの概要を見る

iris_dataset[“DESCR”][:500]

または、下のように書くと、見やすくなります。

print(iris_dataset()[“DESCR”][:500]+”\n…”)

データセットの特性

インスタンス数：150　（３クラスあり、それぞれ５０個）

アトリビュートの数：

４つの予測用アトリビュート（数値）

sepal長さ[cm] sepal 幅 [cm]
petal長さ[cm] petal 幅 [cm]

クラス（分類）

Iris-Setosa
Iris- Versicolour
Iris-Virginica

訓練用のインプット”データ”を確認する。

iris_dataset()[“data”]

.shape()で大きさを確認すると(150, 4)。４つの予測用アトリビュートをもった塊が１５０個ある。

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],続く

array([[5.1, 3.5, 1.4, 0.2],

[4.9, 3. , 1.4, 0.2],

[4.7, 3.2, 1.3, 0.2],

[4.6, 3.1, 1.5, 0.2],

[5. , 3.6, 1.4, 0.2],

[5.4, 3.9, 1.7, 0.4],

[4.6, 3.4, 1.4, 0.3],

[5. , 3.4, 1.5, 0.2],

[4.4, 2.9, 1.4, 0.2],

[4.9, 3.1, 1.5, 0.1],続く

正解である”ターゲット”を確認する

iris_dataset()[“target”]

0=Iris-Setosa
1=Iris- Versicolour
2=Iris-Virginica

なのでしょう、きっと。

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,

2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,

2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

ターゲットの名前

iris_dataset()[“target_names”]

ここで出てきました。分類名。前述で予想した通りの順番でした。

array(['setosa', 'versicolor', 'virginica'], dtype='&lt;U10')

1	array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

特徴の名称を確認する

これも、DESCRでの記述順通りでした。

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

['sepal length (cm)',

'sepal width (cm)',

'petal length (cm)',

'petal width (cm)']

以上、ロードアイリスのデータでした。

次回は訓練させていきます。