# chapter 9 教師なし学習


'\n・クラスタリング\n    データをいくつかのクラスに分類する\n    顧客セブメンテーションに使用する\n     \n・主成分分析\n    説明変数が多すぎるときに使用する(次元圧縮)\n\n・マーケットバスケット分析(アソシエーションルール)\n    どういう組み合わせが大きかを見つける\n'
# 基本的なモジュール
import numpy as np
import pandas as pd
import scipy as sp

# 可視化モジュール
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline
%precision 3

# 機械学習モジュール
import sklearn
# クラスタリング k-means法


3.各ランダム点を クラスタ1の重心点、
    クラスタ2の重心点、クラスタ3の重心点 と呼ぶ
'\nクラスタ数を3と仮定した場合\n\n1.全データをプロットする\n2.ランダムに3つの点をプロットする\n3.各ランダム点を\u3000クラスタ1の重心点、\n    クラスタ2の重心点、クラスタ3の重心点\u3000と呼ぶ\n4.各データはどの重心点に近いか調べ所属させる\n5.各クラスタの本当の重心を算出する\n6.本当の重心を使って、再び各データをどれかの重心に所属させる\n7.これを繰り返していき、重心がずれなくなったところで\n    クラスタリング終了\n'
# K-meansをやってみる
from sklearn.cluster import KMeans
# maek_blobs サンプルデータを使っていく
from sklearn.datasets import make_blobs

# ランダムステートは 0のときまばらなので,1でやってみる
data = make_blobs(random_state=1) 

# 説明変数は二次元座標データになっている
# サイズを調べる
"""(100, 2)

(100, 2)
0 1
0 -0.794152 2.104951
1 -9.151552 -4.812864
2 -11.441826 -4.457814
3 -9.767618 -3.191337
4 -4.536556 -8.401863
# 目的変数
0 0
1 1
2 1
3 1
4 2
# 説明変数をプロットしてみる
plt.scatter(data[0][:,0], data[0][:,1])
<matplotlib.collections.PathCollection at 0x26f9bb38f98>
# クラスタ説明変数をプロットしてみる
plt.scatter(data[0][:,0], data[0][:,1], color='black')
<matplotlib.collections.PathCollection at 0x26f9bd38908>
# k-means の引数を確認する
Help on class KMeans in module sklearn.cluster.k_means_:

# 機械学習モデル K-meansのインスタンスを作成する
model = KMeans(n_clusters=3, init='random')
# 訓練する(クラスタ重心を算出する)[0])
KMeans(algorithm='auto', copy_x=True, init='random', max_iter=300, n_clusters=3,
       n_init=10, n_jobs=None, precompute_distances='auto', random_state=None,
       tol=0.0001, verbose=0)
# クラスタリングされた結果のクラスタ番号を確認する
y_pred = model.predict(data[0])
0 1
1 0
2 0
3 0
4 2
# 結果をデータフレームにまとめる 
data_merge = pd.concat([pd.DataFrame(data[0][:,0]),

# columnsをつける
data_merge.columns = ['X0', 'X1', 'y_pred']

pd.concatを使用するときは リストとしてdfを入れるので[ ] を忘れないこと。

X0 X1 y_pred
0 -0.794152 2.104951 1
1 -9.151552 -4.812864 0
2 -11.441826 -4.457814 0
3 -9.767618 -3.191337 0
4 -4.536556 -8.401863 2
# 結果を可視化してみる
ax = None
colors =['blue', 'red', 'yellow']

for i, data in data_merge.groupby('y_pred'):
    ax = data.plot.scatter(x='X0', y='X1', 
# 以上、練習でした。
# 次から、実データでやってみます
# 顧客のクラスタリングをやってみる
# 目的変数(正解データ)が特定されていない場合
import requests, zipfile
import io

url = ''

r = requests.get(url, stream=True)
z = zipfile.ZipFile(io.BytesIO(r.content))
data = pd.read_csv('bank-full.csv', sep=';')
age job marital education default balance housing loan contact day month duration campaign pdays previous poutcome y
0 58 management married tertiary no 2143 yes no unknown 5 may 261 1 -1 0 unknown no
1 44 technician single secondary no 29 yes no unknown 5 may 151 1 -1 0 unknown no
2 33 entrepreneur married secondary no 2 yes yes unknown 5 may 76 1 -1 0 unknown no
3 47 blue-collar married unknown no 1506 yes no unknown 5 may 92 1 -1 0 unknown no
4 33 unknown single unknown no 1 no no unknown 5 may 198 1 -1 0 unknown no
# データの大きさ

(45211, 17)
Index(['age', 'job', 'marital', 'education', 'default', 'balance', 'housing',
       'loan', 'contact', 'day', 'month', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome', 'y'],
with open('bank-names.txt', 'r') as f:
    text =

Citation Request:
  This dataset is public available for research. The details are described in [Moro et al., 2011]. 
  Please include this citation if you plan to use this database:

  [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. 
  In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarテ」es, Portugal, October, 2011. EUROSIS.

  Available at: [pdf]

1. Title: Bank Marketing

2. Sources
   Created by: Paulo Cortez (Univ. Minho) and Sテゥrgio Moro (ISCTE-IUL) @ 2012
3. Past Usage:

  The full dataset was described and analyzed in:

  S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. 
  In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarテ」es, 
  Portugal, October, 2011. EUROSIS.

4. Relevant Information:

   The data is related with direct marketing campaigns of a Portuguese banking institution. 
   The marketing campaigns were based on phone calls. Often, more than one contact to the same client was required, 
   in order to access if the product (bank term deposit) would be (or not) subscribed. 

   There are two datasets: 
      1) bank-full.csv with all examples, ordered by date (from May 2008 to November 2010).
      2) bank.csv with 10% of the examples (4521), randomly selected from bank-full.csv.
   The smallest dataset is provided to test more computationally demanding machine learning algorithms (e.g. SVM).

   The classification goal is to predict if the client will subscribe a term deposit (variable y).

5. Number of Instances: 45211 for bank-full.csv (4521 for bank.csv)

6. Number of Attributes: 16 + output attribute.

7. Attribute information:

   For more information, read [Moro et al., 2011].

   Input variables:
   # bank client data:
   1 - age (numeric)
   2 - job : type of job (categorical: "admin.","unknown","unemployed","management","housemaid","entrepreneur","student",
   3 - marital : marital status (categorical: "married","divorced","single"; note: "divorced" means divorced or widowed)
   4 - education (categorical: "unknown","secondary","primary","tertiary")
   5 - default: has credit in default? (binary: "yes","no")
   6 - balance: average yearly balance, in euros (numeric) 
   7 - housing: has housing loan? (binary: "yes","no")
   8 - loan: has personal loan? (binary: "yes","no")
   # related with the last contact of the current campaign:
   9 - contact: contact communication type (categorical: "unknown","telephone","cellular") 
  10 - day: last contact day of the month (numeric)
  11 - month: last contact month of year (categorical: "jan", "feb", "mar", ..., "nov", "dec")
  12 - duration: last contact duration, in seconds (numeric)
   # other attributes:
  13 - campaign: number of contacts performed during this campaign and for this client (numeric, includes last contact)
  14 - pdays: number of days that passed by after the client was last contacted from a previous campaign (numeric, -1 means client was not previously contacted)
  15 - previous: number of contacts performed before this campaign and for this client (numeric)
  16 - poutcome: outcome of the previous marketing campaign (categorical: "unknown","other","failure","success")

  Output variable (desired target):
  17 - y - has the client subscribed a term deposit? (binary: "yes","no")

8. Missing Attribute Values: None

# 欠損データの確認
age          0
job          0
marital      0
education    0
default      0
balance      0
housing      0
loan         0
contact      0
day          0
month        0
duration     0
campaign     0
pdays        0
previous     0
poutcome     0
y            0
dtype: int64
# 使用するデータを3つだけ使用する
data_sub = data[['age', 'balance', 'campaign', 'previous']]

# データを標準化する 
from sklearn.preprocessing import StandardScaler

# StandardScalerのインスタンスを作成
standard_scaler = StandardScaler()

# 標準化の実行
data_sub_std = standard_scaler.transform(data_sub) 
                   columns=['age', 'balance', 'campaign', 'previous']).head())
        age   balance  campaign  previous
0  1.606965  0.256419 -0.569351  -0.25194
1  0.288529 -0.437895 -0.569351  -0.25194
2 -0.747384 -0.446762 -0.569351  -0.25194
3  0.571051  0.047205 -0.569351  -0.25194
4 -0.747384 -0.447091 -0.569351  -0.25194
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 4 columns):
age         45211 non-null int64
balance     45211 non-null int64
campaign    45211 non-null int64
previous    45211 non-null int64
dtypes: int64(4)
memory usage: 1.4 MB
# K-meansクラスタリングモデルのインスタンスを作成する
model = KMeans()

# 重心を計算する(訓練する)
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=8, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)
# 分類結果を確認する
y_pred = model.predict(data_sub_std)
0  2
1  2
2  1
3  2
4  1
# では可視化してみましょう。


 上記の y_pred = model.predict(data_sub_std) と同じ
labels = pd.Series(model.labels_, name='cluster_number')

# クラスター番号とそれのデータ数を算出する
df = pd.DataFrame(labels.value_counts(sort=False))
0 701
1 22868
2 13746
3 2533
4 1382
5 3762
6 218
7 1
# バーチャートで可視化する, df['cluster_number'])



# クラスタ数を推定する エルボ法

クラスタに所属する各データとクラスタ重心との距離の総和 (distortion) は、減少していくと推測できる。


# ブロブデータでエルボ法を試してみよう
# 距離の総和 : inertia_ に保持される

# ブロブデータ
from sklearn.datasets import make_blobs

distortion_list = []
data = make_blobs(random_state=1) 
X = data[0] # 説明変数

distortions = []
for n_cluster in range(1,11):

    model = KMeans(n_clusters=n_cluster,init='random',random_state=0)

    # distortion
[4118.153777704471, 661.5698490972003, 156.28289251170003, 130.96121900774804, 116.54563084299525, 97.01791420345081, 84.961839171795, 70.52115768856302, 62.65840813882036, 57.186978620797646]
plt.plot(range(1,11), distortions)

# では これを 顧客のクラスタリングに適用してみる
import requests, zipfile
import io

# データセットを用意する
url = ''

r = requests.get(url, stream=True)
z = zipfile.ZipFile(io.BytesIO(r.content))

data = pd.read_csv('bank-full.csv', sep=';')

# 使用するデータを4つだけ使用する
data_sub = data[['age', 'balance', 'campaign', 'previous']]

# データを標準化する 
from sklearn.preprocessing import StandardScaler

# StandardScalerのインスタンスを作成
standard_scaler = StandardScaler()

# 標準化の実行
data_sub_std = standard_scaler.transform(data_sub) 
                   columns=['age', 'balance', 'campaign', 'previous']).head())
        age   balance  campaign  previous
0  1.606965  0.256419 -0.569351  -0.25194
1  0.288529 -0.437895 -0.569351  -0.25194
2 -0.747384 -0.446762 -0.569351  -0.25194
3  0.571051  0.047205 -0.569351  -0.25194
4 -0.747384 -0.447091 -0.569351  -0.25194
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 4 columns):
age         45211 non-null int64
balance     45211 non-null int64
campaign    45211 non-null int64
previous    45211 non-null int64
dtypes: int64(4)
memory usage: 1.4 MB
# 訓練をする
distortions =[]
for n_cluster in range(1,21):
    print('現在のクラスタ数 : ', n_cluster)
    # K-meansクラスタリングモデルのインスタンスを作成する
    model = KMeans(n_clusters=n_cluster,init='random',random_state=0)

    # 重心を計算する(訓練する)


現在のクラスタ数 :  1
現在のクラスタ数 :  2
現在のクラスタ数 :  3
現在のクラスタ数 :  4
現在のクラスタ数 :  5
現在のクラスタ数 :  6
現在のクラスタ数 :  7
現在のクラスタ数 :  8
現在のクラスタ数 :  9
現在のクラスタ数 :  10
現在のクラスタ数 :  11
現在のクラスタ数 :  12
現在のクラスタ数 :  13
現在のクラスタ数 :  14
現在のクラスタ数 :  15
現在のクラスタ数 :  16
現在のクラスタ数 :  17
現在のクラスタ数 :  18
現在のクラスタ数 :  19
現在のクラスタ数 :  20
[180844.0, 148734.3144086882, 123478.75929725463, 101680.3500051579, 84412.51805248375, 76422.15821096877, 69436.60990649737, 64176.412970801626, 57757.93355292684, 54199.875799899295, 51985.82497495736, 40980.805589710064, 37556.180402399, 35407.77835407567, 33623.42165185649, 31540.38406833519, 30241.21643712217, 28421.357773862754, 27782.097598096054, 27162.135684252564]
plt.plot(range(1,21), distortions, marker='o')
plt.xlabel('The mumber of the clusters')

# ということで エルボ法よりクラスタ数は5と決定したので
# 再度 顧客セクメンテーションをやってみる
import requests, zipfile
import io

# データセットを用意する
url = ''

r = requests.get(url, stream=True)
z = zipfile.ZipFile(io.BytesIO(r.content))

data = pd.read_csv('bank-full.csv', sep=';')

# 使用するデータを4つだけ使用する
data_sub = data[['age', 'balance', 'campaign', 'previous']]

# データを標準化する 
from sklearn.preprocessing import StandardScaler

# StandardScalerのインスタンスを作成
standard_scaler = StandardScaler()

# 標準化の実行
data_sub_std = standard_scaler.transform(data_sub) 
                   columns=['age', 'balance', 'campaign', 'previous']).head())

# 訓練をする
n_cluster = 5 # エルボ法より

# K-meansクラスタリングモデルのインスタンスを作成する
model = KMeans(n_clusters=n_cluster,init='random',random_state=0)

# 重心を計算する(訓練する)


        age   balance  campaign  previous
0  1.606965  0.256419 -0.569351  -0.25194
1  0.288529 -0.437895 -0.569351  -0.25194
2 -0.747384 -0.446762 -0.569351  -0.25194
3  0.571051  0.047205 -0.569351  -0.25194
4 -0.747384 -0.447091 -0.569351  -0.25194
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 4 columns):
age         45211 non-null int64
balance     45211 non-null int64
campaign    45211 non-null int64
previous    45211 non-null int64
dtypes: int64(4)
memory usage: 1.4 MB
# 分類結果を確認する
y_pred = model.predict(data_sub_std)
0  3
1  3
2  1
3  3
4  1
# では可視化してみましょう。


 上記の y_pred = model.predict(data_sub_std) と同じ
labels = pd.Series(model.labels_, name='cluster_number')

# クラスター番号とそれのデータ数を算出する
df = pd.DataFrame(labels.value_counts(sort=False))
0 1700
1 25401
2 1393
3 15410
4 1307
# バーチャートで可視化する, df['cluster_number'])

# クラスタリング結果の解釈
# 元データにクラスタリング結果を統合する

data_with_cluster_num = pd.concat([data, labels], axis=1)
age job marital education default balance housing loan contact day month duration campaign pdays previous poutcome y cluster_number
0 58 management married tertiary no 2143 yes no unknown 5 may 261 1 -1 0 unknown no 3
1 44 technician single secondary no 29 yes no unknown 5 may 151 1 -1 0 unknown no 3
2 33 entrepreneur married secondary no 2 yes yes unknown 5 may 76 1 -1 0 unknown no 1
3 47 blue-collar married unknown no 1506 yes no unknown 5 may 92 1 -1 0 unknown no 3
4 33 unknown single unknown no 1 no no unknown 5 may 198 1 -1 0 unknown no 1
# クラスター別の年齢層を確認してみる

# 区切り
bins = [i for i in range(15,101,5)]

# 年齢ageを binsで qcutする
qcut_age = pd.cut(data_with_cluster_num.age, bins, right=False)
df_qcut_age = pd.DataFrame(qcut_age)
[15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100]
0 [55, 60)
1 [40, 45)
2 [30, 35)
3 [45, 50)
4 [30, 35)
# クラスタ番号と年齢層を結合
df = pd.concat([data_with_cluster_num, df_qcut_age], axis=1)
Index(['age', 'job', 'marital', 'education', 'default', 'balance', 'housing',
       'loan', 'contact', 'day', 'month', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome', 'y', 'cluster_number', 'qcut_age'],
# クラスタ番号と年齢層を軸に集計 → 年齢層を列に設定
cross_cluster_qcut_age = df.groupby(['cluster_number', 'qcut_age']).size().unstack().fillna(0)

qcut_age        [15, 20)  [20, 25)  [25, 30)  [30, 35)  [35, 40)  [40, 45)  \
0                    2.0      14.0     146.0     389.0     353.0     266.0   
1                   45.0     716.0    4109.0    8780.0    7464.0    4287.0   
2                    0.0      21.0     134.0     330.0     311.0     189.0   
3                    0.0       0.0       0.0       0.0       0.0    1232.0   
4                    0.0      11.0      75.0     241.0     221.0     211.0   

qcut_age        [45, 50)  [50, 55)  [55, 60)  [60, 65)  [65, 70)  [70, 75)  \
0                  223.0     160.0     117.0      24.0       1.0       1.0   
1                    0.0       0.0       0.0       0.0       0.0       0.0   
2                  147.0     118.0      71.0      38.0      10.0      11.0   
3                 4940.0    4066.0    3575.0     864.0     234.0     224.0   
4                  160.0     144.0     159.0      48.0      11.0      18.0   

qcut_age        [75, 80)  [80, 85)  [85, 90)  [90, 95)  [95, 100)  
0                    2.0       0.0       1.0       0.0        1.0  
1                    0.0       0.0       0.0       0.0        0.0  
2                    8.0       4.0       0.0       1.0        0.0  
3                  155.0      92.0      21.0       6.0        1.0  
4                    5.0       2.0       1.0       0.0        0.0  
# 各年齢層qcut_age で何人いるかカウントする
hist_age = pd.value_counts(qcut_age)
[30, 35)     9740
[35, 40)     8349
[40, 45)     6185
[45, 50)     5470
[50, 55)     4488
[25, 30)     4464
[55, 60)     3922
[60, 65)      974
[20, 25)      762
[65, 70)      256
[70, 75)      254
[75, 80)      170
[80, 85)       98
[15, 20)       47
[85, 90)       23
[90, 95)        7
[95, 100)       2
Name: age, dtype: int64
In [288]:
# ヒートマップを描いてみる
<matplotlib.axes._subplots.AxesSubplot at 0x26fa13c96a0>
# 全体に対する割合で書き直してみる
sns.heatmap(cross_cluster_qcut_age.apply(lambda x : x / x.sum(), axis=1),cmap='Blues')


# 職業job についても確認してみる
# 数値ではなくカテゴリ変数なのでどうやったらよいか。
cross_cluster_job = data_with_cluster_num.groupby(['cluster_number', 'job']).size().unstack().fillna(0)
job admin. blue-collar entrepreneur housemaid management retired self-employed services student technician unemployed unknown
0 178 373 66 42 387 36 66 156 18 324 32 22
1 3174 5778 753 445 5375 57 886 2646 839 4638 730 80
2 196 244 41 21 338 53 43 114 54 251 33 5
3 1514 3155 572 695 2935 2039 511 1169 5 2186 459 170
4 109 182 55 37 423 79 73 69 22 198 49 11
# ヒートマップを書いてみる
<matplotlib.axes._subplots.AxesSubplot at 0x26fa4358f98>
# 全体に対する割合で書き直してみる
sns.heatmap(cross_cluster_job.apply(lambda x : x / x.sum(), axis=1),cmap='Blues')


<matplotlib.axes._subplots.AxesSubplot at 0x26fa4638048>
