# サンプルデータを用意します。
# モジュール
import numpy as np
import scipy as sp
import pandas as pd
import sklearn
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
sns.set()
%matplotlib inline
%precision 3
import requests
import zipfile
import io
# サンプルデータをrequests.get().content (ダウンロード) する
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data'
res = requests.get(url).content
auto = pd.read_csv(io.StringIO(res.decode('utf-8')), header=None)
auto.columns = ['symboling','nomalalined-losses','make','fuel-type','aspiration','num-of-doors',
'body-style','drive-sheels','enfine-location','wheel-base','length','width','height',
'corb-weight','engine-type','num-of-cylinders','engin-size','fuel-system','bore',
'stroke','compression-ratio','horsepower','peak-rpm','city-mpg','highway-mpg','price']
auto.head(5)
# horsepower width height の3つを説明変数として自動車の価格を求めてみよう
# 欠損値の除去
data = auto[['price', 'horsepower', 'width', 'height']]
data.isin(['?']).sum()
"""
price 4
horsepower 2
width 0
height 0
dtype: int64
"""
# ?をNaNに置換して、行を削除する
data = data.replace('?', np.nan).dropna()
print(data.shape) # (199, 4)
data .head()
# horsepower width height の3つを説明変数として自動車の価格を求めてみよう
# 欠損値の除去
data = auto[['price', 'horsepower', 'width', 'height']]
data.isin(['?']).sum()
"""
price 4
horsepower 2
width 0
height 0
dtype: int64
"""
# ?をNaNに置換して、行を削除する
data = data.replace('?', np.nan).dropna()
print(data.shape) # (199, 4)
data .head()