AWS – 機械学習入門コースの決定版!機械学習エンジニアを目指すならcodexa（コデクサ）

ゲームソフトの売行きをXGBoostで予測してみた【Amazon SageMaker ノートブック＋モデル訓練＋モデルホスティングまで】

codexaチーム — Thu, 21 Dec 2017 07:24:37 +0000

2017年11月にサービスインした、アマゾンAWSの新しい機械学習サービス「SageMaker」。codexaの機械学習チーム内でも、利用することが増えてきており、機会学習エンジニアの必須プラットフォームになる可能性をひしひしと感じています。

さて、先日に公開した、第一弾チュートリアル「Amazon SageMakerを使って銀行定期預金の見込み顧客を予測【SageMaker ＋XGBoost 機械学習初心者チュートリアル】」に続いて、今回は第二弾のAmazon SageMaker初心者向けチュートリアルとなります！

前回は銀行の定期預金マーケティングの予測でしたが、今回はゲームソフトの売行き予測をXGBoostで行います。本チュートリアルの概要は下記となります。（チュートリアル参照元はこちら）

チュートリアルに掛かる時間

1時間〜3時間程度で実施可能です

発生するAWS料金

最低限のインスタンスを利用して3ドル〜5ドルとなります。SageMakerの無料枠の利用も可能ですので、使える方は無料枠でお試しください。無料枠を利用しない限りは、料金が発生します。インスタンスの選択など、必ず各自の責任で本チュートリアルを実施ください。

【重要】

チュートリアル終了後にインスタンスを放置しておくと、無駄な料金が発生していまします。チュートリアル終了後は、必ずインスタンスの停止または削除を行いましょう！

本チュートリアルで実施する概要

Amazon SageMakerのノートブックでデータ前処理
Boto3経由でS3とSagaMakerの連携
モデルトレーニングインスタンスでSageMaker XGBoostの訓練
モデルホスティングインスタンスで訓練済みモデルをホスト
テストデータをホスティングしたモデルを使って予測値を取得
結果確認

今回ですが第二回目となりますので、登録や初期設定の詳細に関しては省いています。まだSageMakerを一度も触られたことがない方は、第一弾目からどうぞ。

では、早速、やってみましょう！

SageMaker ノートブックインスタンスの立ち上げ

SageMakerのメリットの一つとして、クラウドでJupyter Notebookが簡単に使えることです。機械学習で必要なライブラリやフレームワークが、すでに使える環境ですので、大きな時間短縮となります。

では、SageMakerへログインをしてノートブックインスタンスの立ち上げを行なっていきましょう。まだSageMakerのアカウントをお持ちでない方は、こちらから登録をお願いいたします。

インスタンスの立ち上げですが、基本的には下記の3つの設定が必要なります。

ノートブックインスタンス名
ノートブックインスタンスのタイプ
IAMロール

今回はノートブックインスタンス名を「hit-games」と名付けて作成しました。インスタンスのタイプは、一番安い「ml.t2.medium」を利用しています。無料枠が利用可能な方は、こちらへ無料枠用のタイプが出ているかと思いますので、適宜、そちらを選んで下さい。SageMakerの料金設定はこちらのページを各自参照して、料金を理解した上での利用をお願い致します。また、IAMロールの設定はSageMaker一段目チュートリアルをご参照ください。

ノートブックインスタンスの立ち上げが完了したら、次はJupyter Notebookで新しいノートを作成しましょう。下記の画面の「New」のドロップダウンから「conda_python3」を選択して、新規ノートブックを作成します。

これで、ノートブックインスタンスの準備完了です。次にS3のバケット名とリージョンの確認を行いましょう。S3とSageMakerのリージョンが異なると、使えませんので気をつけましょう。S3のコンソールへログインをして、バケット名とリージョンの確認をお願いいたします。本チュートリアルでは、SageMakerの「米国東部（バージニア北部）」を利用していますので、s3も同様のリージョンで作られているのが確認できます。

これで、ノートブックインスタンスの作成は完了です。S３のバケット名ですが、後ほど使いますので、どこかにメモっておきましょう。

次はデータセットの取得とノートブックインスタンスを利用して前処理へ進みましょう！

データセットの取得

本チュートリアルで使うデータセットはKaggleのVideo Game Sales with Ratings（意訳：ビデオゲームの売上とレビュー）を使います。Kaggleにまだ登録されていない方は、この機会に登録をお勧めいたします。（Kaggleの詳しい説明はこちらをご参考）

登録完了後に「Data」のページからデータセットのダウロードが可能です。 Video_Games_Sales_as_at_22_Dec_2016.csv をローカルにダウロードしましょう。

データセットのダウロードが完了したら、次はS3へアップロードを行います。SageMakerと同じリージョンのS3のバケット直下へ、 Video_Games_Sales_as_at_22_Dec_2016.csv のアップロードをしてください。

次に、SageMaker ノートブックで、S3へ格納したデータセットを読み込んで、データの前処理を行います。先ほど作成したノートブックを開きましょう。

まずは、S3のバケット名の指定、さらにS3で使うプレフィックスとIAM Roleの宣言をしましょう。ノートブックの一番最初のセルへ下記のコードを入力して、Shift + Enterで実行しましょう。

bucket = 'hideto-ml'
prefix = 'sagemaker/videogames_xgboost'

# IAMのRoleを宣言
import sagemaker
role = sagemaker.get_execution_role()

次に本チュートリアルで使う機械学習系のライブラリのインポートを一括で行います。今回使うライブラリですが、全てSageMakerにインストール済ですので、特に事前の作業は必要ありません。

NumpyやPandasなどの機械学習定番のライブラリに加えて、PythonとAWSをブリッジングしてくれるboto3も使います。

# 必要なライブラリのインポートをしましょう
# すべてsagemakerで用意されていますので追加作業なし
import numpy as np                                
import pandas as pd                               
import matplotlib.pyplot as plt   
from IPython.display import Image                 
from IPython.display import display               
from sklearn.datasets import dump_svmlight_file   
from time import gmtime, strftime                 
import sys                                        
import math                                       
import json
import boto3

次は先ほどKaggleからダウロードして、S3へ格納したファイルの読み込みを行います。ファイル名を指定して、Boto3経由でS3からSageMakerへファイルを移しましょう。さらに、CSVファイルからPandasデータフレームへの変換も行なって、データの表示をしてみましょう。

# KaggleからダウロードしたデータセットをS3のバケットへ格納
# ファイル名を指定する
raw_data_filename = 'Video_Games_Sales_as_at_22_Dec_2016.csv'


# boto3経由でs3内に格納したデータをSageMakerのノートブックインスタンスへ移します
s3 = boto3.resource('s3')
s3.Bucket(bucket).download_file(raw_data_filename, 'raw_data.csv')


# PandasのデータフレームへCSVファイルを変換
# Pandasの行表示制限のオプション設定を変更
# データを表示させる
data = pd.read_csv('./raw_data.csv')
pd.set_option('display.max_rows', 20)
data

次は、このデータセットの概要の確認と予測ターゲットの設定を行います。

データセットの確認と予想ターゲットの設定

こちらのデータセットですが、KaggleのDataのページにて詳細が記載してあります。各項目の概要を紐解いていきましょう。データの提供元はMetacritic（メタクリティック）という、ゲームや音楽などをレビュー集積するウェブサービスとなっています。

各項目の概要

Name ゲームタイトル
Platform ゲーム機種別
Year_of_Release ゲーム発売年
Genre
ゲームのカテゴリ
Publisher
ゲーム販売者名
NA_Sales 北米の販売数（単位：百万）
EU_Sales ECの販売数（単位：百万）
JP_Sales 日本の販売数（単位：百万）
Other_Sales 上記以外の地域の販売数（単位：百万）
Global_Sales 全世界の合計販売数（単位：百万）
Critic_Score メタクリティックが統計したスコア
Critic_Count Critic_Scoreの算出元となるレビュー数
User_Score メタクリティックのユーザーがつけた評価スコア
User_Count User_Scoreの算出元となるユーザー数
Developer ゲーム開発名
Rating アメリカのゲーム利用の年齢制限レーティング

データセット概要

16719行16列のデータセット
Name（ゲームタイトル）のユニーク数は約1200
Platform（ゲーム機）のユニー数は31
Global_SalesなどSales関連の単位は全てMillion（百万）
Global_Salesの平均値は0.53（つまり53万個の販売数）

余談ではありますが、こちらのデータを色々と深掘りしてみると面白いですね！別途、時間がある方は深掘りして見ると、データセットの処理の良い勉強になるかと思います！

さて、次は予測ターゲットの設定を考えましょう。今回の予測ターゲットですが、「ゲームソフトがヒットするかどうか」を予測しましょう。ヒットの定義として、ゲームソフトが100万本以上売れたらヒット（ミリオンセラー）とします。

ということで、 Global_Sales のデータ値を参照して、予測ターゲット y を作成しましょう。さらに、今回のデータセットでのミリオンセラーの分布を確認してみましょう。

# ターゲットを設定
# Global_Salesで1（100万本）以上の売上を基準としてyを作成
data['y'] = (data['Global_Sales'] > 1)

# ターゲットの分布を確認
plt.bar(['not a hit', 'hit'], data['y'].value_counts())
plt.show()

当然といえば当然ですが、ミリオンセラーの販売実績は非常に高い壁のようですね（笑）。莫大なお金と時間を投じても、売れるゲームと売れないゲームがあるという厳しい現実を表したデータです。

予測ターゲットの設定ができましたので、次はいよいよ特徴量を決めていきましょう。データの各項目を見てみると、予測ターゲット（ Global_Sales ）に特に関係が強うそうなデータとして、 User_Score と Critic_Score が考えられます。この2項目のデータと予測ターゲットyの相関を対数目盛を利用してプロッティングしてみましょう。

# 次は特徴量を決めます
# ゲームのレビュー（User_ScoreとCritic_Score）と販売量（Global_Sales）の相関性は？
# 対数目盛を使ってグラフにしてみよう
viz = data.filter(['User_Score','Critic_Score', 'Global_Sales'], axis=1)
viz['User_Score'] = pd.Series(viz['User_Score'].apply(pd.to_numeric, errors='coerce'))
viz['User_Score'] = viz['User_Score'].mask(np.isnan(viz["User_Score"]), viz['Critic_Score'] / 10.0)
viz.plot(kind='scatter', logx=True, logy=True, x='Critic_Score', y='Global_Sales')
viz.plot(kind='scatter', logx=True, logy=True, x='User_Score', y='Global_Sales')
plt.show()

左が Critic_Score で右が User_Score のグラフとなります。想像の通り両方のデータはターゲット y の予測をするのに使えそうなのが解ります。他にも genre （ゲームのカテゴリ）も当然、ミリオンセラーの要因になりますし、 ESRB （米ゲーム年齢制限レーティング）も販売対象となるリーチが大きく異なることから（例：全ての年齢対象のソフトより成人対象のソフトはリースが少ない）、予測ターゲットの特徴量として使えるかと思います。ここでは、他の項目とターゲット y との相関を出しませんが、各自でデータを確認してみてください。

次ですが、特徴量として使えない（使わない）項目を考えましょう。すでにデータをパッと確認したら気づくかと思いますが、 JP_Sales （日本での販売数）など、予測ターゲットに直接関係のあるデータが含まれています。これらの項目は予測モデルに組み込むべきではありませんので、除外しましょう。、あた、 Name （ゲームタイトル）や Year_of_Release （販売開始年）なども除外します。

# 特徴量として使わない項目を除外
data = data.drop(['Name', 'Year_of_Release', 'NA_Sales', 'EU_Sales', 'JP_Sales',
                  'Other_Sales', 'Global_Sales', 'Critic_Count', 'User_Count', 'Developer'], axis=1)

これで訓練に使う項目のみが残りましたので、次はお決まりの欠損値の確認を行いましょう。 missing_values_table の関数を作成して、 data の各項目（特徴量）の欠損値の状況把握をします。

# 欠損データの確認 missing_values_tableを作る
def missing_values_table(df):
    mis_val = df.isnull().sum()
    mis_val_percent = 100 * df.isnull().sum()/len(df)
    mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
    mis_val_table_ren_columns = mis_val_table.rename(
    columns= {0 : 'Missing Values', 1: '% of total values'})
    return mis_val_table_ren_columns

# まずはおきまりの欠損データの状況を確認しておこう
missing_values_table(data)

見たところ、 Critic_Score 、 User_Score 、 Rating は50％近くの割合で欠損していますね…。機械学習の醍醐味として、この欠損データをどのように処理を行うかで実力の差が出るのですが、今回はもっともシンプルな方法で処理をしましょう。そう、その方法とは・・除外することです。（失礼しました笑）

# 欠損データを除外しよう
data = data.dropna()

これで、欠損データは全て除外されて綺麗になりました。欠損データと同様に、データ値が使えない場合も多々あります。dataを隅々まで確認すると、どうやら User_Score に tbd というストリングの値が含まれています。 User_Score を数値として処理をしたいのに、これは不都合です。

この User_Score の tbd をNaNに変換しましょう。すでに約40%もの User_Score を除外してしまっていますので、これ以上データを絞るのはあまりしたくありません。ですので tbd の値を一度NaNに変換して、さらに相関関係が非常に高い Critic_Score を元にNaNへ代入しましょう。

上の図でもわかり通り、 User_Score は Critic_Score の約1/10となっています。完璧な代入には当然なりませんが、それでもこれ以上データを除外するよりかはマシかと思いますので、その流れで tbd を処理しましょう。

# User_Scoreの数値以外の値を処理
data['User_Score'] = data['User_Score'].apply(pd.to_numeric, errors='coerce')

# Critic_Scoreの1/10をUser_SocoreのNaNへ代入
data['User_Score'] = data['User_Score'].mask(np.isnan(data["User_Score"]), data['Critic_Score'] / 10.0)

データの前処理もほとんど終わりです。次は、予測ターゲットの y を扱いやすいように処理して、データ前処理で定番のダミー変数化をしましょう。

# 予測ターゲットを扱いやすいように処理
data['y'] = data['y'].apply(lambda y: 'yes' if y == True else 'no')

# 全ての特徴量をダミー変数化
model_data = pd.get_dummies(data)

これで、特徴量の前処理は完了です！次は過学習対策として、データを3つのグループへ分けましょう。今回のチュートリアルでは全体の70%を学習用データとして分けて、20%を評価用データとして使いましょう。残りの10%は最終のテスト用データとして残しておきます。

# train_dataを3つのデータセットへ分別
train_data, validation_data, test_data = np.split(model_data.sample(frac=1, random_state=1729), [int(0.7 * len(model_data)), int(0.9 * len(model_data))])

さて、いよいよデータ前処理の最後のステップとなります。最後は、XGBoost用にlibSVM形式へ変換をして、boto3を経由してS3へファイルを送りましょう。

# libSVM形式へ変換
dump_svmlight_file(X=train_data.drop(['y_no', 'y_yes'], axis=1), y=train_data['y_yes'], f='train.libsvm')
dump_svmlight_file(X=validation_data.drop(['y_no', 'y_yes'], axis=1), y=validation_data['y_yes'], f='validation.libsvm')
dump_svmlight_file(X=test_data.drop(['y_no', 'y_yes'], axis=1), y=test_data['y_yes'], f='test.libsvm')

# boto3経由でlibSVMをS3へ送る
boto3.Session().resource('s3').Bucket(bucket).Object(prefix + '/train/train.libsvm').upload_file('train.libsvm')
boto3.Session().resource('s3').Bucket(bucket).Object(prefix + '/validation/validation.libsvm').upload_file('validation.libsvm')

上記のコードを実行した後に、念のためS3を確認しておきましょう。下記のキャプチャのように、libSVMファイルがS3へ格納されているはずです。

以上でデータの前処理が完了しました！次から、SageMakerのモデルトレーニングインスタンスを立ち上げてモデル構築、さらにはモデルホスティングインスタンスでモデルを使えるようにしましょう。

モデルトレーニング

データの処理が完了したところで、次はXGBoostのモデルの訓練を始めましょう。XGBoostですが、多数のハイパーパラメーターが用意されていますが、今回はその中のいくつか初歩的なものを使ってトレーニングを行いましょう。

12月12日追記

ハイパーパラメーターとは？

機械学習で使われるモデルで、人間が設定しなくてはいけないパラメーター（設定）のことです。機械学習では、データを用いて機械が学習するものですが、学習されない項目を人間が設定することにより、結果の良し悪しが変動することが多々あります。

さて、次はノートブックでモデルトレーニングを実行していきましょう。手順として、まずは訓練のジョブ用に必要なパラメータ設定して、その後に訓練のジョブを動かします。

コードを動かす前に重要な点が一つ！SageMakerですが、ノートブック、モデルトレーニング、モデルホスティングの各インスタンスで料金が異なります。全てのインスタンスで本チュートリアルでは、全てい最小限のものを利用しています。インスタンスの料金は、各自、必ず理解をした上で実行をお願い致します。

では、モデルトレーニングをやっていきましょう！まずは、パラメーターの設定をしましょう。

job_name = 'videogames-xgboost-' + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
print("Training job", job_name)

containers = {
                'us-west-2': '433757028032.dkr.ecr.us-west-2.amazonaws.com/xgboost:latest',
                'us-east-1': '811284229777.dkr.ecr.us-east-1.amazonaws.com/xgboost:latest',
                'us-east-2': '825641698319.dkr.ecr.us-east-2.amazonaws.com/xgboost:latest',
                'eu-west-1': '685385470294.dkr.ecr.eu-west-1.amazonaws.com/xgboost:latest'
             }

create_training_params = \
{
    "RoleArn": role,
    "TrainingJobName": job_name,
    "AlgorithmSpecification": {
        "TrainingImage": containers[boto3.Session().region_name],
        "TrainingInputMode": "File"
    },
    "ResourceConfig": {
        "InstanceCount": 1,
        "InstanceType": "ml.c4.xlarge", # こちらでインスタンスタイプが調整可能です！
        "VolumeSizeInGB": 10
    },
    "InputDataConfig": [
        {
            "ChannelName": "train",
            "DataSource": {
                "S3DataSource": {
                    "S3DataType": "S3Prefix",
                    "S3Uri": "s3://{}/{}/train".format(bucket, prefix),
                    "S3DataDistributionType": "FullyReplicated"
                }
            },
            "ContentType": "libsvm",
            "CompressionType": "None"
        },
        {
            "ChannelName": "validation",
            "DataSource": {
                "S3DataSource": {
                    "S3DataType": "S3Prefix",
                    "S3Uri": "s3://{}/{}/validation".format(bucket, prefix),
                    "S3DataDistributionType": "FullyReplicated"
                }
            },
            "ContentType": "libsvm",
            "CompressionType": "None"
        }
    ],
    "OutputDataConfig": {
        "S3OutputPath": "s3://{}/{}/xgboost-video-games/output".format(bucket, prefix)
    },
    "HyperParameters": {
        "max_depth":"3",
        "eta":"0.1",
        "eval_metric":"auc",
        "scale_pos_weight":"2.0",
        "subsample":"0.5",
        "objective":"binary:logistic",
        "num_round":"100"
    },
    "StoppingCondition": {
        "MaxRuntimeInSeconds": 60 * 60
    }
}

次に、モデル訓練のジョブの実行です。こちらですが、本チュートリアルで使用したインスタンス（ ml.c4.xlarge ）で約6分程処理に掛かりました。

%%time

sm = boto3.client('sagemaker')
sm.create_training_job(**create_training_params)

status = sm.describe_training_job(TrainingJobName=job_name)['TrainingJobStatus']
print(status)

try:
    sm.get_waiter('training_job_completed_or_stopped').wait(TrainingJobName=job_name)
finally:
    status = sm.describe_training_job(TrainingJobName=job_name)['TrainingJobStatus']
    print("Training job ended with status: " + status)
    if status == 'Failed':
        message = sm.describe_training_job(TrainingJobName=job_name)['FailureReason']
        print('Training failed with the following error: {}'.format(message))
        raise Exception('Training job failed')

これで、事前に処理したデータセットとSageMakerのXGBoostの訓練が、モデルトレーニングインスタンス上で完了できました。この訓練したモデルのホスティングをSageMakerを使ってやってみましょう。

モデルホスティングの実施

SageMakerのサーバーレスエンドポイントでのホスティングをやってみましょう。

# スコアリングコンテナとmodel.tar.gzを指定してホスティングモデルを作成する
create_model_response = sm.create_model(
    ModelName=job_name,
    ExecutionRoleArn=role,
    PrimaryContainer={
        'Image': containers[boto3.Session().region_name],
        'ModelDataUrl': sm.describe_training_job(TrainingJobName=job_name)['ModelArtifacts']['S3ModelArtifacts']})

print(create_model_response['ModelArn'])

次にホスティングエンドポイントの設定をいくつかしましょう。具体的には、ホスティングで使うEC2インスタンスの指定や、初期で使うインスタンスの個数、さらにはホストされているモデルの名前の設定をします。

xgboost_endpoint_config = 'videogames-xgboost-endpoint-config-' + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
print(xgboost_endpoint_config)
create_endpoint_config_response = sm.create_endpoint_config(
    EndpointConfigName=xgboost_endpoint_config,
    ProductionVariants=[{
        'InstanceType': 'ml.t2.medium',
        'InitialInstanceCount': 1,
        'ModelName': job_name,
        'VariantName': 'AllTraffic'}])

print("Endpoint Config Arn: " + create_endpoint_config_response['EndpointConfigArn'])

さて、最後にモデルのホスティングの実行しましょう。こちらですが、完了するまでに16分程度掛かりました。

%%time

xgboost_endpoint = 'EXAMPLE-videogames-xgb-endpoint-' + strftime("%Y%m%d%H%M", gmtime())
print(xgboost_endpoint)
create_endpoint_response = sm.create_endpoint(
    EndpointName=xgboost_endpoint,
    EndpointConfigName=xgboost_endpoint_config)
print(create_endpoint_response['EndpointArn'])

resp = sm.describe_endpoint(EndpointName=xgboost_endpoint)
status = resp['EndpointStatus']
print("Status: " + status)

try:
    sm.get_waiter('endpoint_in_service').wait(EndpointName=xgboost_endpoint)
finally:
    resp = sm.describe_endpoint(EndpointName=xgboost_endpoint)
    status = resp['EndpointStatus']
    print("Arn: " + resp['EndpointArn'])
    print("Status: " + status)

    if status != 'InService':
        message = sm.describe_endpoint(EndpointName=xgboost_endpoint)['FailureReason']
        print('Endpoint creation failed with the following error: {}'.format(message))
        raise Exception('Endpoint creation did not succeed')

実行したセルの下に、上記のようなメッセージが出れば成功です！

構築したモデルでテストデータを使って予測

やっと、①データの前処理②モデルトレーニング③モデルホスティングが完了しました！次はいよいよ、この構築したモデルを使って、予め切り分けておいたテスト用データを使って予測してみましょう。

runtime = boto3.client('runtime.sagemaker')

def do_predict(data, endpoint_name, content_type):
    payload = '\n'.join(data)
    response = runtime.invoke_endpoint(EndpointName=endpoint_name, 
                                   ContentType=content_type, 
                                   Body=payload)
    result = response['Body'].read()
    result = result.decode("utf-8")
    result = result.split(',')
    preds = [float((num)) for num in result]
    preds = [round(num) for num in preds]
    return preds

def batch_predict(data, batch_size, endpoint_name, content_type):
    items = len(data)
    arrs = []
    
    for offset in range(0, items, batch_size):
        if offset+batch_size < items:
            results = do_predict(data[offset:(offset+batch_size)], endpoint_name, content_type)
            arrs.extend(results)
        else:
            arrs.extend(do_predict(data[offset:items], endpoint_name, content_type))
        sys.stdout.write('.')
    return(arrs)

%%time
import json

with open('test.libsvm', 'r') as f:
    payload = f.read().strip()

labels = [int(line.split(' ')[0]) for line in payload.split('\n')]
test_data = [line for line in payload.split('\n')]
preds = batch_predict(test_data, 100, xgboost_endpoint, 'text/x-libsvm')

print ('\nerror rate=%f' % ( sum(1 for i in range(len(preds)) if preds[i]!=labels[i]) /float(len(preds))))

これで・・切り分けておいた10%のテストデータを使って、構築したモデルで予測が完了しました。機械学習をやっていると、いつもこの瞬間がドキドキします。癖になりますよね（笑）

予測結果の評価ですが、様々な評価方法が存在します。今回は非常にシンプルに、実際の正解データと予測データを付け合わせたテーブルをPandasで作成して、そちらを確認してみましょう。

pd.crosstab(index=np.array(labels), columns=np.array(preds))

こちらが今回の結果となります。テストデータ803件を訓練済みXGBoostモデルで予測をしたところ、ミリオンセラーと予測した122件のゲームソフトのうち、73件が実際にミリオンセラーでした！

加えて、今回のモデルでは、803件のゲーム中、681件はミリオンセラーにならないと予測して、実際は622件が100万本届かなかったゲームと言えます。（うち59件はミリオンセラーとなりました）

【重要】

まとめ

Amazon SageMakerでXGBoostを使った機械学習チュートリアルですが、いかがでしたでしょうか？SageMakerは全てのエンジニアが気軽に機械学習ができることを目的として作られたサービスです。

いくつか癖のある、覚えなくてはいけない箇所（特にモデルホスティング）はあるものの、一概として非常に簡単に、しかも素早く機械学習を実装できるという点では優れたサービスです！

また、機械学習を初めてばかりで、もっと触ってみたいとお考えの方は、下記の初心者向けチュートリアルも是非やってみてください。（下記はAmazon SageMakerではなく、Jupyter Notebookと各ライブラリを使って実施してます）

以上、SageMakerの初心者向けチュートリアル第二弾でした！近日中に今回使用したXGBoostの詳細チュートリアルも予定していますので、興味のある方はコデクサのfacebookまたはTwitterのフォローをお願い致します！

Amazon SageMakerを使って銀行定期預金の見込み顧客を予測【SageMaker ＋XGBoost 機械学習初心者チュートリアル】

codexaチーム — Tue, 12 Dec 2017 06:14:10 +0000

Amazonの新しい機械学習プラットフォーム「Amazon SageMaker（アマゾン・セージメーカー）」ですが、早速、機械学習初心者向けのハンズオンチュートリアル第一弾をまとめました！オンラインで公開されている銀行顧客のデータを利用して、Amazon SageMaker＋XGBoostを使って、データの前処理からモデルホスティング、さらに評価確認までを一緒に行ってみましょう。

本チュートリアルですが、AWS 無料枠(Free Tier）を使用していません。ノートブックインスタンス、モデルトレーニング、モデルホスティングで料金が発生します。本チュートリアルを行うのに、3ドル〜5ドル発生します。料金は各自の責任でしっかりと確認した上でコードの実行をお願いします。（料金発生に関する必要な箇所はその都度、注釈を入れています）

SageMaker入門チュートリアル概要

所要時間目安
1時間〜3時間

実行する内容

SageMakerノートブックインスタンスの立ち上げ
データの処理
SageMaker XGBoostのモデル訓練
モデルのホスティング
テストデータをホスティングされたモデルで予測計算
モデルの評価

参考
https://bank-tutorial.notebook.us-east-1.sagemaker.aws/notebooks/bank-tutorial-1.ipynb

Amazon SageMakerの登録

まずはAmazon SageMakerへの登録を行いましょう。SageMakerの発表記事でも記載をしましたが、現段階で使えるリージョンはまだ4つのみとなっています。残念ながら東京リージョンは現時点で未対応です。本記事では、「米国東部（バージニア北部）」のリージョンを使っています。

12月11日時点では4つのリージョンのみ対応

Amazon SageMakerへのサインアップが完了するとダッシュボードへ遷移します。早速、ノートブックインスタンスの作成を行ってみましょう。

ノートブックインスタンスの作成をクリックすると、次画面でインスタンス作成画面へ遷移します。インスタンスの名前はとりあえず「 bank-tutorial 」として、またノートブックのインスタンスタイプも最小の「 ml.t2.medium 」を選びました。無料枠が使える方は、おそらくこちらで無料枠用のインスタンスが出てくるかと思いますので、ご希望の方はそちらを選んだ方が良いかと思います。

IAMロール（AWS内の権限を管理する機能）ですが、「任意のS3バケット」を選択しています。チュートリアルですので、セキュリティ面は深く考えていませんが、重要なデータを扱う場合は、IAMロールの設定を必ずしっかりと確認しましょう。

他のVPCや暗号化キーはオプションとなっていますので、今回は特に指定せずノートブックインスタンスを作成します。

ノートブックインスタンスの作成が完了したら、ノートブックを立ち上げてみましょう。ノートブックインスタンス（下記キャプチャ）のページから、「オープン」をクリックするとJupyter Notebookのトップへ遷移します。

Jupyter Notebookページ（下記キャプチャ）の「New」からconda_python3を選択して、新しいノートブックを立ち上げましょう。

ノートブックの画面（下記キャプチャ）へ遷移しますので、解りやすいように名前の変更をしましょう。Jupyterのロゴのすぐ横の「 Untitled 」をクリックするとノートブックの名前の変更が可能です。「bank-tutorial-1」と名前を変更しておきましょう。

最後のステップとして、AWS S3のバケットネームの確認を行います。

本チュートリアルでは、後ほどSageMakerのノートブックとS3の連携を行いますので、S3の登録をまだ行っていない方は、こちらからどうぞ。またS3をすでに使っている方でも、リージョンが異なる場合は「米国東部（バージニア北部）」にて、新しいバケットの作成をお願いします。SageMakerとS3の連携ですが、リージョンが異なると行えないようです。

さて、これでアカウント周りの準備は完了です。次のステップでは、機械学習モデル構築の大まかな手順をみていきましょう。

データセットとモデル構築の概要

本チュートリアルでは、カルフォルニア大学アーバイン校が公開している「
Bank Marketing Data Set （銀行マーケティング・データセット）」を利用します。機械学習エンジニアなら、一度は耳にする初心者向けの非常に有名なデータセットです。

こちらのデータセットですが、ポルトガルのとある銀行が実際に行った、電話による定期貯金のダイレクトマーケティングの結果となります。各ユーザーの年齢や職業、さらには学歴などのデータがあり、ダイレクトマーケティングを行った結果、定期預金へお申し込みをした（ラベル＝１）、お申し込みをしなかった（ラベル＝０）が付与されています。

SageMakerを使ってこのデータセットの前処理を行い、XGBoostを使って予測を行います。本チュートリアルですが、SageMakerノートブックインスタンスを「ml.t2.medium」を使用しています。特に問題はありませんでしたが、ところどころ10分程度、時間がかかる処理がありました。ml.t2.mediumですが、vCPUが2、メモリーが4GBとなっています。もっと大規模な処理を行う場合には、上級インスタンスへ簡単に変更が可能なのは大きなメリットですね。（当然、料金も高くなりますが）

では、早速、Amazon SageMakerのノートブックを使ってデータセットを紐解いていきましょう。

ノートブックの立ち上げと準備

すでに前項目でSageMakerのノートブックインスタンスの立ち上げと、S3の設定（または新規登録）を行いましたので、早速ノートブックで下準備をしていきましょう。SageMakerの「ノートブックインスタンス」のページへアクセスしていただき、先ほど作った「bank-tutorial」を立ち上げましょう。

本チュートリアルの通りに設定をした方であればSageMakerのノートブックを立ち上げて、Jupyter Notebookのトップ画面で「bank-tutorial-1.ipynb」が作られているかと思います。こちらをクリックして、ノートブックを開きましょう。

準備編として、必要な設定変数とライブラリのインポートを行いましょう。下記のbucketの「XXXXXXXXXXX」ですが、各自のS3のバケット名へ変更をしましょう。またSageMakerとS3のリージョンが異なると動きませんので、リージョンが同じかどうか注意が必要です。

prefix で指定したフォルダがS3へ新しく作られます。特に変更は必要ありませんが、適宜変更しても問題ありません。

最後にboto3とIAMのroleの宣言です。boto3ですすが、AWSが開発したPythonとAWSの各種サービスを統合するライブラリとなっています。（詳しくはこちらから）

# S3のバケット名を下記に設定してください
# S3のプレフィックスを設定（変更は不要です）
bucket = 'XXXXXXXXXXX'
prefix = 'sagemaker/xgboost-dm'
 
# IAMのroleの宣言
import boto3
import re
from sagemaker import get_execution_role

role = get_execution_role()

こちらを最初のセルへ入力して、 Shift + Enter でセルの実行を行いましょう。

次は今回のモデル構築に使う必要なライブラリ各種を一気にインポートしちゃいましょう。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import Image
from IPython.display import display
from sklearn.datasets import dump_svmlight_file
from time import gmtime, strftime
import sys
import math
import json
import os
import sagemaker
from sagemaker.predictor import csv_serializer

機械学習の定番（？）となるNumpy、Pandas、Matplotlibに加えて、ipython（Jupyter Notebook）で表などをプロッティングするモジュール、さらにsagemakerのPython SDKもインポートします。各ライブラリの詳細の説明は行いませんが、見たことのないライブラリがある方は、軽く調べてみると良いかと思います。

SageMakerノートブックでみると、下記キャプチャの様になっているかと思います。正しく処理が行えてれば、各セルの左上の [ ] に番号が表示されます。何かしらの理由で処理が終わらなかったりすると、こちらに[*]と処理中のマークが出ます。

＊SageMakerのノートブックを立ち上げて、全く同じ内容でセル1を実行したら、処理が完了せず[*]が10分程度表示されました。原因不明でしたので、カーネルをリスタートさせて、全く同じ内容で実行したら今度はちゃんと処理が行われましたが・・念のため、同様の現象が出る方もいるかもしれませんので記載しておきます。

さて、次はデータをUCIからデータをダウロードして紐解いていきましょう！

データセットの取得と確認

カルフォルニア大学アーバイン校のサイトにてデータセットが公開されていますので、そちらから直接取得しましょう。特に会員登録などは必要ありません。 wget でURLから直接ダウロードして、 unizip （解答）してあげましょう。

# カルフォルニア大学アーバイン校の公開URLからデータセットをダウロード
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/00222/bank-additional.zip
!unzip -o bank-additional.zip

Jupyter Notebookのtreeページを確認すると、ダウロードした bank-additional.zip と解凍された bank-additional というフォルダーが作成されているのが確認できます。

ではこちらのcsvファイルのデータセットを、Pandasのデータフレームとして読み込みましょう。

# bank-additional-full.csvをdataへ格納
data = pd.read_csv('./bank-additional/bank-additional-full.csv', sep=';')

# Pandasの最大表示カラム数と行数の設定を変更
pd.set_option('display.max_columns', 500)
pd.set_option('display.max_rows', 30)

# 最初の10行を表示
data.head(10)

こちら記事内表示の便宜上、二段に分けて掲載しています。ご覧の通り、「age（年齢）」や「marital（結婚ステータス）」など各ユーザーの情報が格納されています。今後、機械学習を勉強されてる方にも解りやすいよう、簡単に各項目の概要をまとめました。

age – 顧客の年齢
job – 仕事のカテゴリ
marital – 結婚ステータス
education – 学歴
default – クレジットの支払遅延のステータス
housing – 不動産ローンの有無
loan – パーソナルローンの有無
contact – 銀行と顧客の連絡方法
month – 最後に連絡をとった月
day_of_week – 最後に連絡をとった曜日
duration – 最後の連絡長さ（秒数）
campaign – このキャンペーン中に銀行が連絡した回数
pdays – 最後のキャンペーンの連絡から経過した日にち
previous – このキャンペーン以前に銀行が連絡した回数
poutcome – 前回のキャンペーンの結果
emp.var.rate – Employment Variation Rate（詳細説明なし）＊
cons.price.idx – 消費者物価指数＊
cons.conf.idx – 消費者信頼感指数＊
euribor3m – 3ヶ月スパンユーリボー指標金利＊
nr.employed – 四半期の従業員数＊
y – 顧客が定期預金を申し込みしたかどうか（予測ターゲット）

「＊」の印をつけたものは外部環境要因のデータとなっています。特に「Employment Variation Rate」ですが、詳細の説明がありません。どのような指標なのか不明です。ヨーロッパでは当たり前の指標なのかもしれませんが・・

データセットの各項目の意味が理解できたところで、少し掘り下げてデータセットを紐解いていきましょう。まずは、お決まりの欠損データの確認をしておましょう。

# データフレームの欠損データをまとめるテーブルの関数
def missing_values_table(df): 
        mis_val = df.isnull().sum()
        mis_val_percent = 100 * df.isnull().sum()/len(df)
        mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
        mis_val_table_ren_columns = mis_val_table.rename(
        columns = {0 : 'Missing Values', 1 : '% of Total Values'})
        return mis_val_table_ren_columns 

# dataに欠損があるかどうか確認
missing_values_table(data)

こちら実はデータセットダウロードページでも説明があるのですが、なんと欠損データが一つもありません（感動）！欠損データで頭を悩ます必要がないなんて、嬉しい限りです。

次は各項目のデータの分散を確認してみましょう。

# 各項目の度数分布の表を作成
for column in data.select_dtypes(include=['object']).columns:
    display(pd.crosstab(index=data[column], columns='% observations', normalize='columns'))

# 数値を値として持っている項目のヒストグラム
display(data.describe())
%matplotlib inline
hist = data.hist(bins=30, sharey=True, figsize=(10, 10))

バーっと各項目の度数分布が出てくるのですが、いくつか気になる部分のデータをまとめてみてみましょう。下記画像ですが、左から「job（職業）」「education（学歴）」「martital（結婚ステータス）」の度数分布となっています。

さすが銀行のデータです。職業の項目の「unknown（不明）」の0.8%を筆頭に、他のデータでも不明の項目の割合が比較的小さいです。本記事では細かく触れませんが、他の項目のデータも紐解いていくと、このデータセットの特徴などが見えてきます。

また今回の予測ターゲットとなる「 y 」の項目も確認してみましょう。ご覧の通り、「 no 」が約88.7%とデータの大半を占めているのが解ります。こちらはキャンペーンで顧客が定期預金を申し込みしたかどうかのフラグとなっているので、「 no 」が多いのも納得できますね。

さて、次もお決まりですが、各項目が予測ターゲットとどのような関係となっているかを確認していきましょう。

# 各項目が予測ターゲット「y」にどのように関係してるか確認

for column in data.select_dtypes(include=['object']).columns:
    if column != 'y':
        display(pd.crosstab(index=data[column], columns=data['y'], normalize='columns'))

for column in data.select_dtypes(exclude=['object']).columns:
    print(column)
    hist = data[[column, 'y']].hist(by='y', bins=30)
    plt.show()

# 相関係数とScatter Matrixの確認
# 処理完了まで少し時間がかかります

display(data.corr())
pd.plotting.scatter_matrix(data, figsize=(12, 12))
plt.show()

バーっと表やテーブルが出てきますので、深く理解されたい方は、各項目のテーブルを紐解いてみてください。下記の図は、各項目の相関係数（data.corr()）となっています。

いくつかの項目で高い正の相関と負の相関が見受けられますね。当然といえば当然ですが、外部環境要因の指標同士は高い相関があるようです。

ざっくりではありますが、データセットを簡単に紐解いてみました。次のステップでは、データセットの前処理、いわゆる「データクレンジング」をやっていきましょう。

データクレンジング（データセット前処理）

ほぼ全ての機械学習のプロセスで、データセットのクレンジングは必須の工程となっています。何が正しいのか、悪いのかという正解は無く、手探りでトライ＆エラーを繰り返しながら進めていくのが通常です。

ただ、いくつか基本となる「前処理の前処理」とでも言いますか、一般的に広く使われている方法・テクニックがあります。

欠損データを処理
カテゴリカルデータを処理
特異な分散をしているデータを処理

すでに確認した通りで欠損データは含まれませんので今回は対応をしなくて大丈夫ですね。実際に行うデータの前処理ですが、下記の4つの処理を行いましょう。各処理の説明も記載しています。

[1] pdaysから連絡の取っていない顧客を抽出する
pdays ですが、「最後のキャンペーンの連絡から経過した日にち」となります。すでにデータ確認のステップで見ましたが、 pdays は「 999 」のデータが非常に多かったです。つまり前回から連絡を取っていない顧客が大半と言えます。 pdays を少し処理して、999日（つまり連絡を取っていなかった顧客）を「 1 」としてそれ以外を「 0 」とするデータ処理をします。

jobから現在職についてない顧客を抽出する
job （職業）の項目ですが、 unknown （不明）を含む12種類あります。よくこの項目をみて見ると、「 student （学生）」や「 unemployed （失業中）」など現時点で職についてない顧客が含まれています。そこで、現在働いているか、働いていないかを切り分けて新しく「 not_working 」（働いていない）という項目を追加する処理を行います。

カテゴリカルデータをダミー変数化する
ダミー変数とは、数字てはないデータを数字に変換する手法を指します。例えば、今回のデータで言うと、予測ターゲットの「 y 」ですが、持っている値が「 yes 」「 no 」となっています。これをダミー変数化すると、もともと一つの項目「 y 」が二つの項目「 y_yes 」と「 y_no 」に分裂して、各値に応じて「0」「1」が付与されます。機械学習では、かなり頻繁に行う処理です。Pandasではダミー変数化をするのはとても簡単で、pd.get_dummiesを使うことで、ほぼ自動的にダミー変数化してくれます。（get_dummies以外にも、カテゴリカルデータを数値に変換してくれるpd.cat.codeという便利な関数もあります）

予測モデルに組み込まない項目の削除
さて、最後に外部環境要因の指標（ emp.var.rate ）など、今回のトレーニングで使わない項目をpd.dropでデータフレームから削除を行います。

下記が、コードとなります。

# 以前にコンタクトがなかった人を判別する新しい項目の追加
data['no_previous_contact'] = np.where(data['pdays'] == 999, 1, 0)

# 職業から「職についていない人」（学生など）のフラグを追加
data['not_working'] = np.where(np.in1d(data['job'], ['student', 'retired', 'unemployed']), 1, 0)

# カテゴリカルデータをダミー変数化
model_data = pd.get_dummies(data)

# 今回のモデルで使用しない項目を削除
model_data = model_data.drop(['duration', 'emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed'], axis=1)

# データを確認しよう
mode_data.head(10)

ご覧の通り、ダミー変数化してますので、列数が多くなっているのが確認できます。また今回のモデルで使用しない項目が削除されていることも確認しておきましょう。

前処理が完了したので、次はデータを訓練データ、確認用データ、テストデータの3つに分けましょう。その前に機械学習では避けて通れない「Overfitting（オーバーフィッティング）（過学習）」について簡単に触れておきましょう。

教師あり学習モデル（Supervised Learning Models）は、与えられたデータで、「予測した値と実際の値の誤差をどれだけ最小にするか」を目的としてデザインされています。つまりモデルは、いかに予測値と実際の値の誤差を小さくするための計算を行うわけなんですが、そのプロセスの中で、モデルが、特異点までもを組み込んで偏った予測をしてしまうことが多々あります。これが過学習です。

特異点が新しいデータでも見られるパターンであれば、それを組み込んだモデルの予測は正確なものになるのですが、そうでないケースは、そのモデルの正確性は落ちてしまいます。

この過学習を避けるテクニックは多数ありますが、一般的な方法として、モデルのトレーニングを一つのデータセットで行うのではなく、新しいデータセットでもトレーニングを行う手法です。

一先ず今回は「データを一回だけ訓練させると、そのデータには正確性が高い予測が出るけど・・新しいデータでの予測はそうとは限らないよね。だから元データを複数に分けて、複数回のトレーニングをした方が、今後の新しいデータへの予測に汎用性が高そうじゃない？」というくらいのニュアンスで理解しておきましょう！

ということで、今回のデータセットですが3つに分けることにします。

# 前処理したmodel_dataをランダムにソートして3つのデータフレームに分けましょう
train_data, validation_data, test_data = np.split(model_data.sample(frac=1, random_state=1729), [int(0.7 * len(model_data)), int(0.9 * len(model_data))])   # Randomly sort the data then split out first 70%, second 20%, and last 10%

# 念のため各データフレームのサイズを確認
# 全ての合計がmodel_dataのサイズと一致してます
model_data.shape, train_data.shape, validation_data.shape, test_data.shape

さて、とうとうデータ前処理の最終ステップとなります。Amazon SageMaker XGBoostのコンテナのデータフォーマットですが、libSVMとなります。libSVMフォーマットですが、feature（特徴量）と予測ターゲット（目的変数）を別々のアーギュメントにしなくてはいけませんので、その処理を行いましょう。

最後に、boto3経由でAWS S3へ、この訓練データセット（libSVM形式）を送っておきます。

# libSVMファイルの書き出し
dump_svmlight_file(X=train_data.drop(['y_no', 'y_yes'], axis=1), y=train_data['y_yes'], f='train.libsvm')
dump_svmlight_file(X=validation_data.drop(['y_no', 'y_yes'], axis=1), y=validation_data['y_yes'], f='validation.libsvm')
dump_svmlight_file(X=test_data.drop(['y_no', 'y_yes'], axis=1), y=test_data['y_yes'], f='test.libsvm')

# Boto3を使ってS3へファイルをコピーする
boto3.Session().resource('s3').Bucket(bucket).Object(os.path.join(prefix, 'train/train.libsvm')).upload_file('train.libsvm')
boto3.Session().resource('s3').Bucket(bucket).Object(os.path.join(prefix, 'validation/validation.libsvm')).upload_file('validation.libsvm')

最初の準備編で指定したAWS S3のバケットに新しく「 sagemaker 」というフォルダーが作成されているかと思います。繰り返しになりますが、SageMakerのリージョンとS3のリージョンが異なると、処理が行われませんので気をつけてください。

下記のキャプチャのように、 S3 > バケット名 > sagemaker > xgboost-dm > train のディレクトリーにtrain.libsvmが新規作成されているばオッケーです。

訓練（トレーニング）の実行

データセットの確認と前処理が完了しましたので、次はいよいよXGBoostを使ってモデルの構築を行いましょう。その前に、今回使うアルゴリズムとXGBoostの概要を簡単に説明します。

今回の予測モデルのアルゴリズムは「勾配ブースティング（Gradient Boosting）（グラディアント・ブースティング）」を使います。

勾配ブースティングの大まかなステップ

多数の小さいシンプルな予測モデルを構築
この最小限予測モデルの「誤差」と「重み」を算出
最小限予測モデルを最適化して一つの予測モデルとして構築

いまいち意味が解らなくても心配不要です！機械学習と一言で言っても、その内実は多数のアルゴリズム＆予測モデルで溢れています。アルゴリズムを理解することで、より深く最適なモデル構築＆予測を行うことができますが、そうでなくても、トライ＆エラーを繰り返すことで予測はできます。

この「勾配ブースティング（Gradient Boosting）」を、より効率的に使いやすしたのが「XGBoost」です。XGBoostですがオープンソースで、世界中の機械学習エンジニアの間で人気が非常に高いフレームワークです。（XGBoostを使って、Kaggle（機械学習コンペ）の上位になることも可能ですので、初心者用のフレームワークという訳ではありません）

それでは、Amazon SageMakerでXGBoostを使って予測モデルの構築をしてみましょう！やり方は・・驚くくらい単純です。大まかなステップは以下の通り。

Amazon SageMakerのXGBoostのためのECRコンテナの場所を指定
訓練データ（libSVM）とS3の連携してあげる
sagemaker.estimator.Estimatorに必要な情報を指定
ハイパーパラメーターの指定
フィッティングと出力データのS3の格納先の指定

では、実際にSageMakerノートブックで上記の流れを行ってみましょう。

# SageMaker XGBoostのためのECRコンテナを指定
containers = {'us-west-2': '433757028032.dkr.ecr.us-west-2.amazonaws.com/xgboost:latest',
              'us-east-1': '811284229777.dkr.ecr.us-east-1.amazonaws.com/xgboost:latest',
              'us-east-2': '825641698319.dkr.ecr.us-east-2.amazonaws.com/xgboost:latest',
              'eu-west-1': '685385470294.dkr.ecr.eu-west-1.amazonaws.com/xgboost:latest'}

# 訓練データとS3を連携してあげる
s3_input_train = sagemaker.s3_input(s3_data='s3://{}/{}/train'.format(bucket, prefix), content_type='libsvm')
s3_input_validation = sagemaker.s3_input(s3_data='s3://{}/{}/validation/'.format(bucket, prefix), content_type='libsvm')

さて、次はSageMakerのEstimatorへ必要なパラメーターとハイパーパラメーターの指定をしてあげて、フィッティングを行います！下記コードですが、訓練用のインスタンスとして、 ml.m4.xlarge を使用しています。処理ですがおおよそ10分程度で完了します。参考までにですが、本チュートリアル全体（ノートブック、モデルトレーニング、モデルホスティングの全ての合計）で、約3〜4ドルくらいで行えました。

モデルトレーニング用のインスタンスはノートブックインスタンスと別扱いとなっており、別料金が設定されています。各自、各々の責任で設定をお願いします。

さて、いよいよモデルフィッティングとなります！

# SageMakerのセッション
sess = sagemaker.Session()

# sagemakerのestimatorへ必要項目を指定
xgb = sagemaker.estimator.Estimator(containers[boto3.Session().region_name],
                                    role, 
                                    train_instance_count=1, 
                                    train_instance_type='ml.m4.xlarge',
                                    output_path='s3://{}/{}/output'.format(bucket, prefix),
                                    sagemaker_session=sess)

# ハイパーパラメーターの指定
xgb.set_hyperparameters(max_depth=5,
                        eta=0.2,
                        gamma=4,
                        min_child_weight=6,
                        subsample=0.8,
                        silent=0,
                        objective='binary:logistic',
                        num_class=1, 
                        num_round=100)

# モデルフィッティングと出力先の指定（S3）
xgb.fit({'train': s3_input_train, 'validation': s3_input_validation})

下記が出力されていれば、問題なくフィッティングが完了しています。

# こちらは入力コードではありません。出力結果です。
[95]#011train-error:0.093961#011validation-error:0.10488
 [04:47:33] src/tree/updater_prune.cc:74: tree pruning end, 1 roots, 12 extra nodes, 20 pruned nodes, max_depth=5
 [96]#011train-error:0.094204#011validation-error:0.10488
 [04:47:33] src/tree/updater_prune.cc:74: tree pruning end, 1 roots, 20 extra nodes, 24 pruned nodes, max_depth=5
 [97]#011train-error:0.094239#011validation-error:0.105244
 [98]#011train-error:0.094274#011validation-error:0.105123
 [04:47:34] src/tree/updater_prune.cc:74: tree pruning end, 1 roots, 4 extra nodes, 24 pruned nodes, max_depth=2
 [04:47:34] src/tree/updater_prune.cc:74: tree pruning end, 1 roots, 20 extra nodes, 26 pruned nodes, max_depth=5
 [99]#011train-error:0.094308#011validation-error:0.105365
===== Job Complete =====

ハイパーパラメーターで設定した通り100ラウンドで完了していますね。ここまでのステップで、前処理を行ったデータを使って、XGBoostアルゴリズムの訓練（トレーニング）が完了できました。次は、この訓練したモデルをデプロイしましょう。

モデルホスティング（Model Hosting）のインスタンスの料金は別料金となります。今回のチュートリアルで使用しているリージョン（US East. N. Virginia）のモデルホスティングの料金表が下記となりますので、発生する料金をご理解した上でコードの実行をお願いします。

それでは、モデルホスティングを行いましょう。下記ですが、 ml.c4.xlarge のインスタンスを利用しています。(

処理完了まで約10分程度かかります）

# ml.c4.xlargeのインスタンスでデプロイ
xgb_predictor = xgb.deploy(initial_instance_count=1,
                           instance_type='ml.c4.xlarge')

いよいよ、最後のステップ「評価（Evaluation）」となります。次のステップでは、今回、訓練したXGBoostの予測精度を確認してみましょう。

予測の精度確認（評価 / Evaluation）

機械学習モデルの評価方法ですが、多数の手法がありますが、本チュートリアルでは一番単純かつ簡単な「実データとの比較」を行いましょう。復習となりますが、今回の予測ターゲットは銀行のキャンペーンの定期預金のお申し込み状況（Yes or No）でしたね。

訓練したXGBoostアルゴリズムが予測した結果と実際のラベルを照らし合わせて、どれくらいの精度で予測したかを確認してみましょう。

最初のステップとして、評価で使うデータの渡し方と受け取り方を指定してあげます。テストデータですが、現在はSageMakerノートブックのインスタンス上にNumpy配列として置かれています。これをHTTP POSTリクエストで予測モデルに送るために、SageMakerの「 serializer 」を使ってシリアライズ化して、さらに content_type も指定しておきましょう。

# データの受け渡しのための設定を行っておく
xgb_predictor.content_type = 'text/csv'
xgb_predictor.serializer = csv_serializer

次に前のステップで作成した test_data を500行ずつの小さいバッチに小分けして、XGBoostのエンドポイントで予測を行い、Numpyの配列として出力します。

# 500行ごとの小バッチに区切ってxgb_predictorで予測算出する
def predict(data, rows=500):
    split_array = np.array_split(data, int(data.shape[0] / float(rows) + 1))
    predictions = ''
    for array in split_array:
        predictions = ','.join([predictions, xgb_predictor.predict(array).decode('utf-8')])

    return np.fromstring(predictions[1:], sep=',')

# 前項目で作成したtest_dataからターゲット項目を削除して予測を出力
predictions = predict(test_data.drop(['y_no', 'y_yes'], axis=1).as_matrix())

# 予測と正解データの比較テーブル
pd.crosstab(index=test_data['y_yes'], columns=np.round(predictions), rownames=['actuals'], colnames=['predictions'])

これで、予測した値が predictions としてNumpy配列に格納されました！さぁ、いよいよ結果確認です。Pandasを使って、実際の正解データと予測した「 predictions 」の結果をテーブルにしてあげましょう。

＊追記 3月13日＊
下記、正解 x 予測比較のテーブルのコードが抜け落ちていましたので追記致しました。

（ドラムロール）（ドラムロール）

う〜〜〜ん・・・なんとも微妙な感じの予測ですね（苦笑）。テストデータ全4119件中、約4000人の顧客を「見込み顧客」として考えて、その中の480名が実際に定期預金へお申し込みをしたと言えます。

これを土台に、特徴量の調整やハイパーパラメーターの調整など、予測精度を改善してみると、より深い理解＆学習になるかと思います！

最後に重要な作業です！！

本チュートリアルが終わったら、余計な料金が発生しないように、今回作成したエンドポイントを削除しましょう。不安な方は、SageMakerの管理画面で「モデル」「エンドポイント」「ノートブック」の状況が確認できますので、不必要なものは適宜、削除または停止をしておいた方が良いかと思います。

# 作成したエンドポイントの削除
sagemaker.Session().delete_endpoint(xgb_predictor.endpoint)

まとめとSageMakerの所感

少々長いチュートリアルになってしまいましたが、Amazon SageMakerは如何でしたでしょうか？個人的な所感ではありますが、機械学習エンジニアにとっては「孫の手」のようなツールだと感じました。

膨大なデータを処理する機械学習ですが、今までクラウド上で処理をされる方も多かったと思いますが、使いたいフレームワークやツールなど、その都度、設定やインストールを行い、全体の管理をするのに、それなりの労力があったかと思います。

また、作成したモデルをホスティングするのに、膨大な作業が必要だったのも事実です。SageMakerを利用することで、機械学習の0から100まで、ほぼ全てのステップが一括して行えるプラットフォームというのは非常に魅力的だと感じました！

他にも似たような機械学習初心者向けチュートリアルをやってみたいという方は、こちらも挑戦してみてください。

機械学習ではありませんが、ここ最近日本語解禁となったAmazon Alexa Skill Kit（ASK）の初心者入門チュートリアルも個人的にはおすすめです！（話題のスマートスピーカーAmazon Echoのスキル開発ができます）

以上、速報バージョンのAmazon SageMakerハンズオンチュートリアルとなります！随時、わかりやすいように改善をしていきますので、ご指摘やご意見はコメントにてお願いできればと思います！

追記 2017年12月21日

Amazon SageMakerチュートリアル第二段目を公開しました！ゲームソフトの売行きをXGBoostで予測してみた【Amazon SageMaker ノートブック＋モデル訓練＋モデルホスティングまで】。

AWS SageMakerは機械学習のモデル作成からホスティングまでクラウドで単純化してくれます

codexaチーム — Wed, 06 Dec 2017 10:02:05 +0000

日本時間11月30日に、AWSのre:InventカンファレンスでAWSの様々な新サービスや大型アップデートが発表されましたが、特に大きな反響がありそうなのがAWS SageMakerです。（読み方はセージメイカーです）

まだAWS公式ページも英語での記載のみで、日本語ローカリゼーションが完了していませんでしたので、一足先に、この話題の新サービス「AWS SageMaker（AWSセージメーカー）」の概要をまとめました。

一言でまとめると「機械学習エンジニアの痒いところに手がとどくサービス」という印象です。では、早速、この孫の手のようなサービスの詳細を見ていきましょう。

12月21日追記

第一回目Amazon SageMakerの初心者向け入門チュートリアルの記事を公開しました。銀行の定期貯金キャンペーンの予測問題をAmazon SageMakerとXGBoostを使って予測しました。

第二回目ゲームソフトの売行きをXGBoostで予測してみた【Amazon SageMaker ノートブック＋モデル訓練＋モデルホスティングまで】の記事を公開しました。

AWS SageMaker（AWSセージメーカー）の概要

Amazon SageMakerは、端的にいうと機械学習モデルの開発や訓練、さらにはデプロイメントまで、一つのプラットフォームで管理・効率化してくれるサービスです。公式AWSのタイトルでは「機械学習を加速する」と書かれており、機械学習エンジニアが一つのプロジェクトで必要とするほぼ全てのステップにおいて、AWS SageMakerを利用することで効率化・スピードアップが可能になります。

そもそも、AWSは既にAWS Machine Learning（AWS機械学習）として、機械学習エンジニア向けのクラウドコンピューティングサービスを展開していました。では、なぜこのタイミングで別の機械学習サービスが出てきたのでしょか？

「機械学習が使える専門家がまだまだ少なく、さらに、そのほとんどが予算のある大きなテック企業で勤めている状況にある。もっと多くの人が機械学習を利用して欲しければ、普通の開発者にとっても、より利用しやすいものにしなければならない」

これは、AWSのイベントでのCEO Jeff氏からの言葉です。この通りで、この新サービス「AWS SageMaker」は、ほぼ全ての機械学習エンジニアリング工程をより簡単に効率よくするためのサービスです。

では、より具体的にAWS SageMakerを見ていきましょう。

AWS SageMakerですが、主に三つの機能で構成されています。

オーサリング：
いわゆるデータセットの前処理の工程のことです。機械学習の9割はデータセットの前処理だ、と言われているほど重要な工程ですよね。すでに多くの機械学習エンジニアの方が、iPythonやJupyter Notebookなど、セルコーディングを利用されているかと思います。AWS SageMakerでは、Jupyter NotebookをCPUベースやGPUベースなど、クラウド上で利用状況に合わせて簡単にセットアップ＆利用が可能です。（これは既存のAWS Machine Learningでは無いサービスでした）
モデルトレーニング：
モデル構築や学習、さらには評価もクラウドで行えます。すでに多数の学習アルゴリズムが組み込まれているのも大きな特徴の一つですが、加えて、多数のフレームワークやDockerコンテナなどを利用して独自の学習環境を構築もできます。また、大きなメリットとして、学習データなどのをAWS S3が簡単に使えます。（これは既存のAWS Machine Learningでも同様です）
モデルホスティング：
構築したモデルをリアルタイムで使えるように、HTTPSエンドポイントが提供されます。さらにスケールをすることも容易にできて、複数モデルでのA/Bテストも行うことが可能のようです（これは使って見たいですね！）。

AWS SageMakerの使うメリット

さて、すでに概要を見ただけでも、使ってみるメリットがありそうですが、より詳しくAWS SageMakerのメリットを見ていきましょう。

機械学習プロセスを高速化してくれる
データセットの前処理から、モデルトレーニング、さらにはデプロイまで、AWS SageMakerでクラウドで、さらに一つのプラットフォームで行う事により、機械学習を使うプロセスが従来よりも短い時間で済みます。
豊富なフレームワークとアルゴリズム
現在、世の中にでている機械学習のフレームワークは全てAWS SageMakerで使うことが可能です。いちいち使いたいフレームワークをセットアップしたりする必要がありません。また独自で開発したい方でも、Dockerコンテナを持ち込むことも当然可能です。
訓練ずみのモデルへ簡単にアクセス
HTTPSエンドポイントが提供されているので、AWS SageMakerで構築したモデルを、余計なステップを踏むことがなく、既存のウェブアプリケーションへデプロイをすることが可能です。

料金体系と提供リージョン

さて、気になるAWS SageMakerの料金ですが、クラウドならではの従量課金となっています。使用した秒数ごとに課金され、最低利用料金や事前に支払わなくてはいけない前金などはありません。

AWS SageMakerの料金ですが、主に3つに分類されます。一つ目がオンデマンド機械学習インスタンス、機械学習ストレージ、Notebooksやホスティングする際のデータ処理費用の三つとなります。

嬉しい事に、AWS SageMakerですが、AWS無料枠の適用もあります。サインアップから最初の2ヶ月間のみ、下記が無料枠の中で利用することが可能です。

notebookを使用したモデル構築 250時間（t2.meduim）
訓練コンピューティング 50時間（m4.xlarge）
モデルホスティング 125時間（m4.xlarge）

現時点でAWS SageMakerを使えるリージョンは4つのみとなります。

US Eash (N. Virginia)
US Eash (Ohio)
US West (Oregon)
EC (Ireland)

まだ東京リージョンでは利用できませんので、ひとまずは海外リージョンを利用して、試して見てください。これは私の予測ですが、東京リージョンでも早々に解放になるかと思います。（そう願います！）

英語ドキュメントになりますが、詳しい価格表はこちらをご覧ください。

まとめ

AWSですが、人工知能関連（機械学習）のサービスを続々とリリースしています。同イベントでは、Amazonの機械学習専門家が機械学習導入を手助けしてくれるAWS ML Solutions Labの開始もありましたが、アマゾンの人工知能周りのサービスの注力度が伝わりますね。

また近日中にAmazon SageMakerのハンズオンチュートリアルも公開しますので、ご興味がある方は、ぜひメルマガまたはSNSのフォローをお願い致します！

AWS機械学習から新サービス！AWS ML Solutions Labは機械学習の専門家とのマッチング

codexaチーム — Wed, 29 Nov 2017 03:16:50 +0000

機械学習の処理をクラウド（Machine Learning As a Service）で行う流れは、すでに一般的なものになりつつあります。MicrosoftやAWSなど、大手の会社からは毎日のように新しいサービスのリリースがありますが、米国11月22日にAWSから今までのサービスとは少し異なる新サービスの告知がありました。

その名も「Amazon ML Solutions Lab（アマゾン・機械学習・ソリューション・ラボ）」です！何が変わっているかと言うと、この新サービスはクラウドコンピューティングなどではなく、AWSに所属している機械学習の専門家と顧客を結びつけて、機械学習活用のコンサルティングを行うサービスなのです。

まだ発表されて間もないサービスではありますが、グローバル展開を開始当初から行うようです。現時点では、Amazon ML Solutions Labのページは英語となっていますので、日本で当サービスを利用するのは少し時間がかかりそうです。

機械学習を導入したい！けど・・それを使える人材もいないし・・どこまで費用対効果があるのかも分からないから初期投資を積極的には行えない・・なんて考えている会社さんも多数いるかと思います。

Amazon ML Solutions Labがどんなサービスなのか？などの概要をまとめました。

Amazon ML Solutions Labとは？

まずは概要から見ていきましょう。読み方ですが、「アマゾン・エムエル・ソリューションズ・ラボ」です。名前に入っている「ML」ですが、「Machine Learning」（機械学習）の略語です。

冒頭でも触れましたが、本サービスは通常のクラウドコンピューティングサービスではなく、いわゆる「コンサルティング」のサービスとなります。

アマゾンでは20年以上も前から機械学習（人工知能分野）に積極的に投資・社内活用をしており、世界でも屈指の最先端な機械学習専門家が所属をしています。

また一方で、自社のサービスやプロダクト、社内事務などで機械学習を利用してみたいと考えている企業は多数ありますが・・、「どこから手をつけて良いのか分からない」と漠然とした課題を抱えています。

今回のサービスでは、まさにそのような課題を抱えている企業向けの「コンサルティング」サービスです。より具体的なサービスの詳細をみていきましょう！

機械学習を導入するまでのステップ

Amazon ML Solutions Labが顧客へ機械学習ソリューションの導入方法として、3つのステップが用意されています。

ブレインストーミングと課題定義
機械学習をどのように使えば良いのか？社内で解決すべき問題の定義や、それに伴う解決の方法などをアマゾンの機械学習専門家と一緒にアイデアを出しながら煮詰めていきます。機械学習の根本的な仕組みや、豊富な活用事例を理解している専門家が初期段階から一緒にアイデアを出せるのはとても有意義かと思います。
カスタムメイドのモデリング
次のステップでは、機械学習専門家があなたの会社のデータを使ってソリューションを作成する工程となります。例えば自社事業の売上予測をするにしても、どのような項目を使うのか？また予測をする手法もたくさんあるが、どれを使えば最適に運用が可能なのか？などなど機械学習を導入する際に直面する多数の課題を、専門家と一緒に解決をしていきます。機械学しゅを使える専門家もこれから増えていくと思いますが、一人の専門家の経験値や限られます。対してAmazonでは物流やセキュリティー、不正検出、与信判断、文章解析、サプライマネージメントなどなど・・ほぼ全ての領域で機械学習を活用しており、それぞれの分野の専門家が自社の課題を解決してくれるのはメリットがでかいですね！
自社で運用するための教育とトレーニング
多くのかたが勘違いする部分ですが、機械学習を活用したシステムを作っても、ずーっと使える訳ではありません。常にメンテナンスやモデルの調整などは必須です。Amazon ML Solutions Labでは、機械学習を活用したシステムの作成の後の「運用」が行えるように、自社のエンジニアの教育をしてくレます。

日本でも機械学習の導入を検討している会社さん向けのマッチング会社がいくつか出てきていますが、マッチングを行う側の知識や経験がどれくらいあるかのは非常に疑問な部分ではあります。また、機械学習を活用したシステム開発を行なっている企業でも、得意・不得意はあり、全ての分野で経験を積んでいる会社はごく少数です。

それを考えると、Amazon ML Solutions Labを利用するのは非常にメリットが高いと言えるのではないでしょうか！

Amazon ML Solutions Labの料金

さて、気になる料金ですが・・まだ明確になっていません。現時点では、ML Solutions Labのサイト上で見積もりのお申し込みをした後に、担当者から連絡がくるとのことです。

すでにアメリカで利用している企業もあるのでは？と色々なサイトなどを見て回ったのですが、現状ではどのくらいのコストが掛かるのかは不明でした。いくつかのメディアが直接、AWSヘ料金のお問い合わせをしているようですが、まだ返答が無いようです。

すでに本サービスへお申し込みを行なっている企業名は明かされています。

米新聞社「ワシントン・ポスト」（AmazonのCEOジェフ・ベゾス氏に買収されています）やトヨタ自動車の米国の子会社「TOYOTA RESEARCH INSTITUTE」、またジョンソン・ジョンソンの製薬事業を行なっているJanssenなどです。

そもそも事業形態がコンサルティングに近いので、一概に料金表を掲載するのも難しいのはわかりますが・・どれくらいのコスト感で利用できるのかは気になるところですね。

その他の気になる部分

料金を含めて、まだ詳細が明らかになっていない部分も多いですが、現時点でわかっている部分をまとめました。

①通常どれくらいの期間が掛かるのか？

Amazon ML Solutions Labでは通常の提携機関として3ヶ月〜6ヶ月となるそうです。ただし、あくまで「通常」とのことで、例外もどうやらありそうです。

②機械学習を活用して問題解決は100%できますか？

端的な回答としては「保証はできません」とのことです。機械学習が活躍できる範囲ですが、ほぼ全ての業種の様々な業務（物流や販売、マーケティングに到るまで）をカバーしていますが、それでも問題解決ができないケースもあります。Amazon ML Solutions Labを利用したとしても、機械学習が問題を解決するのをAmazonが保証するものではありません。

③このサービスが使える地域は？日本では使えるの？

Amazon ML Solutions Labですが、当初からグローバル展開をするとのことで、原則として日本でも使えます。おそらくサービスの特性上、多数の顧客を抱えるモデルではないと思いますので、興味がある方は、早めにAWSへお問い合わせをお勧めいたします！

AWSから新しくリリースされた「Amazon ML Solutions Lab（アマゾン・エムエル・ソリューションズ・ラボ）」のご紹介でした。褒め称えた記事になってしまいましたが・・客観的にみても、機械学習の導入を検討されている企業にとってはメリットの高いソリューションかと思います。

経済産業省の調査ですと、日本では2020年までに人工知能などの先端技術を扱えるエンジニアが約4.８万人不足すると言われています。

今後も、このような機械学習導入支援サービスは様々な会社から出てきそうですね！

AWS – 機械学習 入門コースの決定版!機械学習エンジニアを目指すならcodexa（コデクサ）