機械学習 チュートリアル
決定木とランダムフォレスト

5種類のデータを使って決定木とランダムフォレストの使い方を徹底解説

初心者〜中級者対象
受講人数 185名 | 学習期間目安 1日 〜 5日
★★★★☆  4.0 (2件)

icon-check 対象:初心者〜中級者 icon-check 環境:オンライン / ローカル
icon-check 受講期限:無制限 icon-check 受講料金:500円

コース概要

  • ブラウザとインターネットで実行可能(Google Colab利用)
  • Jupyter Notebookを利用したプログラミング演習
  • 決定木とランダムフォレストの概要
  • 乳がん診断データからガン腫瘍の分類
  • 不動産物件の価格予測
  • PDF 約49ページ相当
  • Pythonコード 約250行
  • データセット 5種

学べる内容

機械学習には数多くの手法・アルゴリズムが存在しますが、本チュートリアルは「決定木」と「ランダムフォレスト」の2種類の機械学習手法にフォーカスをしています。

決定木とランダムフォレストですが「分類」「回帰」に適用が可能なことから多くの企業や組織で活用されている手法の一つです。本講座では7つの異なるデータセットを使いながら、2つの手法の概要や特徴、さらに機械学習ライブラリ(Scikit-learn)を使って「分類」と「回帰」の実装を行います。

初めて機械学習の手法を学ぶ方へ

本コースでは機械学習の前提知識が無くても受講は可能です。ただし、機械学習の概要や基礎知識があればより深い理解が得られます。初めて機械学習の手法を学ぶ方は下記の講座を先に受講されることをお勧めします。

チュートリアルに含まれない内容

機械学習の初学者向けのチュートリアルとなっており、本講座では決定木およびランダムフォレストの数学的な解説は含まれませんのでご了承ください。

決定木とは?

決定木ですが英語では「Decision Tree(ディシジョン・ツリー)」と呼ばれており、「教師あり学習」の手法の一つです。人気の理由の一つに「モデルが予測した結果の説明が明確かつ容易」という特徴があります。チュートリアルでは決定木の可視化を行い、モデルがどのような判断で予測を行っているのかのプロセスを確認します。

また、決定木ではその手法の特性から過学習に陥りやすい傾向にあります。なぜ過学習となりやすいのか、決定木の仕組み理解しながら紐解いていきましょう。

ランダムフォレストとは?

ランダムフォレストは「教師あり学習」の一つの手法で、名前にフォレスト(森)と入っていることからも想像しやすいですが、「決定木」を複数使って「森」とする手法です。

決定木と同様に「分類」「回帰」に適用が可能な機械学手法であり、決定木の短所である「過学習」を克服する仕組みも設けられています。本講座では決定木との違いやランダムフォレストの特徴を例題を使いながら解説します。

またランダムフォレストには「特徴量の重要度算出」という大きな利便性もあります。コーディング実習ではランダムフォレストを使って、特徴選択(予測の精度を向上するための特徴を選択するタスク)の実装も行います。

特徴

ブラウザーとインターネットで実行が可能

Google Colab(グーグル・コラボ)を利用することにより、特別な環境構築やインストールなどの作業を行うことなく、ブラウザのみで実行が可能です。チュートリアルでは、Google Colabの基本的な使い方、また自身のPCに環境構築を行う方法の詳細を説明しています。

実践に役立つ知識

  • ランダムフォレストを使った特徴選択
  • 初歩的な探索的データ解析(EDA)
  • 特徴量エンジニアリングの考え方と練習
  • モデル評価方法(混同行列 / 正解率 / RMSE)

受講資格

icon-check (必須)Pythonの基礎知識

icon-check (推薦)線形代数及び統計の初歩的な知識

icon-check (推薦)Numpy、Pandas、Matplotlibの初歩的な知識

原則として、Pythonの初歩的な知識がある前提となっています。「推薦」は必須ではありませんが、初歩的な知識があると、よりスムーズに受講が可能です。下記の「機械学習 準備編」の無料コースをご参照下さい。

コース詳細

機械学習 チュートリアル 決定木とランダムフォレスト
  Chapter 1 環境構築
 icon-cog 【Windows編】Minicondaを利用した環境構築 約2,200文字
 icon-cog 【Mac】Minicondaを利用した環境構築 約1,900文字
 icon-pencil Google Colabを利用した環境構築 約2,100文字
  Chapter 2 決定木の概要
 icon-pencil 決定木とは? 約1,000文字
 icon-pencil 決定木の特徴 約1,200文字
 icon-code シンプルな分類木 18行
 icon-code シンプルな回帰木 13行
  Chapter 3 ランダムフォレストの概要
 icon-pencil ランダムフォレストとは? 約900文字
 icon-pencil ランダムフォレストの仕組み 約800文字
 icon-pencil ランダムフォレストの特徴 約700文字
 icon-code ランダムフォレストで特徴選択 20行
  Chapter 4 決定木とランダムフォレストで分類
 icon-pencil データセットについて 約500文字
 icon-pencil 評価方法について 約700文字
 icon-code ライブラリとデータの読み込み 18行
 icon-code データの確認 12行
 icon-code データの前処理 9行
 icon-code データの可視化 9行
 icon-code 特徴選択 24行
 icon-code 決定木のモデル訓練 15行
 icon-code ランダムフォレストのモデル訓練 6行
  Chapter 5 決定木とランダムフォレストで回帰
 icon-pencil データセットについて 約700文字
 icon-pencil 評価方法 約300文字
 icon-code ライブラリとデータの読み込み 13行
 icon-code EDAとデータ前処理 56行
 icon-code 特徴量エンジニアリング 17行
 icon-code 特徴選択 8行
 icon-code 決定木で予測 13行
 icon-code ランダムフォレストで予測 8行

レビュー

icon-user コデクサさんで無料コースを全て受講させて頂きました。機械学習の入門書籍などで全く理解できなかった数学や統計用語が理解できて本当に助かりました。基礎コースが終わったのでこちらの有料コースを受講させて頂きました。今までは線形代数や統計が、機械学習でどのように役に立つのか正直解っていませんでしたが、こちらのコースを受けて納得しました(笑)引き続き、新しい無料コース・チュートリアルの公開も期待しています!

icon-check-circle-o 講師からの返答
フィードバックありがとうございます!引き続き良質な無料コースとチュートリアルを公開できるようチーム一丸となって邁進していきます!

icon-user 機械学習入門書籍を2冊ほど読んだのですが、どれもいまいちな印象でした。そんな中、codexaを見つけて無料コースから受講させていただきました。コンテンツの質が高く、説明も丁寧で助かります。ただ、コース内のコードはテキストで良いと思いますが、説明などのコンテンツは動画にして頂けるとより受講しやすいです。

icon-check-circle-o 講師からの返答
フィードバックありがとうございます!よりスムーズに学習を頂けるよう、動画コンテンツも引き続き制作してまいります!

講師紹介

codexa ロゴ

本コース「Pandas 入門」はcodexa(コデクサ)の機械学習エンジニアチームにて監修・作成を行いました。機械学習チームの最大の特徴は様々なレベルの機械学習エンジニアが共同でコースの作成を行っています。人工知能先進国のアメリカで機械学習エンジニアとして活躍してきたエンジニアもいれば、日本でPHPを中心としてWebアプリケーション開発から一から機械学習を学んだエンジニアも所属しています。機械学習上級者が一方的に教えるコンテンツよりも、機械学習初心者が主体となり、初心者「が」理解しやすく、学習が継続的に行えるようなコースを提供することを目的としています。「初心者の、初心者による、初心者のための機械学習」をモットーにチーム一丸となってコンテンツを制作しています。

このコースを取っている方は次のコースも取っています