機械学習

【24個掲載】機械学習で使えるデータセット一挙勢揃い!

  • このエントリーをはてなブックマークに追加

機械学習でもっとも重要な存在と言っても過言ではないのが、データセットです。本記事では、保存版として、インターネットで公開されている機械学習用のデータセットをまとめました。まだまだ日本国内では、公開されているデータセットが少ないので、海外で公開されているデータセットも含めています。

常時、リストを更新してますが、もしまだ含まれていないデータセットをご存知の方は、コメント欄にてお知らせ頂けますと幸いです!

【最終更新 : 2018年08月23日】

機械学習 入門チュートリアル公開しました

環境構築が不要、オンラインで実行が可能な機械学習入門チュートリアルを公開中!機械学習の世界へ飛び込んでみませんか?

データセットまとめ系

様々なデータセットをまとめているサイトです。中でもKaggleは特に有名で簡単にデータセットの利用が簡単なので、おすすめです。

動画

  • YouTube-8M Dataset
    Googleの研究チームが公開している、700万件の動画が4800件のナレッジグラフのエンティティでタグ付けされているデータセットです。TensorFlow(テンソルフロー)ファイルとしてダウンロード可能。
  • YouTube-BoundingBoxes Dataset
    同じくGoogleから公開されている、動画のBouding Boxがラベリングされているデータセット。24万件のYouTubeの動画のデータセットが公開されています。
  • Kinetics
    DeepMindが公開している、約30万件のYouTube動画に、400種に分類された人間のアクションがラベリングを行ったデータセットです。こちらでデータセットがブラウザからも確認できます。
  • UCF101 – Action Recognition Data Set
    セントラル・フロリダ大学が提供をしている人間のアクション認識を判別するための動画です。101個のアクションラベル(行動の分類)が付与されており、13320動画が分類されています。また各アクションはさらに大枠で5つのカテゴリ(スポーツや楽器を引いてるなど)に別れています。特に会員登録などが必要なく利用が可能ですが、利用される場合はデータ発行元のクレジットの記載が必要となります。
  • AVA
    2017年10月にGoogleから公開された人間のアクションのラベルがついている動画データセットです。AVAとはAtomic Visual Actions(最小単位の視覚的なアクション)の略となっており、他の動画データセットとの大きな違いとして、一つのシーンでも複数のラベルが付与されており、複雑な人間のアクションに対して機械学習を行うことが可能です。利用はサイト上の「Download」リンクより可能です。(捕捉:Googleによると、より詳細のデータセットとなるAVA 2.0も近日公開予定)
  • 20BN-JESTER DATASET V1
    ドイツをベースとしている人工知能スタートアップの「twentybn」が公開しているハンドジェスチャーのラベルが付与された動画データセットとなります。全動画数は148,092ど非常にでかいデータセットとなっており、ラベル数は27個の事前に定義されたハンドジェスチャーのラベルが付与されています。ラベルの例として、「Swiping Left(左へスワイプ)」や「Thumb Up(親指を立てるジェスチャー)」などあります。学術的な研究目的であれば会員登録と規約の同意で利用が可能ですが、商用利用の場合は別途ライセンスの申請が必要となりますので、ご注意ください。
  • Moments in Time Dataset
    米大学MIT(マサチューセッツ工科大学)とIBM ワトソンAIラボが共同で行なっている研究プロジェクトが公開している動画のデータセットです。3秒の動画にアクションラベルが付与されています。動画数は100万、ラベル数は339個あり、かつ全てのラベルで必ず1000以上の動画が提供されています。データセットの利用ですが、特設されてるフォームからお申し込みをして、提供元からの審査があります。
  • EPIC KITCHENS
    トロント大学、カタニア大学、ブリストル大学のコンピュータービジョンの合同研究チームが公開した、キッチンの動画データセットです。キッチンでの作業(例えば料理の下ごしらえや調理、さらには食器洗いなど)を頭に取り付けたヘッドマウントカメラで撮影した55時間分の動画です。39 ,594の行動ラベル、454,158のオブジェクトラベルが付与されています。無料でデータセットを使うことは可能ですが、商用不可でクレジット記載が必要です。

画像

  • CIFAR-10
    こちらも非常に知名度の高い、トロント大学が公開しているデータセットです。6万件の32×32画像に、10個のクラスがラベリングされています。クラスは飛行機、自動車、鳥、猫、鹿、犬、カエル、船、トラックの10種です。
  • Fashion-MNIST
    60,000のトレーニングセットと10,000のテストセットで構成されている、ファッションの画像が10クラス(例:Tシャツ、ドレス、サンダル)でラベリングされています。ファッションECのZalandoが提供しています。
  • Food 101
    Computer Vision Laboratoryが提供している、101,000個の食品画像を101個のカテゴリでラベリングしたデータセットとなります。会員登録などなく、簡単に利用が可能です。
  • Google Open Image V4
    Googleが提供をしている世界最大の画像データセット。画像内に写っているオブジェクト600種に対してバウンディング・ボックスが付与されています。詳しくは「Googleの世界最大の画像データセット「Open Images v4」の概要や使い方のまとめ」をご覧ください。

  • MegaFace
    ワシントン大学が開催している、顔認識アルゴリズムの公開競争となります。ノイズデータを混ぜた顔認識、超大規模なデータセット(67.2万人分、470万枚の画像)の認識モデルの2つのチャレンジが現在行われています。
  • CelebA Dataset
    香港中文大学が提供する、20万人以上の世界中のセレブの顔に、40のアトリビューションを付与したデータセットとなります。アトリビューションの例としては、「メガネ」「帽子を被っている」「笑顔」などです。商用での利用は禁止、イメージのコピーは同一組織内での使用に限りOKですが、その他の使用は原則禁止となります。
  • The FERET Database
    Facial Recognition Technologyの略のFERETですが、1199名の異なる角度の顔が11338イメージ含まれています。アメリカ国防総省が提供しているデータで、利用ですが、リリース規約を読んで、規定のメールアドレスへ同意した旨を送ることで、自動返信で返信が来るようです。
  • VGGFace2 Dataset
    331万件もの大規模なデータとなっており、9131名の画像が含まれています。1名あたりで362.6イメージあります。データセットの利用には会員登録が必要です。特徴として、様々な人種、年齢や職業などバリエーションが意図的に高くなっています。

医療

為替・株・金融

  • coinmarketcap.com
    近年はやりの仮想通貨関連のデータの取得が可能です。日本でもメジャーなビットコインやイサーリアム、さらには比較的マイナーなアルトコインなどデータの取り扱いは非常に豊富です。利用ですが個人・商業利用も含めて可能のようです。APIも提供をしていますが、現状はAPIはライブ価格のティックのみとなります。将来的には過去レート、さらん有料版のAPIも提供予定とのこと。
  • gaincapital.com
    世界的に有名な為替取引のゲインキャピタルですが、為替レートの過去データを公開しています。2000年から最新までの1週間毎の為替レートのダウロードが可能です。取得に関しては、特に会員登録などは必要ありません。通貨は期間によってばらつきがありますが、米ドル円やユーロ円などのメジャーな通貨のデータはほとんどカバーされています。
  •  金融関連の機械学習チュートリアル 

本記事ですが、常時更新をしていきます!本リストに未だ掲載されていないデータセットがございましたら、コメント欄にて御指摘をいただけますと幸いです!

  • このエントリーをはてなブックマークに追加

無料で始める機械学習エンジニア入門

AIエンジニアへスキルアップをしませんか?コデクサでは、機械学習の初心者を対象に0から学べるコースを配信しています。

機械学習に必要な線形代数や統計基礎、さらに初歩的なアルゴリズムなどの無料コースを豊富に取り揃えています!

機械学習エンジニアへキャリアアップをしましょう!

コースを確認する

コメント

    1. codexaチーム より:

      コメント、ありがとうございます!codexaでも以前にOpen Images Dataset V4の紹介記事を公開しておりましたが、本リストへの追記が出来ておりませんでした。改めて追加致しました。

      参考:Googleの世界最大の画像データセット「Open Images v4」の概要や使い方のまとめ

codexaチーム へ返信する コメントをキャンセル

*

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)