データ準備とは

データの準備は、生データを準備して、さらなる処理と分析に適したものにするプロセスです。重要なステップには、生データを収集してクリーニングし、ラベル付けして機械学習 (ML) アルゴリズムに適した形式にしてから、データを探索と視覚化することが含まれます。データの準備には、機械学習プロジェクトに費やされる時間の最大 80% がかかる場合があります。このプロセスを最適化するために、専用のデータ準備ツールを使用することが重要です。

機械学習とデータ準備の関係とは?

データは、スマートフォンからスマートシティまで、構造化データと非構造化データ (画像、ドキュメント、地理空間データなど) の両方として届き、かつてないほど組織に流れ込んでいます。非構造化データは、今日のデータの 80% を占めています。機械学習は構造化データを分析するだけでなく、非構造化データのパターンも発見することができます。機械学習は、コンピュータがデータを解釈し、そのデータに基づいて意思決定や推奨を行うことを学習するプロセスです。学習プロセスや、後に予測に使用する場合、不正確なデータや偏ったデータ、不完全なデータは、不正確な予測につながる可能性があります。

なぜ機械学習ではデータ準備が重要なのですか?

データは機械学習を活性化します。このデータを活用してビジネスを改革することは、難しいことではありますが、現在そして将来にわたって適切な存在であり続けるために必要不可欠です。それは最も情報に通じた人々の生き残りであり、データを活用し、より良い情報に基づいた意思決定を行うことができる人は、予期せぬ事態に素早く対応し、新たな機会を発見することができます。この重要かつ退屈なプロセスは、正確な機械学習モデルや分析を構築するための前提条件であり、機械学習プロジェクトで最も時間のかかる部分です。この時間の投資を最小限に抑えるために、データサイエンティストは様々な方法でデータ準備の自動化を支援するツールを使用することができます。

どのようにデータを準備するのですか?

データ準備は、正しいデータの収集から始まり、クリーニング、ラベリング、そして検証や可視化といった一連のステップを踏みます。

データを収集する

データの収集は、機械学習に必要なすべてのデータを集めるプロセスです。データはラップトップ、データウェアハウス、クラウド、アプリケーション内部、デバイスなど、多くのデータソースに存在するため、データ収集は面倒なものです。さまざまなデータソースに接続する方法を見つけるのは困難です。また、データボリュームは指数関数的に増加しているため、検索対象となるデータも膨大になります。さらに、データはソースによってフォーマットや種類が大きく異なります。例えば、動画データとテーブルデータを一緒に使うのは簡単ではありません。

データのクリーニング

データ品質を確保するためのステップとして、エラーを修正し、データの欠落を補うのがデータのクリーニングです。クリーンなデータが得られたら、それを一貫性のある読みやすいフォーマットに変換する必要があります。このプロセスには、日付や通貨などのフィールドフォーマットの変更、命名規則の修正、測定の値や単位が一致するように修正することが含まれます。

データのラベル付け

データラベリングは、raw データ (画像、テキストファイル、動画など) を識別し、コンテキストを提供するために 1 つ以上の意味のある有益なラベルを追加して機械学習モデルがそこから学習できるようにするプロセスです。例えば、ラベルは、写真に鳥や車が含まれているかどうか、音声録音でどの単語が使われているか、X 線検査で異常が発見されたかどうかを示すことがあります。データラベリングは、コンピュータビジョン、自然言語処理、音声認識など、さまざまなユースケースで必要になります。

検証および可視化

データのクリーニングとラベル付けが終わると、機械学習チームはデータが正しく、機械学習に適したものであることを確認するために、データを調査することがよくあります。ヒストグラム、散布図、箱ひげ図、折れ線グラフ、棒グラフなどの可視化は全て、データが正しいかどうかを確認するのに有効なツールです。さらに、可視化は、データサイエンスチームが探索的データ分析を行う際にも役立ちます。このプロセスは、パターンの発見、異常の発見、仮説の検証、仮定の確認に可視化データを使用します。探索的データ分析では、正式なモデリングは必要ありません。その代わりに、データサイエンスチームは、データを解読するために可視化を使用することができます。 

AWS が行えるサポートは?

Amazon SageMaker データ準備ツールは、組織が構造化および非構造化データの両方からインサイトを得るのに役立ちます。例えば、Amazon SageMaker Data Wrangler を使用すると、コード不要のビジュアルインターフェイスを通じて、組み込みのデータ可視化により構造化データの準備を簡素化することができます。SageMaker Data Wrangler には 300 を超える組み込みのデータ変換が含まれているため、コードを記述しなくても、機能をすばやく正規化、変換、および結合できます。また、必要に応じて、Python や Apache Spark でカスタム変換をもたらすことも可能です。非構造化データの場合、高品質でラベル付けされた大規模なデータセットが必要です。Amazon SageMaker Ground Truth Plus を利用することで、ラベリングアプリケーションを構築したり、ラベル付けのためのワークフォースを自ら管理したりすることなく、データラベリングコストを最大 40% 削減しながら、質の高い機械学習トレーニングデータセットを作成することができます。

ノートブック内でデータを準備することを好むアナリストやビジネスユーザーのために、Amazon SageMaker Studio のノートブックから、Amazon EMR で動作する Spark データ処理環境を、数クリックで視覚的にブラウズ、発見、接続することができます。接続後は、データのクエリ、探索、可視化をインタラクティブに行い、SQL、Python、またはScala などのお客様が選択した言語を使用して Spark ジョブを実行し、完全なデータ準備と機械学習ワークフローを構築することができます。

AWS での次のステップ