コンテンツ情報
公開日 |
2016/10/20 |
フォーマット |
PDF |
種類 |
製品資料 |
ページ数・視聴時間 |
18ページ |
ファイルサイズ |
3.84MB
|
要約
データレイクは、Apache Hadoopの新しい機能として開発された「YARN」というアーキテクチャと関連性が深い。YARNは多種多様なワークロードを分散処理する司令塔として、構造化・非構造化を問わず、常にシステム内に流れ込んでくる、あるいはERPやCRMなどで蓄積されている各種データを収集、蓄積、分析する。
YARNの登場によって、あらゆるデータを生データのまま格納するデータレイクが利用可能になった。例えばCRMデータとクリックストリームデータという構造の異なるデータを組み合わせて分析を行う場合も、それぞれのデータをあらかじめ分析用フォーマットに変換する必要はない。
このようにデータレイクとYARNの機能を使えば、分析方法を事前に確定したり、必要なデータの所在を探したり、適当なデータフォーマットに変換したりといった手間がなくなるため、分析の自由度も広がり、ストレージコストも大幅に削減できる。本コンテンツでは活用事例を交えつつ、その手法と3つの重要な価値を紹介する。