ビッグテータ分析の進化をコスト削減とともに実現する「データレイクの効用」

コンテンツ情報

公開日	2016/10/20	フォーマット	PDF	種類	製品資料
ページ数・視聴時間	18ページ			ファイルサイズ	3.84MB

要約

　データレイクは、Apache Hadoopの新しい機能として開発された「YARN」というアーキテクチャと関連性が深い。YARNは多種多様なワークロードを分散処理する司令塔として、構造化・非構造化を問わず、常にシステム内に流れ込んでくる、あるいはERPやCRMなどで蓄積されている各種データを収集、蓄積、分析する。

　YARNの登場によって、あらゆるデータを生データのまま格納するデータレイクが利用可能になった。例えばCRMデータとクリックストリームデータという構造の異なるデータを組み合わせて分析を行う場合も、それぞれのデータをあらかじめ分析用フォーマットに変換する必要はない。

　このようにデータレイクとYARNの機能を使えば、分析方法を事前に確定したり、必要なデータの所在を探したり、適当なデータフォーマットに変換したりといった手間がなくなるため、分析の自由度も広がり、ストレージコストも大幅に削減できる。本コンテンツでは活用事例を交えつつ、その手法と3つの重要な価値を紹介する。

ログインして閲覧