IT製品導入に関する技術資料を多数掲載 ホワイトペーパーダウンロードセンター
  • @IT
  • ITmedia エンタープライズ
  • ITmedia マーケティング
  • TechTarget
  • キーマンズネット
  • ITmedia ビジネスオンライン
  • ITmedia NEWS

ホートンワークスジャパン株式会社

製品資料

ホートンワークスジャパン株式会社

ビッグテータ分析の進化をコスト削減とともに実現する「データレイクの効用」

近年、Hadoopを活用したデータ分析プラットフォームの構築において、「データレイク」という言葉が使われるようになった。このデータレイクにより、分析の手法はどのように変わるのか。その言葉の概念からデータ活用の具体的な方法まで詳しく紹介する。

コンテンツ情報
公開日 2016/10/20 フォーマット PDF 種類

製品資料

ページ数・視聴時間 18ページ ファイルサイズ 3.84MB
要約
 データレイクは、Apache Hadoopの新しい機能として開発された「YARN」というアーキテクチャと関連性が深い。YARNは多種多様なワークロードを分散処理する司令塔として、構造化・非構造化を問わず、常にシステム内に流れ込んでくる、あるいはERPやCRMなどで蓄積されている各種データを収集、蓄積、分析する。

 YARNの登場によって、あらゆるデータを生データのまま格納するデータレイクが利用可能になった。例えばCRMデータとクリックストリームデータという構造の異なるデータを組み合わせて分析を行う場合も、それぞれのデータをあらかじめ分析用フォーマットに変換する必要はない。

 このようにデータレイクとYARNの機能を使えば、分析方法を事前に確定したり、必要なデータの所在を探したり、適当なデータフォーマットに変換したりといった手間がなくなるため、分析の自由度も広がり、ストレージコストも大幅に削減できる。本コンテンツでは活用事例を交えつつ、その手法と3つの重要な価値を紹介する。