IT製品導入に関する技術資料を多数掲載 ホワイトペーパーダウンロードセンター
  • @IT
  • ITmedia エンタープライズ
  • ITmedia マーケティング
  • TechTarget
  • キーマンズネット
  • ITmedia ビジネスオンライン
  • ITmedia NEWS

日本アイ・ビー・エム株式会社

技術文書

日本アイ・ビー・エム株式会社

基礎解説:Hadoop/Spark環境の効果を最大化するプラットフォームの条件

ビッグデータを分析するための新基盤として注目されているApache Spark。高速性に優れたSparkを活用するには、適切なITインフラを選択することも重要だ。ここでは、活用事例を交えながら、SparkとHadoopの違いや、プラットフォーム選択のポイントなどを見ていく。

コンテンツ情報
公開日 2016/11/28 フォーマット PDF 種類

技術文書

ページ数・視聴時間 7ページ ファイルサイズ 2.87MB
要約
 オープンソースの分散コンピューティングミドルウェア「Hadoop」は、スケーラビリティや耐障害性などに優れていることで、データ分析基盤のデファクトスタンダードになっている。しかし、レイテンシの高さや、繰り返し処理などで時間がかかることが課題になってきた。

 そこで注目を集めたのが、カリフォルニア大学バークレー校のAMPLabが開発し、のちにオープンソースとして公開された「Spark」だ。Sparkは、オンメモリでデータ処理を行うことで、高速化を実現している。また、4つの標準ライブラリに他のライブラリを組み合わせて利用でき、Java、Scala、Python、Rで容易にプログラムを作成できる。

 今後は、速度優先ならSpark、スループット重視ならHadoopという使い分けが進むと予想されるが、期待通りのスループットや速度を得るには、適切なITインフラを選択することが重要となる。ここでは、みずほ銀行やPSAプジョーシトロエンの事例を交えつつ、迅速なHadoop/Spark環境構築を可能にする方法を紹介する。