IT製品導入に関する技術資料を多数掲載 ホワイトペーパーダウンロードセンター
  • @IT
  • ITmedia エンタープライズ
  • ITmedia マーケティング
  • TechTarget
  • キーマンズネット
  • ITmedia ビジネスオンライン
  • ITmedia NEWS

日本アイ・ビー・エム株式会社

技術文書・技術解説

日本アイ・ビー・エム株式会社

基礎解説:Hadoop/Spark環境の効果を最大化するプラットフォームの条件

コンテンツ情報
公開日 2016/11/28 フォーマット PDF 種類

技術文書・技術解説

ページ数・視聴時間 7ページ ファイルサイズ 2.87MB
要約
 オープンソースの分散コンピューティングミドルウェア「Hadoop」は、スケーラビリティや耐障害性などに優れていることで、データ分析基盤のデファクトスタンダードになっている。しかし、レイテンシの高さや、繰り返し処理などで時間がかかることが課題になってきた。

 そこで注目を集めたのが、カリフォルニア大学バークレー校のAMPLabが開発し、のちにオープンソースとして公開された「Spark」だ。Sparkは、オンメモリでデータ処理を行うことで、高速化を実現している。また、4つの標準ライブラリに他のライブラリを組み合わせて利用でき、Java、Scala、Python、Rで容易にプログラムを作成できる。

 今後は、速度優先ならSpark、スループット重視ならHadoopという使い分けが進むと予想されるが、期待通りのスループットや速度を得るには、適切なITインフラを選択することが重要となる。ここでは、みずほ銀行やPSAプジョーシトロエンの事例を交えつつ、迅速なHadoop/Spark環境構築を可能にする方法を紹介する。