コンテンツ情報
公開日 |
2016/11/28 |
フォーマット |
PDF |
種類 |
技術文書・技術解説 |
ページ数・視聴時間 |
7ページ |
ファイルサイズ |
2.87MB
|
要約
オープンソースの分散コンピューティングミドルウェア「Hadoop」は、スケーラビリティや耐障害性などに優れていることで、データ分析基盤のデファクトスタンダードになっている。しかし、レイテンシの高さや、繰り返し処理などで時間がかかることが課題になってきた。
そこで注目を集めたのが、カリフォルニア大学バークレー校のAMPLabが開発し、のちにオープンソースとして公開された「Spark」だ。Sparkは、オンメモリでデータ処理を行うことで、高速化を実現している。また、4つの標準ライブラリに他のライブラリを組み合わせて利用でき、Java、Scala、Python、Rで容易にプログラムを作成できる。
今後は、速度優先ならSpark、スループット重視ならHadoopという使い分けが進むと予想されるが、期待通りのスループットや速度を得るには、適切なITインフラを選択することが重要となる。ここでは、みずほ銀行やPSAプジョーシトロエンの事例を交えつつ、迅速なHadoop/Spark環境構築を可能にする方法を紹介する。