基礎解説：Hadoop／Spark環境の効果を最大化するプラットフォームの条件

コンテンツ情報

公開日	2016/11/28	フォーマット	PDF	種類	技術文書・技術解説
ページ数・視聴時間	7ページ			ファイルサイズ	2.87MB

要約

　オープンソースの分散コンピューティングミドルウェア「Hadoop」は、スケーラビリティや耐障害性などに優れていることで、データ分析基盤のデファクトスタンダードになっている。しかし、レイテンシの高さや、繰り返し処理などで時間がかかることが課題になってきた。

　そこで注目を集めたのが、カリフォルニア大学バークレー校のAMPLabが開発し、のちにオープンソースとして公開された「Spark」だ。Sparkは、オンメモリでデータ処理を行うことで、高速化を実現している。また、4つの標準ライブラリに他のライブラリを組み合わせて利用でき、Java、Scala、Python、Rで容易にプログラムを作成できる。

　今後は、速度優先ならSpark、スループット重視ならHadoopという使い分けが進むと予想されるが、期待通りのスループットや速度を得るには、適切なITインフラを選択することが重要となる。ここでは、みずほ銀行やPSAプジョーシトロエンの事例を交えつつ、迅速なHadoop／Spark環境構築を可能にする方法を紹介する。

ログインして閲覧