データ活用やAI活用の取り組みを進める中で、その基盤としてデータウェアハウス(DWH)を検討する企業が増えている。しかし、自社に最適なサービスが分からないという声も少なくない。主要なDWHとしては、Amazon Web Services(AWS)が提供するRedshiftや、Google Cloudが提供するBigQueryがよく知られている。
これらは、構造化データと半構造化データに対応し、高速なクエリ処理に最適化され、BIやレポート作成を得意としている。また、データレイクとDWHを統合したデータレイクハウスもデータ活用基盤の候補に挙がりやすい。中でも、Azure Databricksは、構造化・半構造化だけではなく、非構造化のデータにも対応しており、バッチ処理とストリーミング処理を統合してデータ処理を進め、BIとAIの両方に対応しているのが特徴だ。
本資料は、「Redshift」「BigQuery」「Azure Databricks」の特徴やユースケースなどを整理した上で、ベンチマークテストを実施し、DWHとしてのパフォーマンスやコストを比較検証した結果をまとめたものだ。課金の仕組みについても紹介しているので、併せて参考にしてほしい。