コンテンツ情報
公開日 |
2022/05/27 |
フォーマット |
PDF |
種類 |
製品資料 |
ページ数・視聴時間 |
16ページ |
ファイルサイズ |
2.08MB
|
要約
データ分析では、データウェアハウスやビジネスインテリジェンス、機械学習といった要素に焦点が当たりがちだが、データ分析により真のビジネス価値を発揮するには、データそのものの精度や質を高めることが重要になる。そのために必要なのが「データパイプライン」だ。
データパイプラインは、データソース、データシンク、データ処理、ワークフローで構成され、データを分析可能な形にして格納するまでの一連の処理を行う。そのような仕組みをいかに構築するのか。あらゆる場所に分散したデータを1カ所に集約し、活用するまで、データのライフサイクル全体をカバーするデータ分析プラットフォームが求められる。
本資料では、Google Cloudが提供する各種サービスを取り上げながら、サービス選定のポイントや、データパイプラインを構築・管理する方法を解説する。例えばワークフローにおいては、処理の実行順序の柔軟性やスケジュール機能などがポイントとなるが、それらを押さえたマネージドサービスを利用すればインフラ管理が不要となり、開発に専念できるという。