コンテンツ情報
公開日 |
2018/03/08 |
フォーマット |
PDF |
種類 |
製品資料 |
ページ数・視聴時間 |
30ページ |
ファイルサイズ |
4.71MB
|
要約
ビジネスの現場で誰もがセルフサービスでデータを活用・分析できる環境を用意する「データレイク」の考え方では、データは「水」に例えられる。信ぴょう性のないデータを基に現場でレポート作成や意思決定を行ってしまっては意味がないため、分析・活用が容易なデータは、いわば「きれいな水」だ。このきれいな水だけを蓄積・活用したいところだが、水の品質を見極めるにはSQLやExcelで加工するなど、少なからず手間がかかる。さらに、不備のあるデータを整形して水を浄化する手段、蓄積データを定期的にモニタリングして水質を保つ仕組みもほしい。
本コンテンツでは、「きれいな水源の見極め」「水の浄化」「きれいな水の維持」という3つの要素を実現し、データレイクにいつでも容易に活用できるデータを蓄積しておくための方法を分かりやすく解説する。例えば、「きれいな水源(データ)の見極め」では、データ欠損やフォーマット違反、重複などの違反内容を特定し、データ品質スコアを自動的に算出できれば、分析しづらいデータを選別できるだろう。
データレイクは、このようなきれいなデータを蓄積する機能だけでなく、現場のデータ活用を促進する機能も備えていなければならない。そしてデータレイクにたまるデータをきれいに保てた後に必要なこととは? 本資料で詳しく見ていこう。