技術文書
SAS Institute Japan株式会社
データ分析の基礎知識――全ては分析用データ管理から始まる
データサイエンティストは、分析モデル開発の作業時間の50~80%をデータ準備に費やすという。優れた分析モデル構築には、信頼性の高いデータを特有のデータ構造で準備する必要があるからだ。多くの分析経験から得た、効果的なデータ管理のポイントを解説する。
コンテンツ情報
公開日 |
2016/11/30 |
フォーマット |
PDF |
種類 |
技術文書 |
ページ数・視聴時間 |
8ページ |
ファイルサイズ |
583KB
|
要約
ビジネスの成功には優れた分析モデルが欠かせない。「そこそこ優れたモデル」なのか、「抜群に優れたモデル」なのかで、得られる結果には大きな差が生まれる。高いレベルの分析モデルを構築するには“汚染されていないデータ”を迅速に準備できる体制を整える必要がある。
“汚染されているデータ”とは、ある予測を行う際に何の影響も及ぼさない、あるいは間違った結果を招く可能性のある要素のことを指す。データサイエンティストの多くは、こうした要素を取り除いたデータの準備に多くの時間を割いている現状がある。データウェアハウスに保存されているデータを分析用データとして整備するのに多くの手間が掛かると、分析スピードは大幅に鈍り、戦略策定に悪影響を及ぼしかねない。
本ホワイトペーパーは、分析におけるデータ管理のための5つのベストプラクティスとデータ管理テクノロジーについて解説している。データ整備に必要な浄化、強化、共有、簡素化、整形といった作業を迅速化するためには、どう取り組んでいけばよいのだろうか。詳しく見ていこう。