Apache Icebergは、データの管理/分析に適した次世代のアーキテクチャとして注目されている。オープンソースのテーブルフォーマットで、HadoopやHiveに依存せず、大規模なデータレイク環境において「スキーマの進化」「ACIDトランザクション」を実現するものだ。
これまでデータレイクを構築する際には、Hive互換形式のParquetがデファクトスタンダードとして採用されてきた。しかし、この形式では、データを上書きする際にファイル全体を作り直さなければならず、スキーマを変更した際に互換性を維持するため多大な労力を要していたという。また、パーティション数が増えるとデータベースのパフォーマンスが極端に落ちるという問題もあった。
本資料では、これらの問題を根本から解決するApache Icebergの魅力を、実務で利用しているエンジニアの視点から解説する。併せてAmazon Web Services(AWS)環境にApache Icebergを導入する方法についても解説しているので、ぜひ参考にしてほしい。