Apache Icebergは、データレイク/レイクハウス向けのオープンテーブルフォーマット。
大規模データ運用で必要になる、スキーマ変更や履歴管理を扱いやすくする。
主な特徴
- スキーマ進化(列追加・変更)を安全に扱いやすい
- パーティションの進化をサポート
- スナップショットベースのタイムトラベル
- オブジェクトストレージ上でもテーブル管理を行いやすい
関連コンポーネント
- テーブルフォーマット本体(Iceberg)
- カタログ(メタデータ管理)
- 実行エンジン(Spark / Flink / Trino / Athena など)
参考
実務メモ
Apache Iceberg は、data-engineering、data-lakehouse、apache-iceberg、table-format の文脈で出てくることが多い。辞書的な定義だけでなく、この語で何を短く言い表したいのかまで揃えておくと会話がぶれにくい。
近い言葉と混ぜると説明が曖昧になりやすいので、対象、役割、使う場面を一段だけ具体化して捉えるのが楽。用語集では、その入口として押さえておくと十分。
hsb.horse