DuckDB v1.5.2リリース:データレイクハウス対応と性能向上、ブラウザ機能強化を発表
データ分析データベース「DuckDB」は、バージョンv1.5.2のパッチリリースを発表しました。このバージョンは、バグ修正とパフォーマンス改善に加え、データレイクハウス形式であるDuckLake v1.0のサポートを主要な機能として追加しています。DuckLake v1.0は、数十のバグ修正に加え、データインライン化、ソート済みテーブル、バケットパーティショニング、およびIceberg互換のPuffinファイルによる削除バッファといった高度な機能を提供し、安定した本番環境での利用を保証します。
また、データレイク技術の標準であるIceberg拡張機能もアップデートされ、GEOMETRY型、ALTER TABLEステートメント、パーティションテーブルからの更新・削除、およびトランケート・バケットパーティションの機能が追加されました。開発チームは、堅牢性を高めるためJepsenとの共同テストを実施し、プライマリキーでの競合解決を行うINSERT INTOステートメントが引き起こすバグを特定し、本リリースで修正を適用しました。
さらに、オンラインのWebAssemblyシェル(shell.duckdb.org)が大幅に刷新されました。新しいシェルでは、`.files`ドットコマンドとそのバリアントを使用することで、ブラウザセッションをワークベンチとして機能させることが可能になりました。これにより、ローカルファイルシステムからファイルをドラッグ&ドロップでアップロードしたり、`COPY ... TO`ステートメントで新しいファイルを作成したり、結果をダウンロードしたりできます。ベンチマークの結果として、Linux v7カーネル上でTPC-Hの複合スコアが778,041から854,676へと約10%の改善を示したことも報告されています。
今後の予定として、6月24日にはアムステルダムで開催されるDuckCon #7が予定されており、また5月12日にはDuckDB共同開発者によるAI Council 2026での講演も控えています。
背景
DuckDBは、PythonやRなどのデータ分析環境で利用される、軽量でインプロセス型のSQLデータベースです。データレイクやデータウェアハウスの分野で、大規模データ処理の効率化が求められており、本リリースは、その要求に応えるためのデータレイクハウス機能の強化と、ブラウザ環境での利用性向上を目的としています。
重要用語解説
- DuckDB: PythonやRなどのアプリケーション内で動作する、軽量なインプロセス型のSQLデータベース。外部サーバーを必要とせず、ローカル環境での高速なデータ分析を可能にします。
- データレイクハウス: データレイク(生データを蓄積)とデータウェアハウス(構造化されたデータ分析)の利点を統合したデータ管理アーキテクチャ。信頼性と柔軟性を両立させます。
- Iceberg: 大規模データセットにおけるテーブルのスキーマとメタデータを管理するためのオープンなテーブルフォーマット。データの一貫性と信頼性を高めます。
今後の影響
本アップデートにより、DuckDBはローカル環境からブラウザ、さらにはデータレイク全体にわたるデータ処理能力を飛躍的に向上させました。これにより、データサイエンティストはより多様な環境で、より大規模かつ複雑なデータ分析を、単一のツールチェーン内で実行できるようになり、データ処理ワークフローの効率化が期待されます。