テクノロジー 注目度 73

DuckDB v1.5.2リリース:データレイクハウス対応と性能向上、ブラウザ機能強化を発表

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

データ分析データベース「DuckDB」は、バージョンv1.5.2のパッチリリースを発表しました。このバージョンは、バグ修正とパフォーマンス改善に加え、データレイクハウス形式であるDuckLake v1.0のサポートを主要な機能として追加しています。DuckLake v1.0は、数十のバグ修正に加え、データインライン化、ソート済みテーブル、バケットパーティショニング、およびIceberg互換のPuffinファイルによる削除バッファといった高度な機能を提供し、安定した本番環境での利用を保証します。

また、データレイク技術の標準であるIceberg拡張機能もアップデートされ、GEOMETRY型、ALTER TABLEステートメント、パーティションテーブルからの更新・削除、およびトランケート・バケットパーティションの機能が追加されました。開発チームは、堅牢性を高めるためJepsenとの共同テストを実施し、プライマリキーでの競合解決を行うINSERT INTOステートメントが引き起こすバグを特定し、本リリースで修正を適用しました。

さらに、オンラインのWebAssemblyシェル(shell.duckdb.org)が大幅に刷新されました。新しいシェルでは、`.files`ドットコマンドとそのバリアントを使用することで、ブラウザセッションをワークベンチとして機能させることが可能になりました。これにより、ローカルファイルシステムからファイルをドラッグ&ドロップでアップロードしたり、`COPY ... TO`ステートメントで新しいファイルを作成したり、結果をダウンロードしたりできます。ベンチマークの結果として、Linux v7カーネル上でTPC-Hの複合スコアが778,041から854,676へと約10%の改善を示したことも報告されています。

今後の予定として、6月24日にはアムステルダムで開催されるDuckCon #7が予定されており、また5月12日にはDuckDB共同開発者によるAI Council 2026での講演も控えています。


背景

DuckDBは、PythonやRなどのデータ分析環境で利用される、軽量でインプロセス型のSQLデータベースです。データレイクやデータウェアハウスの分野で、大規模データ処理の効率化が求められており、本リリースは、その要求に応えるためのデータレイクハウス機能の強化と、ブラウザ環境での利用性向上を目的としています。

重要用語解説

  • DuckDB: PythonやRなどのアプリケーション内で動作する、軽量なインプロセス型のSQLデータベース。外部サーバーを必要とせず、ローカル環境での高速なデータ分析を可能にします。
  • データレイクハウス: データレイク(生データを蓄積)とデータウェアハウス(構造化されたデータ分析)の利点を統合したデータ管理アーキテクチャ。信頼性と柔軟性を両立させます。
  • Iceberg: 大規模データセットにおけるテーブルのスキーマとメタデータを管理するためのオープンなテーブルフォーマット。データの一貫性と信頼性を高めます。

今後の影響

本アップデートにより、DuckDBはローカル環境からブラウザ、さらにはデータレイク全体にわたるデータ処理能力を飛躍的に向上させました。これにより、データサイエンティストはより多様な環境で、より大規模かつ複雑なデータ分析を、単一のツールチェーン内で実行できるようになり、データ処理ワークフローの効率化が期待されます。