テクノロジー注目度 90

合成ペルソナでデータ不足突破！日本のAI開発加速

NTT DATAの研究によると、合成データを用いることで、日本語学習データが不足している日本のAI開発における課題を克服できる可能性がある。

従来、日本語AIシステム構築には実用レベルの学習データが不足しており、高性能なモデルの初期段階からタスクに特化したデータを収集・整備する必要があった。これは時間と費用がかかり、開発サイクルに追いつくことが困難だった。

しかし、NTT DATAはNVIDIA Nemotron-Personas-Japanというオープンソース合成データセットを用いることで、わずか450件のシードサンプルから13万8千件以上の学習用データセットを生成し、モデル精度を15.3%から79.3%へと大幅に向上させた。

このアプローチは、プライバシー保護と高性能化を両立させ、企業が限られた独自データでもタスクに特化したAIを構築できることを示している。合成データを用いることで、継続事前学習（CPT）の工程を省略し、費用対効果の高い学習パイプラインを実現できるというメリットもある。

NTT DATAは、この技術が日本の「イノベーション主導のAIガバナンス」の実現に貢献すると期待しており、企業間で合成データを共有するデータスペースの構築にも取り組んでいる。

背景

日本のAI開発は、英語学習データが豊富であるのに対し、日本語学習データが不足しているという課題に直面していた。この問題を解決するために、合成データを用いた新しいアプローチが注目されている。

- **合成データ**: 実在のデータに基づいて生成された偽のデータ。プライバシー保護やデータ不足の問題を解決するのに役立つ。

- **NeMo Data Designer**: NVIDIAが提供するオープンソースの合成データ生成ライブラリ。

- **Nemotron-Personas-Japan**: 日本の人口動態、地理、文化に基づいた600万人のペルソナから構成されるNVIDIA初のオープン合成データセット。

- **継続事前学習（CPT）**: 大規模なテキストデータを用いてAIモデルを事前に学習させる手法。計算リソースが大量に必要となる。

- **教師ありファインチューニング（SFT）**: 特定のタスクに特化したデータを用いて、既存のAIモデルを調整する手法。

合成データは、日本のAI開発におけるデータ不足問題を解決し、高性能なAIシステムの構築を促進する可能性がある。また、プライバシー保護とデータ主権を重視したAI開発にも貢献すると期待されている。

Information Sources: