テクノロジー注目度 68

深層学習・生成AIの全体像を「3つの問い」で整理：CNNからMamba、拡散モデルまで

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

本記事は、深層学習や生成AIという広範な技術分野における主要なモデル（CNN、Transformer、BERT、GAN、Mamba、拡散モデルなど）の全体像を、専門用語の暗記ではなく「3つの問い」という分類軸を用いて整理することを目的としています。この3つの問いとは、「何でできているか（部品＝構造）」「どうやって賢くなったか（学習のしかた）」「何を入れたら何が出るか（タスク＝入力→出力）」の3点です。

構造面では、土台となる部品として、画像処理に強いCNN、系列データ処理に強いRNN/LSTM、そして現代の主役であるAttention機構、Transformer、そして長文処理に特化したMamba（SSM）が紹介されています。特にMambaは、Transformerの計算量が系列長に対して二乗になるという弱点を克服し、計算を線形に抑えることで、超長文・ストリームデータ処理での効率化を実現した新技術として注目されています。

学習法では、教師あり学習に加え、データ自身から問題を生成する自己教師あり学習（BERT, GPTなど）、人間の好みを組み込むRLHF、そして巨大モデルを用途に合わせて調整するファインチューニングやLoRAといった手法が解説されています。この「大量データでの事前学習」と「用途に合わせた微調整」という分業が現在の深層学習の常識です。

タスク別モデルの分類では、出力に応じて「識別・認識系（YOLO, ResNetなど）」「生成系（GPT, 拡散モデルなど）」「表現（埋め込み）系（BERT, CLIPなど）」「変換系（Whisperなど）」の4グループに分類されています。特に生成モデルは、自己回帰、VAE、GAN、正規化フロー、拡散の5系統に分類され、拡散モデルが最高品質と安定性を両立し、現在の主流となっています。また、Stable Diffusionは「VAE（圧縮）＋拡散＋CLIP（意味理解）」という複数の部品の組み合わせで成り立っていることが、全体像の理解の鍵として強調されています。本記事は、これらの技術が単なる個別のモデルではなく、部品の組み合わせと学習法の適用によって成り立っている「部品セット」として捉える視点を提供しています。

背景

深層学習（ディープラーニング）は、近年、画像認識（CNN）、自然言語処理（Transformer/LLM）、画像生成（拡散モデル）など多岐にわたる分野で飛躍的な進歩を遂げました。しかし、技術の進展に伴い、CNN、Transformer、GAN、拡散モデルなど、専門用語が乱立し、それぞれの違いや使い分けが一般的に混乱しやすい状況にあります。

重要用語解説

Transformer: Attention機構を純化し、系列データを並列計算可能にした構造。BERTやGPTなど、現代のAIモデルの主要な土台となり、言語処理の革命を主導しました。
拡散モデル: ノイズから徐々にノイズを除去していく過程（逆プロセス）を学習する生成モデル。高い品質と安定性を両立し、Stable Diffusionなどの画像生成の主流技術です。
Mamba: 状態空間モデル（SSM）に基づく新しいアーキテクチャ。Transformerの計算量が系列長に対して二乗になる弱点を克服し、長文・ストリームデータ処理を線形時間で実現します。

今後の影響

本記事で提示された「3つの問い」による分類軸は、AI技術の全体像を俯瞰的に理解するための強力なフレームワークを提供します。これにより、単なる技術の羅列ではなく、各モデルがどのような「部品」を「どういう目的」で組み合わせて使っているのかという構造的な理解が進み、今後のAI技術の応用や研究開発の方向性を予測する上で重要な指針となります。

Information Sources:

https://zenn.dev/manato_boys/articles/ecf3811c5e529a