LLaVAアーキテクチャの理論と実装

LLaVA（Large Language and Vision Assistant）は、2023年にLiu et al.によって発表されたオープンソースのマルチモーダルLLMです。論文 “Visual Instruction Tuning” で提案され、シンプルなアーキテクチャながら高い性能を達成し、マルチモーダルLLMの研究を大きく加速させました。

LLaVAの成功の鍵は、シンプルな設計と効率的な学習戦略にあります。CLIP画像エンコーダとLLaMAを線形プロジェクションで接続するだけという単純な構造でありながら、GPT-4Vに迫る性能を実現しています。

本記事の内容

LLaVAの設計思想
アーキテクチャの詳細
ビジュアルインストラクションチューニング
学習データの生成方法
PyTorchによる実装

前提知識

この記事を読む前に、以下の記事を読んでおくと理解が深まります。

LLaVAの設計思想

シンプルさの追求

LLaVAの設計哲学は「シンプルに、しかし効果的に」です。

複雑な融合モジュール（Q-FormerやPerceiver Resamplerなど）を使わず、単純な線形プロジェクションで画像特徴をLLMの埋め込み空間に写像します。

この設計の利点: 1. 実装が容易: 既存のLLMに簡単に追加可能 2. 学習が安定: 学習パラメータが少ない 3. デバッグが容易: 各コンポーネントの役割が明確 4. 拡張が容易: 新しいLLMや画像エンコーダに置き換え可能

ビジュアルインストラクションチューニング

LLaVAのもう一つの重要な貢献は、GPT-4を使って学習データを生成するというアプローチです。

画像とそのキャプションをGPT-4に入力し、画像についての対話データを生成させます。これにより、高品質な指示追従データを効率的に収集できます。

アーキテクチャ

全体構造

[入力画像 (224×224)]
    ↓
[CLIP ViT-L/14] (凍結)
    ↓
[画像特徴 (256 tokens × 1024)]
    ↓
[線形プロジェクション] (学習)
    ↓
[画像トークン (256 tokens × 4096)]
    ↓
[画像トークン] + [テキストトークン]
    ↓
[LLaMA / Vicuna] (LoRAまたはフル学習)
    ↓
[出力テキスト]

1. 画像エンコーダ

CLIP ViT-L/14を使用します。

入力: 224×224のRGB画像
出力: 256個のパッチトークン（最終層のCLSトークンを除く）
次元: 各トークンは1024次元

# CLIP ViT-L/14の出力
# image: (B, 3, 224, 224)
# features: (B, 257, 1024)  # 256パッチ + 1 CLSトークン
# LLaVAでは256パッチトークンのみ使用: (B, 256, 1024)

画像エンコーダは事前学習済みのCLIPを使用し、学習中は凍結します。

2. プロジェクション層

シンプルな線形プロジェクション（または2層MLP）で、画像特徴をLLMの埋め込み空間に写像します。

$$ \bm{H}_v = \bm{W} \cdot \bm{Z}_v $$

ここで: – $\bm{Z}_v \in \mathbb{R}^{N \times d_v}$: 画像特徴（$N=256$, $d_v=1024$） – $\bm{W} \in \mathbb{R}^{d_v \times d_l}$: 線形変換（$d_l=4096$ for LLaMA-7B） – $\bm{H}_v \in \mathbb{R}^{N \times d_l}$: LLM空間の画像トークン

LLaVA-1.5では、2層MLPを使用:

$$ \bm{H}_v = \bm{W}_2 \cdot \text{GELU}(\bm{W}_1 \cdot \bm{Z}_v) $$

3. LLMバックボーン

LLaMA（または指示チューニング済みのVicuna）を使用します。

LLaVA: Vicuna-7B/13B
LLaVA-1.5: Vicuna-7B/13B（より強力な設定）

画像トークンは、特殊トークン <image> の位置に挿入されます。

<s> USER: <image>
この画像について説明してください。
ASSISTANT: この画像には...
</s>

<image> は256個の画像トークンに置き換えられます。

入力フォーマット

プロンプトテンプレート

LLaVAは以下のような会話形式のプロンプトを使用します:

A chat between a curious user and an artificial intelligence assistant.
The assistant gives helpful, detailed, and polite answers to the user's questions.

USER: <image>
{ユーザーの質問}
ASSISTANT: {モデルの応答}

マルチターン対話

複数回の質問応答も可能です:

USER: <image>
この画像には何が写っていますか？
ASSISTANT: この画像には赤いリンゴがテーブルの上に置かれています。

USER: そのリンゴはどのような状態ですか？
ASSISTANT: リンゴは新鮮で、艶があり、傷のない状態です。

学習戦略

Stage 1: 事前学習（Feature Alignment）

目的: 画像特徴とテキスト埋め込み空間の整合性を取る

設定: – 画像エンコーダ: 凍結 – プロジェクション: 学習 – LLM: 凍結

データ: CC3M（Conceptual Captions 3M）の595Kサブセット

タスク: 画像キャプション生成

入力: <image> この画像を簡潔に説明してください。
出力: {キャプション}

この段階では、プロジェクション層のみを学習し、画像とテキストの対応を学習します。

Stage 2: 指示チューニング（Instruction Tuning）

目的: 対話的なタスクに適応

設定: – 画像エンコーダ: 凍結 – プロジェクション: 学習 – LLM: 学習（フルまたはLoRA）

データ: LLaVA-Instruct-150K（GPT-4で生成）

タスク: – 詳細な画像説明 – 複雑な推論 – 対話

この段階で、モデルは指示に従って適切な応答を生成する能力を獲得します。

学習データの生成

GPT-4を使ったデータ生成

LLaVAの学習データ（LLaVA-Instruct）は、GPT-4を使って生成されました。

入力: 画像のキャプションとバウンディングボックス

出力: 3種類の会話データ

会話（Conversation）: 画像についての自然な対話
詳細説明（Detailed Description）: 画像の詳細な説明
複雑な推論（Complex Reasoning）: 画像についての推論を要する質問

データ生成のプロンプト例

You are an AI assistant helping to create training data for a visual AI model.

Given the following image description:
Caption: "A person riding a bicycle on a sunny day"
Objects: [bicycle (person, wheels, handlebar), sun, trees]

Generate a conversation between a user and an assistant about this image.
The conversation should be natural and informative.

データセットの構成

LLaVA-Instruct-150K: 150K件の画像-対話ペア
LLaVA-1.5: 665K件（より多くの学術データセットを含む）

LLaVAのバリエーション

LLaVA-1.5

オリジナルLLaVAの改良版:

高解像度: 336×336入力（576トークン）
MLPプロジェクション: 2層MLP
より多くの学習データ: 665K件
追加の学術データ: VQA, GQA, OCRなど

LLaVA-NeXT（LLaVA-1.6）

さらなる改良:

動的高解像度: 様々な解像度・アスペクト比に対応
より大きなLLM: Mistral-7B, Yi-34Bなど
動画理解: 動画入力のサポート

PyTorchによる実装

LLaVAモデル

import torch
import torch.nn as nn
from transformers import CLIPVisionModel, LlamaForCausalLM, LlamaTokenizer


class LLaVA(nn.Module):
    """LLaVA: Large Language and Vision Assistant"""
    def __init__(
        self,
        vision_model_name="openai/clip-vit-large-patch14",
        llm_model_name="meta-llama/Llama-2-7b-hf",
        freeze_vision=True,
        freeze_llm=False,
    ):
        super().__init__()

        # 画像エンコーダ（CLIP ViT）
        self.vision_encoder = CLIPVisionModel.from_pretrained(vision_model_name)
        self.vision_hidden_size = self.vision_encoder.config.hidden_size  # 1024

        # 凍結設定
        if freeze_vision:
            for param in self.vision_encoder.parameters():
                param.requires_grad = False

        # LLM
        self.llm = LlamaForCausalLM.from_pretrained(llm_model_name)
        self.llm_hidden_size = self.llm.config.hidden_size  # 4096

        if freeze_llm:
            for param in self.llm.parameters():
                param.requires_grad = False

        # プロジェクション（2層MLP）
        self.vision_projection = nn.Sequential(
            nn.Linear(self.vision_hidden_size, self.llm_hidden_size),
            nn.GELU(),
            nn.Linear(self.llm_hidden_size, self.llm_hidden_size),
        )

        # 特殊トークンのIDを記録
        self.image_token_id = None  # <image>トークン

    def encode_image(self, images):
        """
        画像をLLMトークン空間にエンコード

        Args:
            images: (B, 3, 224, 224)
        Returns:
            (B, num_patches, llm_hidden_size)
        """
        # CLIP ViTで特徴抽出
        vision_outputs = self.vision_encoder(images)
        # last_hidden_state: (B, num_patches+1, hidden_size)
        # CLSトークンを除く
        image_features = vision_outputs.last_hidden_state[:, 1:, :]

        # プロジェクション
        image_tokens = self.vision_projection(image_features)

        return image_tokens

    def prepare_inputs(self, images, input_ids, attention_mask, image_positions):
        """
        画像トークンをテキストに挿入

        Args:
            images: (B, 3, H, W)
            input_ids: (B, seq_len)
            attention_mask: (B, seq_len)
            image_positions: (B,) 各サンプルでの<image>トークンの位置
        """
        batch_size = images.shape[0]

        # 画像エンコード
        image_tokens = self.encode_image(images)  # (B, num_img_tokens, hidden)
        num_img_tokens = image_tokens.shape[1]

        # テキスト埋め込み
        text_embeds = self.llm.get_input_embeddings()(input_ids)

        # 画像トークンを<image>位置に挿入
        new_embeds_list = []
        new_attention_mask_list = []

        for b in range(batch_size):
            pos = image_positions[b]

            # <image>トークンの前後で分割
            before = text_embeds[b, :pos]
            after = text_embeds[b, pos+1:]  # <image>トークンをスキップ

            # 結合: [before] + [image_tokens] + [after]
            new_embed = torch.cat([before, image_tokens[b], after], dim=0)
            new_embeds_list.append(new_embed)

            # アテンションマスクも同様に処理
            before_mask = attention_mask[b, :pos]
            after_mask = attention_mask[b, pos+1:]
            img_mask = torch.ones(num_img_tokens, device=attention_mask.device)
            new_mask = torch.cat([before_mask, img_mask, after_mask], dim=0)
            new_attention_mask_list.append(new_mask)

        # パディングして揃える
        max_len = max(e.shape[0] for e in new_embeds_list)
        new_embeds = torch.zeros(batch_size, max_len, self.llm_hidden_size, device=images.device)
        new_attention_mask = torch.zeros(batch_size, max_len, device=images.device)

        for b in range(batch_size):
            length = new_embeds_list[b].shape[0]
            new_embeds[b, :length] = new_embeds_list[b]
            new_attention_mask[b, :length] = new_attention_mask_list[b]

        return new_embeds, new_attention_mask

    def forward(
        self,
        images,
        input_ids,
        attention_mask,
        image_positions,
        labels=None,
    ):
        """
        順伝播

        Args:
            images: (B, 3, H, W)
            input_ids: (B, seq_len) <image>トークンを含む
            attention_mask: (B, seq_len)
            image_positions: (B,) <image>トークンの位置
            labels: (B, seq_len) 学習ターゲット
        """
        # 入力を準備
        inputs_embeds, new_attention_mask = self.prepare_inputs(
            images, input_ids, attention_mask, image_positions
        )

        # ラベルも調整（必要に応じて）
        if labels is not None:
            num_img_tokens = (inputs_embeds.shape[1] - input_ids.shape[1] + 1)
            # 画像トークン部分は損失計算から除外
            new_labels = self._adjust_labels(labels, image_positions, num_img_tokens)
        else:
            new_labels = None

        # LLMに入力
        outputs = self.llm(
            inputs_embeds=inputs_embeds,
            attention_mask=new_attention_mask,
            labels=new_labels,
        )

        return outputs

    def _adjust_labels(self, labels, image_positions, num_img_tokens):
        """ラベルを画像トークンに合わせて調整"""
        batch_size = labels.shape[0]
        new_labels_list = []

        for b in range(batch_size):
            pos = image_positions[b]
            before = labels[b, :pos]
            after = labels[b, pos+1:]
            # 画像トークン部分は-100（無視）
            img_labels = torch.full((num_img_tokens,), -100, device=labels.device)
            new_label = torch.cat([before, img_labels, after], dim=0)
            new_labels_list.append(new_label)

        # パディング
        max_len = max(l.shape[0] for l in new_labels_list)
        new_labels = torch.full((batch_size, max_len), -100, device=labels.device)
        for b in range(batch_size):
            length = new_labels_list[b].shape[0]
            new_labels[b, :length] = new_labels_list[b]

        return new_labels

    @torch.no_grad()
    def generate(
        self,
        images,
        input_ids,
        attention_mask,
        image_positions,
        max_new_tokens=256,
        **generate_kwargs,
    ):
        """画像とプロンプトからテキストを生成"""
        inputs_embeds, new_attention_mask = self.prepare_inputs(
            images, input_ids, attention_mask, image_positions
        )

        outputs = self.llm.generate(
            inputs_embeds=inputs_embeds,
            attention_mask=new_attention_mask,
            max_new_tokens=max_new_tokens,
            **generate_kwargs,
        )

        return outputs

学習ループ

def train_llava(model, train_dataloader, optimizer, scheduler, num_epochs):
    """LLaVAの学習"""
    model.train()

    for epoch in range(num_epochs):
        total_loss = 0

        for batch in train_dataloader:
            images = batch['images'].cuda()
            input_ids = batch['input_ids'].cuda()
            attention_mask = batch['attention_mask'].cuda()
            image_positions = batch['image_positions'].cuda()
            labels = batch['labels'].cuda()

            optimizer.zero_grad()

            outputs = model(
                images=images,
                input_ids=input_ids,
                attention_mask=attention_mask,
                image_positions=image_positions,
                labels=labels,
            )

            loss = outputs.loss
            loss.backward()

            # 勾配クリッピング
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

            optimizer.step()
            scheduler.step()

            total_loss += loss.item()

        avg_loss = total_loss / len(train_dataloader)
        print(f"Epoch {epoch+1}: Loss = {avg_loss:.4f}")

推論例

def inference_example(model, tokenizer, image_processor, image_path, prompt):
    """推論の例"""
    from PIL import Image

    # 画像の読み込みと前処理
    image = Image.open(image_path).convert('RGB')
    pixel_values = image_processor(images=image, return_tensors='pt').pixel_values

    # プロンプトの準備
    full_prompt = f"USER: <image>\n{prompt}\nASSISTANT:"
    inputs = tokenizer(full_prompt, return_tensors='pt')

    # <image>トークンの位置を特定
    image_token_id = tokenizer.convert_tokens_to_ids('<image>')
    image_positions = (inputs.input_ids == image_token_id).nonzero(as_tuple=True)[1]

    # 生成
    model.eval()
    with torch.no_grad():
        outputs = model.generate(
            images=pixel_values.cuda(),
            input_ids=inputs.input_ids.cuda(),
            attention_mask=inputs.attention_mask.cuda(),
            image_positions=image_positions.cuda(),
            max_new_tokens=256,
            temperature=0.2,
            do_sample=True,
        )

    # デコード
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)

    return response

LLaVAの性能

ベンチマーク結果

モデル	VQAv2	GQA	TextVQA	MM-Bench
LLaVA-7B	78.5	62.0	58.2	64.3
LLaVA-13B	80.0	63.3	61.3	67.7
LLaVA-1.5-7B	78.5	62.0	58.2	64.3
LLaVA-1.5-13B	80.0	63.3	61.3	67.7

定性的な強み

詳細な画像説明
複雑な推論
対話的なやり取り
OCR（画像内テキストの読解）

限界

幻覚（存在しないものを説明）
細かいカウント
空間関係の正確な把握

まとめ

本記事では、LLaVAアーキテクチャの仕組みを解説しました。

シンプルな設計: CLIP ViT + 線形プロジェクション + LLM
2段階学習: 事前学習（アライメント）→ 指示チューニング
GPT-4によるデータ生成: 高品質な学習データを効率的に収集
入力形式: <image>トークンを画像トークン列に置き換え
効率的な学習: プロジェクション層のみの学習から始める

LLaVAは、シンプルながら効果的なマルチモーダルLLMの設計を示し、その後の多くの研究に影響を与えました。オープンソースで公開されていることも、研究コミュニティへの大きな貢献です。

次のステップとして、以下の記事も参考にしてください。

機械学習と情報技術

前提知識

LLaVAの設計思想

シンプルさの追求

ビジュアルインストラクションチューニング

アーキテクチャ

全体構造

1. 画像エンコーダ

2. プロジェクション層

3. LLMバックボーン

入力フォーマット

プロンプトテンプレート

マルチターン対話

学習戦略

Stage 1: 事前学習（Feature Alignment）

Stage 2: 指示チューニング（Instruction Tuning）

学習データの生成

GPT-4を使ったデータ生成

データ生成のプロンプト例

データセットの構成

LLaVAのバリエーション

LLaVA-1.5

LLaVA-NeXT（LLaVA-1.6）

PyTorchによる実装

LLaVAモデル

学習ループ

推論例

LLaVAの性能

ベンチマーク結果

定性的な強み

限界

まとめ

対照学習（Contrastive Learning）の理論と損失関数の導出

大数の法則をわかりやすく解説

LLaVAアーキテクチャの理論と実装

前提知識

LLaVAの設計思想

シンプルさの追求

ビジュアルインストラクションチューニング

アーキテクチャ

全体構造

1. 画像エンコーダ

2. プロジェクション層

3. LLMバックボーン

入力フォーマット

プロンプトテンプレート

マルチターン対話

学習戦略

Stage 1: 事前学習（Feature Alignment）

Stage 2: 指示チューニング（Instruction Tuning）

学習データの生成

GPT-4を使ったデータ生成

データ生成のプロンプト例

データセットの構成

LLaVAのバリエーション

LLaVA-1.5

LLaVA-NeXT（LLaVA-1.6）

PyTorchによる実装

LLaVAモデル

学習ループ

推論例

LLaVAの性能

ベンチマーク結果

定性的な強み

限界

まとめ

関連記事

Transformer Decoderの構造とMasked Self-Attentionの仕組み

Flash Attentionの仕組み — IO-Aware なアテンション高速化

Mixture of Experts (MoE) の仕組みとゲーティング機構

対照学習（Contrastive Learning）の理論と損失関数の導出

大数の法則をわかりやすく解説