Contents
1. はじめに
近年、画像とテキストといった異なるモダリティを組み合わせたマルチモーダル理解の重要性が高まっています。Vision-and-Language(V&L)研究は、まさにこのマルチモーダル理解を目指し、画像とテキストの両方の情報を用いて、より高度なタスクを遂行するモデルの開発に焦点を当てています。
例えば、画像の内容を説明するキャプション生成、画像に関する質問に答えるVQA(Visual Question Answering)、画像とテキスト間の類似性を計算する検索システムなどが挙げられます。
V&L研究において、大規模言語モデル(LLM)は、その強力なテキスト処理能力から大きな期待を集めています。しかし、LLMをV&Lタスクに効果的に活用するためには以下の課題に対処する必要があります。
- LLMはテキストデータのみで学習されており、画像情報を直接利用できない
- LLMのファインチューニングには膨大な計算コストがかかる
これらの課題を解決するために、LLMを搭載したV&Lモデルの多くは、画像エンコーダとLLMの間にモジュールを設置し、画像エンコーダが出力する画像特徴をLLMが利用できるように、そのモジュールを最適化します。

BLIP-2とは
今回紹介するBLIP-2は、新しい事前学習手法であり、Q-Formerというモジュールを画像エンコーダとLLMの間に設置し、Q-Formerのみを最適化することで効率的なファインチューニングを可能にしました。
BLIP-2のポイントは、主に2つあり、「学習可能パラメータの少なさ」と「LLMを利用した高精度な推論」です。
まず、学習可能パラメータが少ないと計算コストを削減できます。これにより、LLMのファインチューニングに膨大な計算コストがかかるという課題を解決することができ、LLMが効率的に画像情報を扱えるようになりました。また、LLMを推論に利用することができるため、画像を扱う推論タスクにて、高い精度を達成することができました。
次に、BLIP-2のモデル構造について説明していきます。
2. BLIP-2 の全体像とQ-Formerの構成
BLIP-2は、画像エンコーダとLLM、そしてそれらをつなぐQ-Former(+全結合層)で構成されています。Q-Formerは、学習可能なモジュールであり、凍結した(学習しない)画像エンコーダとLLMの橋渡しとなる役割です。画像エンコーダからの出力を、入力画像の解像度に依存せず、学習可能クエリに固定数の画像特徴として抽出することで、学習可能パラメータを削減しています。

次に、Q-Formerの構成について説明します。
Q-Formerは以下の図に示すように、画像トランスフォーマー\(Q_I\) と言語トランスフォーマー \(Q_T\)で構成されています。それぞれ標準的なTransformerモデルです。 画像トランスフォーマー \(Q_I\)は、学習可能クエリ系列 \(\mathbf{Q}\) を入力として受け取り、途中で画像エンコーダからの画像特徴を取り込み、最終的に出力系列 \(\mathbf{V}\)を算出します。言語トランスフォーマー \(Q_T\)は、入力文の埋め込み系列を受け取り、出力系列 \(\mathbf{H}\)を算出します。
学習可能クエリ \(\mathbf{Q}\)は、モデルが画像の特徴をより効果的に取得するために導入された特別なトークンです。これは、通常のトークンとは異なり、モデルがトレーニングを通じて最適な形に調整できるパラメータとして扱われます。
具体的には、Q-Formerの画像トランスフォーマー \(Q_I\)は、この学習可能クエリ \(\mathbf{Q}\) を入力として受け取り、画像エンコーダが抽出した画像特徴を取り込みながら処理を進めます。これにより、画像の情報がクエリを通じて圧縮・要約され、最終的に出力系列 \(\mathbf{V}\)が生成されます。この出力系列 \(\mathbf{V}\)は、言語トランスフォーマーや他の下流タスクに利用され、画像の内容をより適切に理解するのに役立ちます。
一方、言語トランスフォーマー \(Q_T\)は、通常のテキスト処理と同様に、入力文の埋め込みを受け取り、それに基づいて出力系列\(\mathbf{H}\)を算出します。Q-Formerは、これらの2つのトランスフォーマーを橋渡しする役割を果たし、視覚情報とテキスト情報を効率的に統合できるように設計されています。

Q-Formerの構成は少し複雑なので、画像トランスフォーマー \(Q_I\)と言語トランスフォーマー \(Q_T\)の2つのサブモジュールで構成されており、それぞれが、出力系列 \(\mathbf{V}\)と出力系列 \(\mathbf{H}\)を算出することを覚えておいてください!
次の章では、Q-Formerを最適化する学習方法について説明していきます。
3. 学習の流れ
BLIP-2は、Q-Former以外の部分を凍結し(学習させない)、Q-Formerのみを2段階の学習によって最適化していきます。Q-Formerの最終目標は、自身を橋渡しとした画像エンコーダとLLMのアラインメント(異なる次元の情報を結びつけること)です。 そのため、最適化の第1段階として、Q-Formerと画像エンコーダのアラインメント、第2段階に、Q-FormerとLLMのアラインメントを行います。
以降では、最適化の各段階について詳しく説明していきます。
第1段階:Q-Formerと学習済み画像エンコーダのアラインメント
ここでは、画像・キャプションペアデータを用いて、Q-Former(学習可能クエリ \(\mathbf{Q}\))と画像エンコーダのアラインメントを行います。具体的には、画像テキスト対比学習(ITC)、画像に基づくテキスト生成(ITG)、画像テキストマッチング(ITM)の3つの最適化目標を設定することで、Q-Formerと学習可能クエリ \(\mathbf{Q}\)を最適化します。

画像テキスト対比学習(ITC)
ITC(Image-Text Contrastive Learning)は、画像とキャプションの意味が一致するように学習させる方法です。簡単に言うと、「画像」と「その説明文」がうまく結びつくようにAIをトレーニングする技術です。
具体的には、言語トランスフォーマー \(Q_T\)からの出力系列 \(\mathbf{H}\) 内のクラストークン \(h_{cls}\) (説明文の意味を捉えたトークン)と、画像トランスフォーマー \(Q_I\)からの出力系列 \(\mathbf{V}\)内の各ベクトル間の類似度を計算し、最も類似度の高いペアを正例とします。例えば、画像に2匹の猫が写っている場合、「Two cats lying down」というキャプションが対応する正しいペア(正例)となります。逆に、関連性の低いペア(負例)については、その類似度を小さくするように調整し、正例の類似度を高めることで、対比学習を行います。これにより、画像トランスフォーマー\(Q_I\)は視覚的な特徴を、言語トランスフォーマー\(Q_T\)は言語的な意味を適切に捉え、より正確な画像とテキストのマッチングが可能になります。
画像キャプション生成(ITG)
ITG(Image-Text Generation)は、画像トランスフォーマー \(Q_I\)が画像エンコーダから渡される画像情報を上手く学習可能クエリ \(\mathbf{Q}\)に取り込めるようにすることを目的としています。ITGでは、入力画像に基づいたテキストの生成を行います。具体的には、言語トランスフォーマー \(Q_T\)から出力された系列 \(\mathbf{Q}\)内の言語ベクトル \(\mathbf{h_i}\)の次単語を予測します。
ここで、言語トランスフォーマー \(Q_T\)は入力画像の情報を画像エンコーダから直接得ることができないため、学習可能クエリ\(\mathbf{Q}\)に取り込まれた画像情報を参考にするしかありません。そのため、最適化の過程で、学習可能クエリ\(\mathbf{Q}\) キャプション生成に必要な画像情報を上手く集約できるようになっていきます。
画像テキストマッチング(ITM)
ITM(Image-Text Matching)は、画像とその説明文(キャプション)が細かいレベルでどれだけ一致しているかを学習するための技術です。この仕組みによって、AIは画像とテキストの関係をより正確に理解できるようになります。
まず、画像の特徴を含んだ出力系列 \(\mathbf{V}\)内の各ベクトルに全結合層という計算処理を適用することで、対応度を表す「ロジット」という値を算出します。次に、得られたロジットをすべて平均し、そのスコアをもとに画像とキャプションが本当に対応しているかどうかを判定します。この判定は「対応している」か「対応していない」かの二択(2値分類)となります。
学習の過程では「ITM損失」と呼ばれる指標を用いて、AIがより正確に画像とテキストの関係を判断できるように調整します。この損失を計算する際には、テキストの入力部分(クエリ)とキャプションの間で「アテンション」という仕組みを活用し、それぞれの単語や画像の特徴がどの程度関連しているのかを考慮しながら学習を進めます。こうした仕組みによって、ITMは画像とテキストの関係をより精密に捉え、適切な組み合わせを見極められるようになります。
最適化の際にどのようなマスキングを行うかを詳しく知りたい方は、原論文を見てみてください!
原論文URL: https://proceedings.mlr.press/v202/li23q/li23q.pdf
第2段階:Q-FormerとLLMのアラインメント
ここでは、画像エンコーダと大規模言語モデルを凍結し、次単語予測を行うことで、Q-Formerと全結合層のパラメータを最適化します。
具体的には、まず、以下の図に示すように、Q-Formerの出力系列 \(\mathbf{V}\) を全結合層に通すことで、LLMの単語埋め込みの次元数 \(M\)に合わせた系列 \(\mathbf{Z}\)に変換します。その後、変換された系列 \(\mathbf{Z}\) と入力分の単語埋め込み系列と結合したものをLLMに入力とします。LLMは次単語を予測するため、正しい単語を予測できるよう、Q-Formerと全結合層のパラメータを最適化します。

4. BLIP-2 の性能
BLIP-2は、画像キャプションデータのみで学習されていますが、大規模言語モデルを搭載しているため、VQAや画像キャプション生成、画像付きの対話、画像・テキスト検索などの数多くのタスクをゼロショットで解くことができます。
以下にゼロショットでの様々な画像言語タスクの結果を示しています。
BLIP-2の学習可能パラメータ数は188Mで、他のモデルと比較してかなり少ないです。それにも関わらず、VQA、画像キャプション生成、画像・テキスト検索の3タスクにおいて、最も優れた精度を達成していることがわかります。

また、BLIP-2を用いて、画像付きの対話を行った例をいくつか紹介します。
まず、画像についての事実知識を問う質問に対する結果です。
BLIP-2は、画像内の物体、景色に対して、事実知識を交えた文章の生成が可能です。

また、以下のように、画像に関する対話をすることも可能であり、画像内のおかしな点や、画像内の人物の感情とその理由まで推論することが可能です。これらは、大規模言語モデルの汎用性を画像タスクに上手く活用している例と言えます。

5. まとめ
今回の記事では、「BLIP-2」を紹介しました!
BLIP-2は、画像エンコーダと大規模言語モデル(LLM)を接続するモジュール「Q-Former」を活用し、効率的なファインチューニングを実現する新しい事前学習手法です。Q-Formerのみを最適化する2段階の学習プロセスにより、少ないパラメータで高い性能を達成。画像キャプション生成やVQAなど、ゼロショットで多様な画像言語タスクに対応できる革新的なモデルです。
参考文献
Li, Junnan, et al. “Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models.” International conference on machine learning. PMLR, 2023.
菅沼雅徳. 画像認識の基礎. オーム社, 2024.



