Now Loading...

Now Loading...

GPT

GPTとは?

GPT(Generative Pretrained Transformer)とは、米国サンフランシスコの新興人工知能研究所であるOpenAIが開発し、人間のように自然な文章を生成することができる言語モデルです。1億1700万個のパラメータを持つ初期モデルのGPT-1が2018年6月にリリースされて以来、GPT-2, GPT-3, GPT-4など複数のバージョンが発表されています。

[参考] Transformerとは?

GPTは、Transformerと呼ばれるニューラルネットワーク構造を使用しているモデルなので、まずはTransformerの仕組みについてイメージを掴んでおきましょう。

上のイメージ図のように、Transformerにできることは、文章の空欄に入る単語を予測することです。この際、空欄より前の文脈を考慮し、空欄にはどのような単語がどれくらいの確率で入るかを予測します。上の例では、出現確率が65%と最も高い「baseball」という単語が、空欄に入る単語の最終的な予測として出力されるのです。

また、このような空欄補充のタスクを行うためには、その言語の文法や単語の意味をTransformerが事前に学習している必要がありますよね。その学習の際の重要なポイントについて、以下で簡単に説明します。

まずは、①Word Embeddingについてです。”baseball”や”use”といった各単語は、それぞれ特有の意味や品詞的役割を持ちます。これらを機械に理解できる形で表現するため、Transformerでは単語を数値で置き換えます。

②Positionについてですが、これは、それぞれの単語が文章の中のどの位置で登場するか(絶対的位置)と、他の単語との位置関係(相対的位置)の情報です。例えば、”bat”という単語には、「コウモリ」「(野球などの)バット」「破る、大破する」など様々な意味がありますが、上の2つの例文では”baseball”という単語の後ろに来ていることから、「(野球の)バット」の意で使われていると解ります。このようにTransformerでは、単語の位置も非常に重要な情報として考慮します。

③Attentionは、注目するべき単語のことです。上の2つの文において、”he”という指示代名詞が登場する位置が似通っていますが、その指し示す内容は異なります。1つ目の文では、”he”は”Dave”を指し、2つ目の文では、”he”は”his son”を指しますよね。文章の文法的構造を理解するには、単語の絶対的・相対的位置のみでは不十分なため、注目するべき単語の情報も学習する必要があるわけです。

Transformerの具体的な仕組みについては割愛しますが、

  1. 1. 単語を意味に基づいて数値で置き換え、
  2. 2. 単語の位置情報を考慮しながら、
  3. 3. 文法を学習していく

モデルだということを頭の片隅に入れておきましょう。

以下では、Transformerを用いたGPTについて実際に見ていきます。

GPTの仕組みは?

以下は、GPTの構造の模式図と、主な特徴です。

[画像] Alec Radford,Karthik Narasimhan,Tim Salimans,Ilya Sutskever 2018 Improving Language Understanding by Generative Pre-Training より引用

  • TransformerのDecoderをベースにしたモデルである。
  • 埋め込み層、12層のTransformer Decoder、出力層からなる。
  • BookCorpusと呼ばれる非常に大規模なテキストデータのコーパスで事前学習を行う。
  • ファインチューニングによって、文章の生成・要約・翻訳を始めあらゆるタスクに活用できます。
  • バージョン(GPT-1, GPT-2 など)によってパラメータ数が異なる。(下図参照)

GPTをより深く理解するために、そのベースになっているTransformerの仕組みや、同じくTransformerをベースにしたモデルであるBERT(Bidirectional Encoder Representations from Transformer)についても学習してみましょう。

GPTは何ができる?BERTとの違いは?

GPTはTransformerをベースにした言語モデルという点でBERTと似ているような気がしますが、それぞれの仕組みと得意なタスクには、以下のような違いがあります。

今話題沸騰中の”ChatGPT”とは?何がすごいの?

ChatGPTとは

2022年11月にOpenAIによって公開されたChatGPTは、非常に高度なAI技術によって、人間のような自然な対話をすることができる無料のAIチャットWEBサービスです。あらゆる質問に対して瞬時に生成される応答のクオリティの高さや人間らしさがたちまち話題となり、5日間という驚異のスピードでその全世界ユーザー数は100万人に達し、リリースから2ヶ月ほどでその数は1億人を突破しています。ユーザー数の100万人到達まで数ヶ月を要したInstagramやSpotifyといったその他の主要サービスと比較しても、ChatGPTの注目度がいかに高いかが伺えるでしょう。

ChatGPTにできること

ChatGPTはGPT-3をベースにしたモデルで、インターネット上にあるあらゆる情報を学習しています。そのため、歴史上の出来事や有名人のプロフィールに関するシンプルな質問への回答はもちろん、人間でも時間を要する複雑なタスクをも驚くべき完成度で推敲できます。以下に例をいくつか挙げます。

👉より体系的に学びたい方は「人工知能基礎」(東京大学松尾豊先生監修)へ

ChatGPTの課題・注意点

ChatGPTは、思わず本当に人間と対話しているような気になるほど自然な応答をしますが、その内容は現時点では必ずしも正確ではないという点には注意が必要です。これは、ChatGPTは過去にインターネット上に存在した情報を学習しているという事実に大きく影響されるでしょう。インターネット上には虚偽の情報も数多く存在する上、ChatGPTは、事実かどうかよりも単語の相互関係や出現確率を考慮して文章を生成します。よって、インターネット上にまだデータが少ない新しい情報の場合などは特に、生成された回答の内容が事実なのかどうかを確認することは重要です。

ですが、現在も開発は続いているので、今後益々精度が上がっていくことは期待できるでしょう。ChatGPTの実際の使い心地や精度が気になる方は、OpenAIの公式サイトでアカウントを作成し実際に使用してみましょう。

ChatGPTの商業利用例

ChatGPTの高いパフォーマンスは、人間の行うタスクを大幅に削減するポテンシャルがあるため、すでに事業活用されているケースがあります。以下に、その例を2つ紹介します。

非上場企業の事業内容の要約(QFINDR)

クレジット・プライシング・コーポレーション株式会社は、ChatGPTを利用して非上場企業の事業内容を集積・要約し、それを検索できる「QFINDR」というサービスを運営しています。

広告クリエイティブの自動生成(Omneky)

ジェネレーティブAI広告プラットフォームのOmnekyが提供する自動広告生成ツール「Creative Assistant」においても、画像やテキスト、音声といった多彩なコンテンツの自動生成にChatGPTが活用されています。

[参考] GPTについてもっと学びたい人へ

GPTについてより知りたい方向けに、以下にいくつかの主要な論文とその要約を記載します。

GPT-4 Technical Report

GPT-4は、入力される画像とテキストから、テキストの出力を生成する大規模なマルチモーダルモデルです。現実世界の多くのシナリオにおいてまだその能力は人間より低いものの、学術的な評価テストなどでは人間レベルのパフォーマンスを示しており、模擬司法試験に合格するなどの成果を上げています。GPT-4はTransformerベースのモデルであり、文書内の次のトークンを予測するために事前にトレーニングされています。事後調整プロセスにより、事実性や所望の振る舞いに対する遵守度の評価を向上させることができます。このプロジェクトの中心的なコンポーネントは、広範なスケールにわたって予測可能な動作をするインフラストラクチャと最適化方法の開発でした。これにより、GPT-4の1/1,000分のコンピュートしか使用していないモデルを使用して、GPT-4のパフォーマンスの一部を正確に予測することができました。

Language Models are Few-Shot Learners

最近の研究では、大規模なテキストコーパスでの事前学習と、特定のタスク向けのファインチューニングによって、多くのNLPタスクとベンチマークにおいて大きな進展が見られています。通常、アーキテクチャはタスクに依存しないものの、この方法には数千または数万のタスク特定の微調整データセットが必要です。これに対し、人間は一般的にわずかな例または単純な指示だけで新しい言語タスクを実行できますが、現在のNLPシステムはまだこれに苦労しています。ここでは、言語モデルのスケーリングがタスクに依存しないフューショットの性能を大幅に改善することを示します。先行研究の微調整アプローチと競合するレベルに達することもあります。具体的には、1750億のパラメータを持つオートレグレッシブ言語モデルであるGPT-3をトレーニングし、フューショットの環境でそのパフォーマンスをテストします。すべてのタスクにおいて、GPT-3は勾配の更新や微調整なしに適用され、タスクとフューショットデモンストレーションはモデルとのテキストインタラクションを通じて純粋に指定されます。GPT-3は、翻訳、質問応答、クローズタスクをはじめとする多数のNLPデータセットで強力なパフォーマンスを発揮し、また、単語のアンスクランブル、新しい単語を文に使う、3桁の算術を実行するなどのオンザフライの推論やドメイン適応が必要なタスクでも高い性能を示します。同時に、GPT-3のフューショット学習がまだ苦手なデータセットや、大規模なWebコーパスのトレーニングに関連する方法論的な問題があるデータセットも特定します。最後に、GPT-3は、人間の評価者が人間によって書かれた記事と区別がつかないようなニュース記事のサンプルを生成できることがわかります。

クイズ

OpenAIによって開発されたGPT(Generative Pretrained Transformer)について述べた文章のうち、最も不適切な選択肢を一つ選べ。
  • 正解を見る
  • 解説を見る
    OpenAIによって開発されたGPTはパラメータ数が1.1億にも及ぶ言語モデルです。このモデルは自然な文章を生成できる他、文章の類似度を推測するなど、自然言語分野においてかなり強力なモデルとなっています。言語モデルは以前にもELMoなどさまざま考案されています。現在、言語モデルはパラメータ数がさらに多くなっているGPT-2,3などが出現しており、gpt-3に関してはパラメータ数が1750億まで上昇しています。

    👉G検定の受験対策は約1,000問収録の「G検定実践トレーニング」へ

人工知能基礎講座を提供中

人工知能の第一人者である東京大学の松尾豊教授が監修した人工知能基礎講座を受講してみませんか? 人工知能の歴史から自然言語処理、機械学習、深層学習といった最先端のトピックやAIに関わる法律問題まで網羅しているので全てのビジネスパーソン・AIの初学者におすすめです。

サンプル動画

人工知能基礎講座はこちら↓ zero to one G検定 人工知能基礎 jdla

AI初学者・ビジネスパーソン向けのG検定対策講座

G検定受験前にトレーニングしたい方向けの問題集「G検定実践トレーニング」も提供中です。 zero to one E資格 jdla

zero to oneの「E資格」向け認定プログラム

日本ディープラーニング協会の実施するE資格の受験ならzero to oneの「E資格」向け認定プログラム (税込165,000円) をおすすめします。当講座は、東京大学大学院工学系研究科の松尾豊教授と東北大学大学院情報科学研究科の岡谷貴之教授が監修する実践的なプログラムとなっています。 厚生労働省の教育訓練給付制度対象のE資格認定プログラムの中では最安値※となり、実質負担額49,500円~(支給割合70%の場合)で受講可能です。※2023年弊社調べ zero to one E資格 jdla

関連ワード

ディープラーニングの手法

畳み込みニューラルネットワーク

深層生成モデル

画像認識分野

音声処理と自然言語処理分野

深層強化学習分野

モデルの解釈性とその対応

モデルの軽量化