モデルのパラメータ数

　近年大規模言語モデルのパラメータ数が莫大に増え続け、さらに大きな規模のモデルの開発が進んでいます。スケーリング則によるとパラメータ数の上昇はモデルの性能の向上につながります。

　言語モデルは 2017年のTransformer の登場をきっかけに大規模化がされるようになり、大規模化がおこなわれ、大規模言語モデル(LLM)が登場するようになりました。その後2020年にGPT-3が登場するまでは100 billion(1000億)程度のモデルが作られてきましたが、GPT-3登場後、急激に開発されるモデルのパラメータの数が上昇していきます。

　しかし、モデルのパラメータを増やすことで計算コストが大きくなっていくという問題もあります。この問題に対して、いくつかの解決の方針が検討されていますが、代表的な解決方針として

Attention機構の工夫
Attentionを用いないアーキテクチャの開発
計算コストを変えずにパラメータを増やす

などがあります。

　まず、1つ目と2つ目に関して、大規模言語モデルはTransformerを元に作られているという前提があります。その中の Attention という機構が重要なのですが、この機構を工夫し変える、または、Attentionを用いない手法を用います。Attentionを工夫したものとして Sparse Transformer やFlashAttentionなどがあります。Attentionを用いない手法としてAttention Free Transformer などがあります。

　最後の、計算コストを変えずにパラメータを増やす手法の例として、混合エキスパート(MOE)などがあります。

👉より体系的に学びたい方は「人工知能基礎」（東京大学松尾豊先生監修）へ

LLMにおけるモデルのパラメータ数に関して正しいものを選べ

1. 近年モデルのパラメータはスケーリング則によって減少傾させる方向に進んでいる。
2. モデルのパラメータ数の上昇による計算コストの上昇の問題は解決された。
3. LLMは Transformer を元に開発が発展したが、Attention を用いていない。
4. スケーリング則に基づき、パラメータを増大する方向に開発が進んでいるが、パラメータ数の上昇は計算コストの上昇につながるため、計算コストを抑える技術が研究されている。

正解を見る

解説を見る
LLMはスケーリング則に基づき、パラメータを増大させる方向に開発が進んでいます。しかし、パラメータ数の上昇は計算コストの上昇につながるため、技術的に頭打ちになることが予想されています。そのため、計算コストをかけずにパラメータを増加させるなどの手法が模索されています。
👉G検定の受験対策は約1,000問収録の「G検定実践トレーニング」へ

G検定（G2024#5）全国模擬試験を開催

日本ディープラーニング協会（JDLA）による2024年9月開催の「G検定」（2024#5）を目指す方々向けのオンライン模擬試験です。G検定の最新シラバスに対応した問題が、分野ごとに幅広く出題されるため、本番さながらの体験が可能です。

人工知能基礎講座を提供中

人工知能の第一人者である東京大学の松尾豊教授が監修した人工知能基礎講座を受講してみませんか？人工知能の歴史から自然言語処理、機械学習、深層学習といった最先端のトピックやAIに関わる法律問題まで網羅しているので全てのビジネスパーソン・AIの初学者におすすめです。

サンプル動画

人工知能基礎講座はこちら↓

AI初学者・ビジネスパーソン向けのG検定対策講座

G検定受験前にトレーニングしたい方向けの問題集「G検定実践トレーニング」も提供中です。

zero to oneの「E資格」向け認定プログラム

日本ディープラーニング協会の実施するE資格の受験ならzero to oneの「E資格」向け認定プログラム (税込165,000円) をおすすめします。当講座は、東京大学大学院工学系研究科の松尾豊教授と東北大学大学院情報科学研究科の岡谷貴之教授が監修する実践的なプログラムとなっています。厚生労働省の教育訓練給付制度対象のE資格認定プログラムの中では最安値※となり、実質負担額49,500円～(支給割合70%の場合)で受講可能です。※2023年弊社調べ

G検定（AI・機械学習）用語集トップ

G検定（AI・機械学習）用語集

モデルのパラメータ数

G検定（G2024#5）全国模擬試験を開催

人工知能基礎講座を提供中

サンプル動画

AI初学者・ビジネスパーソン向けのG検定対策講座

zero to oneの「E資格」向け認定プログラム

関連ワード

特徴

動向