大規模言語モデル (LLM) に関しては、モデルが実行される場所に影響を与えるため、スケールは確かに重要です。安定拡散によるテキストから画像への生成人工知能テクノロジーで知られるメーカーである StabilityAI は、本日、これまでで最小のモデルの 1 つである StableLM21.6B をリリースしました。
StableLM は、Stable AI が 2023 年 4 月に初めてリリースしたテキスト コンテンツ生成 LLM で、30 億と 70 億のパラメーター モデルを備えています。新しい StableLM モデルは、実際には、StabilityAI が今週初めに StableCode3B をリリースした後、2024 年にリリースされる 2 番目のモデルです。
新しい StableLM モデルはコンパクトかつ強力で、より多くの開発者が生成 AI エコシステムに参加し、英語、スペイン語、ドイツ語、イタリア語、フランス語、ポルトガル語、オランダ語の 7 言語の多言語データを組み込めるよう、参入障壁を下げるように設計されています。このモデルは、言語モデリングにおける最新のアルゴリズムの進歩を活用して、StabilityAI が求める速度とパフォーマンスの最適なバランスを実現します。
StabilityAIの言語チーム責任者、カルロス・リケルメ氏はVentureBeatに次のように語った。「一般に、同様のデータに対して同様のトレーニングレシピでトレーニングされた大規模なモデルは、小規模なモデルよりもパフォーマンスが向上する傾向があります。しかし、時間の経過とともに、新しいモデルがより優れたアルゴリズムを実装し、より多くのより高品質なデータでトレーニングできるようになったことで、最近の小規模なモデルが古い大規模なモデルよりも優れたパフォーマンスを発揮することがあります。」
StabilityAI によると、このモデルは、Microsoft の Phi-2 (27 億)、TinyLlama1.1B、Falcon1B など、ほとんどのベンチマークでパラメーターが 20 億未満の他の小規模言語モデルよりも優れたパフォーマンスを示します。新しい小型の StableLM は、StabilityAI の以前の StableLM3B モデルなど、一部の大型モデルよりも優れたパフォーマンスを発揮します。
リケルメ氏は、「StableLM21.6B。数カ月前にトレーニングした一部の大型モデルよりも優れたパフォーマンスを示している。コンピューター、テレビ、マイクロチップでも同様の傾向があり、時間の経過とともに小型化、薄型化、高性能化が進んでいると考えてほしい。」と述べた。
明確にしておきますが、小型の StableLM21.6B には、サイズが小さいためにいくつかの欠点があります。小型で低容量の言語モデルの性質により、StableLM21.6B では、高い幻覚率や潜在的に有害な言語など、いくつかの一般的な問題が発生する可能性があります。
過去数か月にわたって、StabilityAI はより小規模で強力な LLM オプションの開発に取り組んできました。 2023年12月には、4月に発売した初期モデルよりも小型で高性能なStableLMZephyr3Bモデルを発売しました。
新しい StableLM2 モデルは、英語に加えて 6 か国語 (スペイン語、ドイツ語、イタリア語、フランス語、ポルトガル語、オランダ語) の多言語ドキュメントを含む、より多くのデータでトレーニングされています。リケルメ氏が強調したもう 1 つの興味深い側面は、トレーニング中にデータがモデルに提示される順序です。彼は、トレーニングのさまざまな段階でさまざまな種類のデータに焦点を当てることが有益である可能性があると指摘しています。
さらに一歩進んで、StabilityAI は、事前トレーニングおよび微調整オプションを備えた新しいモデルと、研究者が「...事前トレーニング クールダウン前の最後のモデル チェックポイント」と呼ぶ形式を提供しています。
「私たちの目標は、既存のモデルを革新し、適応させ、構築するためのより多くのツールとアーティファクトを個々の開発者に提供することです。ここでは、人々が使用できる具体的な半完成モデルを提供します」とリケルメ氏は述べています。
トレーニング プロセス中、モデルは順次更新され、パフォーマンスが向上します。この場合、最初のモデルは何も知りませんが、最後のモデルはほとんどのデータを消費しており、それを学習することが期待されています。同時に、モデルは学習を終了せざるを得なくなるため、トレーニングの終わりに近づくにつれて柔軟性が低下する可能性があります。
「私たちは、トレーニングの最終段階を開始する前に、モデルを現在の形式で利用できるようにすることにしました。そうすれば、人々が使いたいと思うかもしれない他のタスクやデータセットにモデルを特化させるのが容易になることを願っています」と彼は述べた。 「これがうまくいくかどうかは分かりませんが、私たちは人々が新しいツールやモデルを驚くべき方法で活用できる能力を信じています。」