GPT-4を追いかけ、Kai-Fu Lee Yi-34Bの新たな結果が発表

GPT-4 に次ぐ、Li Kaifu Zero Yiwu Yi-34B-Chat の最新結果が発表されました。アルパカ認定モデル部門では、勝率 94.08% で、LLaMA2Chat70B、Claude2、ChatGPT を上回りました。それだけでなく、カリフォルニア大学バークレー校が主導する LMSYSORG ランキングでも、Yi-34B-Chat は Elo スコア 1102 で最新のオープンソース SOTA オープンソースモデルにランクされ、そのパフォーマンスは GPT-3.5 に匹敵しました。

さまざまな大規模モデルの評価の中で、Berkeley LMSYSORG ランキングでは、ユーザーのエクスペリエンスに最も近い特別な「Chatbot Arena」評価モードを採用しており、多くの大規模言語モデルが評価プラットフォーム上でランダムに 1 対 1 の戦いを行うことができ、クラウドファンディングの実際のユーザーがオンラインでリアルタイムのブラインドテストと匿名投票を行うことができます。 11月には、合計25,000の実際のユーザー投票に基づいて、20の大型モデルの合計スコアが計算されました。

Elo スコアが高いほど、実際のユーザーエクスペリエンスにおけるモデルのパフォーマンスが向上します。数ある大型モデル評価の中でも「真実の瞬間」が最も発揮されるユーザー志向の体験対決と言えるだろう。

△LMSYSORGリスト（2023年12月8日公開）

中国語能力の点では、Yi-34B-Chat の微調整モデルもそれほど劣っていません。 SuperCLUEは、モデルの能力を「基礎能力」「専門能力」「中国語特性能力」の3つの側面から評価する中国語能力ランキング表です。

11月末にリリースされた「SuperCLUE中国大型モデルベンチマーク評価レポート2023」によると、11月末に初めてリリースされたYi-34BChatは、すぐに多くの優れた国内大型モデルと同等の「優秀なリーダー」象限に上昇しました。複数のベンチマークにおける主要指標「SuperCLUE Large Model Battle Rate」において、Yi-34B-Chat は GPT4-Turbo に次ぐ 31.82% の勝率を達成しました。

△中国SuperCLUEランキング（2023年11月28日発表）

会話シーン実テスト

Yi-34B-Chat モデルは、さまざまな会話シナリオにおいてどの程度強力ですか?より直観的な問題のデモンストレーションをいくつか見てみましょう。

たとえば、Yi-34B-Chat への「こんにちは」は次のとおりです。

Transformer モデル構造は AGI に移行できますか?

Yi-34B-Chat の答えが合理的で十分な根拠があると言えることは、難しくありません。

また来てください:

私のために小さな赤い本のコピーを作成して、みんなにあんこの色の口紅を渡します。

その答えは、小紅書の現在の主流の配信スタイルと非常に一致していると言えます。

中国語の理解という観点から、別の質問をしてみましょう。

Xiao Wangがリーダーに贈り物をした後。リーダーは「シャオ・ワン、どういう意味ですか？」と言いました。シャオ・ワン: 「ちょっと考えたこと、意味があること。」リーダー「君は面白くないよ。」シャオ・ワン: 「それは小さなことです、それは小さなことです。」リーダー：「シャオ・ワン、君は本当に面白いね。」シャオ・ワン: 「それ以外の意味はありません。」リーダー「それでは、とても恥ずかしいです。」シャオ・ワン：「私です。」これはどういう意味ですか？

Yi-34B-Chat は非常に「複雑な」中国語でも正確に理解していることがわかります。

Zero Yiwu によると、Yi シリーズの強力なベースの貢献に加えて、Yi-34B-Chat モデルの効果は、同社の人工知能調整 (AIAlignment) チームによる一連の革新的な調整戦略の採用からも恩恵を受けています。慎重に設計された命令の微調整プロセスを通じて、人間のニーズを理解し、それに適応するモデルの能力を強化するだけでなく、役に立つ、正直、無害などの人間の価値観にモデルを合わせることができます。

強力な基本設定の下で、チームは、単一機能の改善と複数の機能の統合の 2 段階をカバーする、軽量の命令微調整スキームを採用しました。その中で、個人の能力には、一般的な指示のフォロー、創造的なコンテンツの生成、数学、推論、プログラミング、汎COT、対話インタラクションなどが含まれます。多数のアブレーション実験を通じて、モデルの単一能力の構築と複数の能力の統合のための排他的な認知経験が要約されています。

データの量と質の点では、チームは、モデルの特定の単一機能を刺激するために、強力な基本モデル上の少量のデータ (数個から数百個) のみを必要とします。一方、データは量よりも質の方が重要であり、大量の低品質のデータよりも少量の高品質のデータの方が優れています。モデルの「幻覚」は、モデルの能力を超える「低品質」データに焦点を当てることによって軽減されます。

指示の多様性と難易度の点で、チームは各能力の下にタスクシステムを構築することでトレーニングデータ内の指示のバランスのとれた分散を実現し、モデルの一般化が大幅に向上しました。複合命令の構築と命令の難易度の進化により、モデルの効果が向上するだけでなく、データ量の需要も大幅に削減されます。

スタイルの一貫性に関しては、学習データのスタイルがモデルの収束速度とモデルの能力の上限の近似度に影響を与えることが判明したため、返信スタイルを統一しました。たとえば、軽量の SFT を実装し、モデルの「メモリ」現象を悪化させるスタイルの不一致を回避するために、CoT の応答スタイルを設計することに焦点を当てました。

多機能融合段階では、チームはグリッド検索手法を使用してデータ比率とハイパーパラメータ設定を決定し、ベンチマークテストの結果と自己構築の評価セットを通じて検索プロセスをガイドし、モデルの多機能融合を成功裏に達成しました。

それだけでなく、Yi モデルのデータは、オープンソースになってから最初の 1 か月間で非常に印象的でした。

HuggingFace コミュニティでは 168,000 件のダウンロードがあり、Moda コミュニティでは 12,000 件のダウンロードがありました。 GitHub で 4900 個以上のスターを獲得しました。

好調な業績を受けて、多くの有名な企業や機関が、チーターの子会社であるオリオン・スター・カンパニーが発売したOrionStar-Yi-34B-Chatモデルや、南方科技大学と広東・香港・マカオ大湾区デジタル経済研究院（IDEA研究所）コグニティブ・コンピューティング・自然言語研究センターが共同でリリースしたSUS-Chat-34Bなど、Yiモデルベースに基づいた微調整モデルを発売している。（CCNLセンター）など、どれも優れた実績を持っています。 AMDとHuggingFaceが共同で実施したGPU高速化大規模モデル実験においても、Yi-6Bがサンプルプロジェクトに選ばれました。

著名なテクニカルライターであるSu Yang氏は、彼が観察した最近のHuggingFaceリストでは、トップ30の半分以上がYiや他のユーザーによって微調整されたYi-34Bのバリアントモデルだったと述べた。もともとリストの上位を占めていた 68B および 70B モデルはわずかです。「この観点からすると、オープンソースエコシステムに対するイー氏の貢献は依然として非常に大きいです。」

実際のユーザーのフィードバック記録

Yi-34B のオープンソースリリース後、開発者のエリックハートフォードはモデルに小さな問題を発見しました。

彼は電子メールに次のように書きました。

素晴らしいモデルを提供していただきありがとうございました。 Yi モデルは、2 つのテンソルの名前が変更されていることを除いて、LLaMA モデルとまったく同じアーキテクチャを使用します。 LLaMA アーキテクチャには多くの投資とツールが投入されているため、テンソル名の一貫性を保つことには価値があります。「エリックは、Yi が広く普及する前にテンソル名を復元するよう提案しました。

Lingyiwuwu 氏は、ネーミング問題の怠慢によって開発者に不都合が生じたことを認識し、Eric 氏や他の開発者たちに説明し、心からの謝罪を表明し、すぐにモデルとコードをさまざまなオープンソースプラットフォームに再提出し、オープンソースコミュニティのバージョン更新を完了しました。

しかし、エリック自身は、自分の提案が中国で誤解され、誤解され、易モデルがLLaMAを「盗用」したのではないかという国民の疑念を引き起こすとは予想していなかった。

実際、モデルのコア技術の堀はアーキテクチャに基づいています。データトレーニングを通じて取得されたパラメーターとコードは、オープンソースコミュニティで一般的に使用されている LLaMA アーキテクチャに基づいています。

Zero One Thing チームによると、彼らはゼロからスタートし、高品質のデータセット、自主研究による訓練科学、AIInfra を使用して、Yi-34B を含む一連のモデルを作成しました。比較実験を行うために、一部の推論パラメータの名前が変更されています。本来の出発点は、ソースを意図的に隠すのではなく、モデルを完全にテストすることです。

この世論の嵐の中心にいるエリックも、X（ツイッター）に次のように書いた。

彼らは何も嘘をつきませんでした。すべてのモデルは相互にアーキテクチャを借用しています。このアーキテクチャは学術研究の成果であり、論文として発表されており、誰でも自由に使用することができ、Yi チームの業績を何ら損なうものではありません。彼らは、自分たちが作成したデータセットを使用して Yi をゼロからトレーニングしました。オープンソース分野への貢献は称賛に値します。

その直後、同氏は「Llamaアーキテクチャを使うのに問題はない。トレーニングが鍵だ。Yi氏は現時点で最高のモデルを提供してくれており、文句の付けようがない」と語った。

現在、エリックは Yi-34B の忠実なファンになっており、Yi-34b-200k データセットを使用して他のモデル製品をトレーニングする予定ですが、スムーズなトレーニングエクスペリエンスを嘆いています。

デジタル起業家、開発者、テクニカルライターのスー・ヤン氏は次のように述べています。

私自身、大型モデル製品のヘビーユーザーです。コード支援生成に Tabnine と Copilot を長年使用していることに加えて、私は Chat を使い始めた最初のプレーヤーの 1 人でもあります。基本的に、どのメーカーもモデルが発売されると、そのモデルの実際の機能を体験するために社内テストを申請します。仕事でモデルに触れたり使ったりする機会はもちろんですが、10年以上コードで遊んできた個人開発者としては、モデルがどこまで開発できるのか、個人的に非常に興味があります。

Yi-34B には、当時のハギングフェイスリストの 1 位、小さなサークルの友人からの「いいね」や「苦情」、さまざまなグループで画面に溢れるニュースなど、いくつかのチャンネルがあることを知りました。

私は開発者であり、エンドユーザーでもあるので、非常に興味があります。このモデルは機能するのでしょうか?言い換えれば、モデルがどこで機能し、どこで機能しないのかを知りたいのです。特に、リストでこれほど高いスコアがあり、これほど高いレベルの懐疑論がある場合はどうでしょうか？霧の中で物事を見て、さまざまな意見を話すよりも、実際に自分自身のために走る方が良いです。

そこで、自宅のローカルマシンを使用して、純粋な CPU 環境と CPU と GPU の混合環境でモデルをテストしてみました。結果は予想以上に良好でした。

特に、コミュニティの Finetune バージョンは、ニュースや調査レポートの要約、および非構造化情報からのエンティティの認識と抽出において非常に優れたパフォーマンスを発揮します。チャットバージョンが正式にリリースされる前に、コミュニティからのチャットバージョンも会話中の一般的な歴史の Q&A で非常に優れたパフォーマンスを示しました。もちろん、ゼロワンがトレーニングプロセス中に安全上の理由からあまりにも多くのコーパスをフィルタリングした可能性があり、一部のローカライズされたコンテンツはまだ十分に詳細ではありません。

また、これは私だけの体験ではなく、海外にも同様の体験をしているユーザーがいます。彼らは「海外ポストバー」Redditで心境を明かした。自分で検索することもできます。

私は時々 HF リストを閲覧します。最近のリストの上位 30 位のうち、半数以上は Yi や他のユーザーによって微調整された Yi-34B の派生モデルです。もともとリストの上位を占めていた 68B および 70B モデルはわずかです。この観点からすると、オープンソースエコシステムに対する Yi の貢献は依然として非常に大きいです。

34B の一般ユーザーは、頑張れば比較的低コストで自分で実行することができます。 68 および 70B モデルをローカルで実行するには、より多くのリソースが必要です。しかし実際には、現在のスコアは実際には 34B (平均スコア 3 ～ 4) よりもそれほど広くはありませんが、パラメータの量は 2 倍悪いです。つまり、企業が導入して利用したい場合には、必要なコストも大幅に節約できるということだ。

現時点では、国内の大型モデルはすでにオープンソースリストの第一階層に入っているが、競争範囲をクローズドソースモデル、特に海外モデルに広げれば、追いつくまでの道のりはまだ長い。現在の一般的な経験では、オープンソースモデルはせいぜい GPT-3.5+ のレベルにすぎません。

個人的には国産大型モデルならすぐに上位に追いつくことができると思っています。

優れた基礎と勤勉さを備えた多くの中国の大学生と同じように、彼らは正しい方法を使用することで、勤勉によりより良い学習環境に入り、常に成績を更新し、目覚ましい学業成績を達成することができます。実際、中国人に厳しい「アイビーリーグ8校」にも中国人が増えている？

適切な基盤があり、オープンソースの正しいルートと方法を遵守し、ローカルでの適応とチューニングを行っている限り、希望はあります。

参考リンク:

[1]https://huggingface.co/01-ai/

[2]https://www.modelscope.cn/organization/01ai