3月16日夜、テスラのマスク最高経営責任者(CEO)はソーシャルプラットフォームで公の場で発言し、中国の人工知能企業キミのチームの最新技術成果を賞賛し、その成果は「印象的」であり、この国産大型モデルの最先端の研究が世間の注目を集めたと述べた。

技術論文が同時に公開されたため、著者リストで 1 位にランクされた Guangyu Chen がインターネット全体の注目を集めました。中心著者は実際には広東省深セン市の 17 歳の高校生でした。

論文の付録に記載されている情報によると、Chen Guangyu、Zhang Yu、Su Jianlin はいずれも同等の貢献を持つ共同筆頭著者であり、残りの 34 人の参加著者はこの資格をマークしていません。

その中で、Zhang Yu は Kim の効率的なモデル アーキテクチャの中心的な開発者であり、Su Jianlin は回転位置エンコーディング (RoPE) の提案者です。

言及する価値があるのは、Chen Guangyu 氏が AI の分野に深く関わってからまだ 1 年しか経っていないということです。初期段階では、独自に最先端の論文を学習したり、GitHub オープンソース プロジェクトを追跡したりすることで、AI の基礎知識と実践的な能力を短期間で完成させました。

昨年の夏、彼は 7 週間のインターンシップ体験を終えるためにサンフランシスコへ行きました。中国に帰国後、昨年11月にキミチームに加わり、インターンシップに参加した。

論文の発表後、Chen Guangyu 氏は友人のサークルに結果のレビューを投稿し、特に同様に貢献した 3 人の著者と、モデルの拡張とインフラストラクチャの構築を担当したチームの同僚について言及しました。彼は控えめな態度で「これはチームの努力であり、神ではない」と答えた。

報告によると、Kimi チームが発表したこの技術レポートは、深層学習の分野で 10 年近く使用されてきた伝統的な残差接続の破壊的再構築を実現するための新しいアテンション残差メカニズムを提案しています。

キミのイノベーションは、AI に「インテリジェント フィルター」をインストールすることに相当し、Transformer のアテンション メカニズムをモデルの深さの次元に移行することで、各レイヤーが以前は有用だった情報を動的にフィルターし、冗長性を減らし、伝送効率を向上させることができます。