12月12日のニュースによると、テスラとスペースXのイーロン・マスクCEOが所有する人工知能スタートアップxAIが最近チャットロボットGrokをリリースしたが、何か問題があったようだ。金曜日、セキュリティテスターのジャックス・ウィンターボーン氏がソーシャルメディアプラットフォームにスクリーンショットを投稿した。

Grok は OpenAI によって開発されたものではなく、両社は依然として競合関係にあるため、これは人々の好奇心を呼び起こしました。


さらに興味深いのは、xAI の人々が、この動作が AI モデルで発生したことを否定しなかったことです。 Igor Babuschkin 氏は返信の中で次のように書いています。「問題は、私たちが Grok をトレーニングしていたときに、ネットワークが ChatGPT 出力でいっぱいで、その一部を誤って使用したことです。私たちも、最初にこの問題に気づいたときは非常に驚きました。とにかく、この問題は非常にまれであり、認識した以上、Grok の将来のバージョンではこの問題が発生しないようにします。心配しないでください。Grok の開発には OpenAI コードは使用されていません。」

Babushkin への返信として、Winterbourne 氏は次のように書いています。「ご返信ありがとうございます。このような状況は珍しいことではなく、コード作成に関しては頻繁に起こります。とはいえ、これ以上の議論は大規模言語モデルと人工知能を専門とする人々に任せます。結局のところ、私は単なる素人です。」

しかし、多くの専門家にとって、バブシキン氏の説明は説得力に欠けるようだった。大規模な言語モデルは通常、トレーニング データをそのまま吐き出すことはなく、Grok がたまたまオンラインで OpenAI のポリシーについて言及したとしても理解できます。 OpenAI ポリシーに基づいて応答を拒否するには、専門的なトレーニングが必要になる場合があります。この問題が発生する最も可能性の高い理由は、Grok が OpenAI の大規模言語モデルの出力データを微調整したことです。

AI 研究者の Simon Willison 氏はインタビューで次のように述べています。「これについては少し懐疑的です。インターネットに ChatGPT で生成されたコンテンツが溢れているからといって、Grok がこのように動作するのでしょうか? HuggingFace 上の多くのオープンウェイト モデルが同じ動作を示しているのを見てきました。ChatGPT も同じです。これは、これらのモデルが OpenAIAPI を使用して生成されたデータセット、または ChatGPT 自体によって生成されたデータセットを使用して微調整されているためです。ネットワーク データに基づく事故ではなく、Grok が ChatGPT 出力を含むデータセットに調整されている可能性が高いと思います。」

OpenAI の大規模言語モデルがますます強力になるにつれて、一部の人工知能プロジェクト (特にオープンソース プロジェクト) では、他の大規模言語モデルによって生成された合成データを使用して、独自の人工知能モデルの出力を微調整することがますます一般的になってきました。 AI モデルの動作を微調整すると、最初のトレーニング実行後のコーディング機能の向上など、特定の目的に役立ちます。今年 3 月、スタンフォード大学の研究者グループが、OpenAI の GPT-3 モデル (Text-DaVinci-003 という名前) の出力を使用して命令追跡を微調整したことで物議を醸しました。

オンラインでは、研究者が ChatGPT の出力から収集したいくつかのオープン ソース データセットを簡単に見つけることができます。したがって、xAI は、特定の目標を達成するために、データセットの 1 つを使用して Grok を微調整した可能性があります。この手法は非常に一般的であるため、百科事典風のライフ ガイド Web サイト WikiHow には、「ChatGPT を使用してデータ セットを作成する方法」というタイトルの記事さえあります。

これは、人々が紙と鉛筆の図面よりも複雑なマイクロプロセッサを設計するためにマイクロコンピュータを使用し始めたのと同じように、人工知能ツールを使用してより複雑な人工知能ツールを構築する将来の 1 つの方法です。ただし、xAI はトレーニング データをより慎重にフィルタリングすることで、将来これを回避できる可能性があります。

他人の作品を借用することは機械学習コミュニティでは一般的かもしれないが(これは通常、利用規約に違反するが)、この事件はOpenAIとxAIの間の競争を激化させ、その起源はマスク氏の過去のOpenAI批判にまで遡る。 Grok が OpenAI モデル データを借用する可能性があるというニュースが広がると、ChatGPT の公式アカウントは、「私たちには多くの共通点がある」とウィンターボーンの投稿を引用して xAI を嘲笑する投稿まで投稿しました。マスク氏は「あなたはこのプラットフォームからすべてのトレーニングデータを収集しているのですから、それを知っているはずです!」と反撃した。