OpenAI、ニューヨーク・タイムズ紙を非難：ChatGPTが盗作_5iter.comを結論付けるよう意図的に誘導

OpenAIの反撃が近づいている。ニューヨーク・タイムズが起こした史上最も注目を集めた侵害訴訟に対して、OpenAI は自社の立場を表明する長い記事を掲載した。この記事は、「訴訟全体には根拠がない」と直接述べ、ニューヨーク・タイムズ紙は次のように指摘した。

ChatGPTを意図的に誘導した疑いあり

情報を隠蔽し、全容を語らない

OpenAI からの全体的な見解は次のとおりです。

(1) 著作権で保護されたデータをトレーニングに使用することは合理的です。これらがなければ、今日世界で最も先進的なモデルはどこから来るのでしょうか?

(2) トレーニングを受けたくない場合はどうすればよいですか?退出できます。また、ニューヨークタイムズなどの単一のデータソースが存在しないことも、モデルのパフォーマンスに大きな影響を与えません。

そのニュースが流れるとすぐに、メロンを食べていた群衆がまたすぐに集まり、口論になった。

OpenAI の直接の「エビ豚の心臓」をサポート:

ニューヨーク・タイムズがトレーニング・データ・セットから撤退することで、実際にはモデル出力の品質が向上します (Doge)

誰かがGPT-4モデルにどう思うかと尋ねると、AIは容赦なくニューヨーク・タイムズを嘲笑した。

Ng Enda も多くのことを雄弁に書いており、要約すると次のようになります。

私はニューヨーク・タイムズよりもOpenAIに共感します。後者が言及した全文盗用は RAG メカニズムによって引き起こされる可能性が高く、OpenAI がその抜け穴をふさいだことが測定されています。ニューヨーク・タイムズが実際にどれだけの損害を被ったかが疑問視されている。

しかし、反対するネットユーザーたちも容赦なく、鼻を直接指さして次のように叱責した。

OpenAIさん、二重基準が多すぎます。どのようなトレーニングが合理的であっても、それはあなたの利益を最大化するためのものです。

全てを語っていないのはあなたです。

OpenAI 固有の応答

まずはOpenAIの具体的な対応姿勢を4点見てみましょう。

1. 報道機関との協力に非常に意欲的

OpenAIは、技術設計プロセス中に報道機関をサポートするために熱心に取り組み、数十の関連報道機関と会い、彼らの懸念に耳を傾け、解決策を提供したと述べた。

その本来の目的は、健全なニュースエコシステムをサポートし、次のような相互利益を達成することです。

(1) 大量の公文書の分析や記事の翻訳など、時間のかかるタスクを行うジャーナリストを支援するために自社の製品を導入することで、編集者や記者は最終的に利益を得ることができます。

(2) 歴史的な非公開コンテンツをトレーニングすることで、AI モデルに世界の知識を教えます。

(3) ChatGPT 回答に属性情報を含むリアルタイムコンテンツを表示し、ニュース発行者と読者の間の接続を確立します。

2. トレーニングはフェアユースであり、終了メカニズムが提供されます。

OpenAIは以前、英国貴族院への提出文書で次のように警告していた。

私たちのモデルは、著作権で保護されたコンテンツに関するトレーニングがなければ機能しません。

OpenAIはここで、AIモデルのトレーニングにインターネットの公開資料を使用するのが合理的であり、それはクリエイターにとって公平であり、イノベーターにとって必要であり、国の競争力にとって極めて重要であると改めて述べた。

同氏はまた、この見解は米国の多くの団体や学者によって支持されているとも指摘した。欧州連合、日本、シンガポールなど、他の国や地域では、著作権で保護されたコンテンツのトレーニングを支援する法律さえあります。

しかし、話題は変わりました。 OpenAIは、「私たちにとって法的権利は善良な市民であることほど重要ではない」という原則に沿って、自社のAIモデルがこれらのWebサイトデータに再びアクセスすることを防ぐための簡単な終了プロセスを提供していると述べた。

報道によると、ニューヨーク・タイムズは2023年8月にこのメカニズムを採用し、OpenAIトレーニングから撤退したとのこと。

3. 「逆流」はまれなエラーです。ユーザーが意図的にそれを引き起こさないことを願っています。

いわゆる「逆流」とは、実際には、モデルの出力とトレーニングデータがまったく同じであることを指します。

ニューヨーク・タイムズは訴訟の中で、ChatGPTと通信社との驚くべき類似点を挙げた。

一部のネチズンはこの形式的な表現に「盗作ではないのか？」と不満を抱いた。

とにかく、OpenAI の説明は次のとおりです。

このまれなエラーは、トレーニングデータ内に特定のコンテンツが複数回出現する場合に発生しますが、これを防ぐための措置を講じています。

さらに、OpenAI はユーザーに次のことを具体的にアドバイスします。

責任を持って行動し、意図的にモデルを操作して吐き戻さないでください。これは当社のテクノロジーの不適切な使用であり、利用規約の違反でもあります。

しかし、マーカス氏とデジタルイラストレーターは数日前に共同で記事を書き、DALL-E3を含むAIモデルが明示的なプロンプトなしでどのように「データを逆流」したか、つまり既存の作品のシーンと明らかに類似した写真やその他のコンテンツを与える様子をリストした。

そしてこのことが、OpenAIの声明をいくぶん矛盾させている。

最後に、この段落の最後で、OpenAI は次のようにも述べています。

モデルは人間の知識の膨大なコレクションから学習するため、1 種類のデータ (ニュースを含む) はトレーニングデータ全体のほんの一部にすぎず、単一のデータソース (ニューヨークタイムズを含む) はモデルの知識学習にとって重要ではありません。

4. 一部始終が隠蔽されており、訴訟を受けて驚き、残念に思いました。

OpenAIは昨年12月19日、ソースのリアルタイム表示や回答のジャンプなど、ニューヨーク・タイムズとの交渉で実際に建設的な進展があったことを明らかにし、ニューヨーク・タイムズに次のように説明した。

単一のソースと同様に、あなたのコンテンツは既存のモデルのトレーニングに有意義な貢献をしておらず、将来のトレーニングに十分な影響を与えません。

しかし、OpenAIは、12月27日に直接訴訟されるとは予想しておらず、ニューヨーク・タイムズを通じて初めて知ったと述べ、全体の雰囲気は驚きと失望の1つだった。

ここでOpenAIは、ニューヨーク・タイムズが指摘した「逆流」状況（つまり、ニューヨーク・タイムズニュースの逐語録に回答）について、この問題の解決に向けて懸命に努力し、誠意を示したと指摘した。彼らは後者に例を共有するよう求めたが、繰り返し拒否された。

さらに興味深いのは、いわゆる「逆流」コンテンツが、実際には何年も前に複数のサードパーティ Web サイトで広く配布された記事 (つまり、ニューヨークタイムズからのものではない) であることを OpenAI が発見したことです。

そして、ニューヨーク・タイムズは、モデルを「騙す」ために原文の大きな段落を挿入するなど、プロンプトの言葉を意図的に操作した疑いがあるかもしれない。

OpenAIは、自社の運用によれば、このモデルはニューヨーク・タイムズが示したほど誇張されたものではないと述べた。

これは、彼らがモデルを意図的に導いたか、慎重に選択したことを示しています。

上記に基づいて、OpenAI は次のように考えています。

ニューヨーク・タイムズの訴訟には理由がない。

ただし、優しいシーンもあります。

私たちは、60 年前に最初に機能するニューラルネットワークを報告した同社とのパートナーシップを今でも望んでいます。

レビュー

昨年 12 月 27 日、ニューヨークタイムズは突然地方裁判所に嘆願書と 22 万ページに及ぶ添付ファイルを提出し、OpenAI、そしてもちろん Microsoft を侵害で訴えました。

訴状では、ニューヨーク・タイムズの記事は、GPTを訓練するためにCommonCrawlで使用される最大の単一独自データセットを構成していると述べられている。

これに基づいて、彼らはChatGPTの出力内容がニューヨーク・タイムズのニュース内容とほぼ同一であるという反駁できない証拠を100件も発見した。

そして、時々、幻覚の問題により、モデルはニューヨーク・タイムズの名において「噂を広め」、オレンジジュースがリンパ腫を引き起こす可能性があるなどのフェイクニュースを生み出し、それが評判にも問題を引き起こすこともあります。

この点に関して、ニューヨーク・タイムズ紙は次のように訴えています。

OpenAIとマイクロソフトは、侵害素材を含むモデルとトレーニングデータを破棄し、ニューヨーク・タイムズのユニークで価値のある著作物の違法コピーと使用に関連した「数十億ドルの法的および実際の損害賠償」の責任を負うことを求められている。

十分な証拠と強力な弁護士チームのおかげで、ネチズンはこれを「AI侵害を目撃した画期的な事件」「以前の他の出版社の場合のように却下することはもうできないのではないか」と呼んだ。

ニューヨーク・タイムズは昨年4月にOpenAIと交渉したが合意に至らず、OpenAIは合意に達することを拒否したことがわかっている。

その理由は、特に OpenAI の利益の成長と同様の事件の増加を考慮すると、その金額が膨大である可能性があります。

乱暴な推測では、OpenAI は 7 ～ 8 桁（数百万ドル/1,000 万ドル）の金額でこの問題を解決したいのかもしれないが、ニューヨーク・タイムズが追求しているのはより高い報酬と継続的なロイヤルティ収入である。

追伸OpenAI の年間収益は約 16 億米ドルで、認定された記事やトレーニング用資料の購入に年間で費やされる金額は 100 万米ドルから 500 万米ドルの間です。

今回はネチズンの立場は？

一部のネチズンは、この訴訟の鍵は「トレーニングがフェアユースであるかどうか」であると指摘しており、同氏は次のように考えている。

モデルの出力は侵害している可能性がありますが、入力は侵害していません。

しかし、ある人は皮肉を込めてこう言いました。

何十億ドルも持っていると、すべてがフェアユースになります。

次のように提案する人もいます。

フェアユースに同意しますが、オープンソースである場合に限ります。

そして別の誰かがこう言いました。

非営利団体を強調することは非常に重要です。

さらに、ライターとネチズンは、OpenAI が提案した終了メカニズムに不満を表明し、多くの支持を得ました。

オプトアウトしてモデルが私の個人的なウェブサイトを閲覧できないようにするだけでは十分ではありません。また、再確認してトレーニングデータから私のコンテンツを完全に削除する必要もあります。

どうやって終わるのでしょうか？

調査によると、回答者の 59% が、人工知能企業がモデルのトレーニングにパブリッシャーのコンテンツを使用することを許可されるべきではないと考えています。

また70％は、企業がモデルトレーニングに著作権で保護された素材を使用したい場合、出版社に補償すべきだと回答した。

世論はニューヨーク・タイムズ側にあるようだ。

この事件はどのように判断されるべきだと思いますか?

参考リンク:

[1]https://openai.com/blog/openai-and-journalism

[2]https://x.com/OpenAI/status/1744419710635229424?s=20

[3]https://www.ft.com/content/04861d1e-2e9f-4b92-a294-8d0c223a8287

[4]https://techcrunch.com/2024/01/08/openai-claims-ny-times-copyright-lawsuit-is-without-merit/

[5]https://www.theregister.com/2024/01/08/midjourney_openai_copyright/

[6]https://x.com/AndrewYNg/status/1744433663969022090?s=20

[7]https://x.com/futuristflower/status/1744422698636218807?s=20