システムパフォーマンス最適化分野のトップエキスパートブレンダン・グレッグ、OpenAIに参加したことを正式に発表しました。加入後、彼は加入するChatGPT パフォーマンス チーム、オーストラリアからリモートで勤務し、チームリーダーのジャスティン・ベッカーに直属します。

ブレンダンはとして知られています「パフォーマンスの神様」、彼の到着はOpenAIのブロックマン社長によって個人的に歓迎されました。

ブロックマンは長年ブレンダンのファンであるとさえ語った。

ブレンダンはどれほど素晴らしいですか?

彼の代表作「パフォーマンスの頂点」は、世界の大学やテクノロジー大手によって、パフォーマンス エンジニアリングに関する必読の教科書として長い間リストされてきました。

彼は有名なものも発明しましたフレームグラフ(Flame Graphs) を使用すると、プログラマーはヒート マップを見るように、CPU がどのようなビジー状態にあるのかを直感的に確認できます。

同時に、彼は Linux カーネルの中核技術でもあります。eBPFの主な推進者は、現代のクラウド コンピューティングのパフォーマンス分析ツールボックスを独力で構築しました...

ネチズンは、ブレンダンのこれらの作品は間違いなく次のレベルであるとコメントしました。

では、なぜこのようなテクノロジー大手がこのタイミングで OpenAI を選択したのでしょうか?彼自身もブログを使用して自分の見解や観察を説明しました。

ブレンダンのブログは彼が入社した理由を説明しています

ブレンダンが OpenAI に初めて参加したとき、彼は自分自身に厳しいルールを設定しました。

何でも、大規模に、そして今日それを実行してください。

何をするにしても、大規模に、そして今日それを実行してください。

いつでも戦える状態です。彼の意見では、この業界では、最適化とはスピードの追求です、同日に数千台のマシンで実行する必要があり、すぐに有効になる必要があります。

速度と規模に対するこの厳格な要件により、彼は巨大なコンピューティング能力のクラスターに常に注意を払う必要があります。たとえ隙間に少しの効率性を見つけたとしても、すぐに行動を起こし、決していい加減にしない必要があります。

そして、OpenAI の「制限エリアなし」環境は、彼にトラブルの余地を与えているだけです。OpenAI では、パフォーマンスを改善できる限り、変更が難しいエリアはないと考えられています。

もちろん、ブレンダン氏は、OpenAI が大きな舞台であることに加えて、AI 業界も彼の参加が緊急に必要であることにも気づきました。

彼にこの考えを持たせたのは、人生における現実的な出来事でした。

彼は、理容師、不動産業者、税理士、パートの養蜂家など、さまざまな職業の人が ChatGPT についてチャットしていることに気づきました。このことから彼は、AI が一般の人々が毎日使用するツールとなり、その背後にあるトラフィックが恐ろしく大きく、バックエンドにかかるプレッシャーが桁違いに増加していることに気づきました。

このような大量のトラフィックに直面すると、一般的なコンピューティングの時代に使用されていた古い方法は、現在ではまったく効果がありません。過去数十年、誰もが旧時代のハンマーを手に握りながら CPU とデータベースのチューニングに集中することに慣れていましたが、今私たちは何万もの GPU によって積み上げられたスーパー クラスターと複雑なニューラル ネットワークに直面しています。

古いツールボックスのツールでは新しいマシンを修復できません。新しい種類の大規模モデルのトレーニングに直面して、私たちはこれまでの経験を脇に置き、大規模モデルに特化した一連の新しいエンジニアリング手法を開発する必要があります。

だからこそ、彼は人生の半分を費やしてきた一般的なクラウド コンピューティングの分野を離れ、AI インフラストラクチャのハードコアな分野に飛び込んだのです。

彼がやりたいことは非常に具体的で、ChatGPT の背後にあるパフォーマンスのボトルネックを解決し、この高価なマシンが世界中の人々が使用しているときにも高速に回転できるようにすることです。

ブレンダンって誰ですか?

では、ブレンダンとはどのようなレジェンドなのでしょうか?

彼は現代のシステムパフォーマンスの分野における「決定的な針」であると言えます。彼は書いた「ピーク オブ パフォーマンス」と「BPF パフォーマンス ツール」、バックエンドまたは運用保守分野ではよく知られた名前です。

これら 2 つの傑作は世界的なテクノロジー界から標準とみなされており、最も困難なシステムのボトルネックを解決するために特別に使用されています。これらは標準的な参照回答であり、問​​題をトラブルシューティングするときの「最後の命を救うわら」です。

この 2 つの傑作を書いたブレンダンは、極限の戦闘環境で磨かれてきたベテランです。

Sun Microsystems と Joyent での 10 年以上の初期の頃 (2001 年から 2014 年)、彼はすでにDTraceツールキットの中心的な開発者である彼は、当時すでにダイナミック トラッキングの分野でベテランとしての地位を確立していました。

中期 (2014 年から 2022 年) に、シニア パフォーマンス アーキテクトとして Netflix に移りました。

当時、Netflix は世界最大のクラウド アーキテクチャの課題に直面していました。毎日、大量の同時リクエストと非常に複雑なマイクロサービス アーキテクチャに直面し、通常の規模では遭遇できないパフォーマンスの問題に対処していました。

最近、OpenAI に入社する前に、インテル フェローになりました。

このハードウェア大手の技術的な最高位にある彼は、ハードウェア PMU (パフォーマンス監視ユニット) から返される基礎となるデータをソフトウェア エンジニアが理解できるようにする方法という、長期的な課題の解決に焦点を当てました。

著作と履歴書に加えて、彼は業界全体の分析手法の発明者でもあります。

彼の発明の最も代表的なものの 1 つは、記事の冒頭で述べたものです。フレームグラフ

これまでは、CPU ホットスポットを分析するには、数万行の退屈なテキスト スタックを見つめることしかできず、非常に非効率でした。

彼はこのデータを直感的で視覚的かつインタラクティブな地図に変換しただけです。パフォーマンスのボトルネックがどこにあるとしても、一目でそれを特定して排除できます。

これでは十分ではありませんでした。バージョンアップ前後の性能差を比較するために、彼は次のように導いた。示差火炎図

CPU がどのような処理を行っているかを見つめるだけでなく、彼は特別にプロモーションも行いました。オフ CPU 分析この方法論は、I/O 待機によるプロセスの「速度低下」を引き起こす目に見えないキラーを捕捉するように特別に設計されており、従来の分析の死角を完全に埋めます。

さらに、Linux エコシステムで最も標準化されたシステムは現在、bcc と bpftraceツールセットも彼の長期的なメンテナンスと貢献です。

彼も開発しましたレイテンシーヒートマップ(レイテンシー ヒートマップ) は、平均によって隠蔽されたロングテール ジッターを明らかにするために使用され、混乱したトラブルシューティングをガイドするように設計されています。使用方法(使用率、飽和、エラー)。

つまり、ブレンダンは「システム診断」の形而上学をルールベースの科学に変えたのです。 USENIX LISA は、彼の長年にわたる実践的な功績を証明する最も権威ある賞である Outstanding Achievement Award を彼に授与しました。

もうひとつ

ブレンダンはブログの中で、自分の夢を実現するというプライベートなコンプレックスのために OpenAI への参加を選んだと述べています。

子供の頃、彼はイギリスのテレビ シリーズ「Blake's 7」の熱心なファンで、特にその中に登場する Orac と呼ばれるスーパーコンピューターに魅了されました。オラックは宇宙の他のコンピューターを制御できますが、とても短気でいつもイライラしています。

大学時代、ブレンダンは自分の Orac を構築したいと考えていましたが、当時のハードウェアは非常に貧弱で、完全な辞書をメモリに保存することさえできませんでした。コンピューターのセールスマンに笑われた後、この問題は立ち消えになった。

ChatGPTに出会うまでは。彼は、これが単に生きているオークであることを発見しました。

彼は、ChatGPT のカスタム コマンドを特別に変更して、Orac の「原始的な人々だけがそのような愚かな質問をするだろう」を模倣した傲慢な口調で彼に話しかけられるようにしました。

現在の彼にとって、OpenAI への参加は、実際には子供の頃の達成不可能な SF の夢を継続することになります。