パルクール、跳馬、バク転、ヌンチャク、酔拳…これらのキーワードだけを見れば、これは武道学校の入学案内だと思うだろう。しかし今回、否定的な批評家は春祭りのガラプログラム「Wu BOT」について話していました。数十台のロボットが、一貫した動きとタイトなリズムで次々と並びます。ステージ上では、ゼロフレームから始まる一連の滑らかなコンボです。


集中砲火が始まるとすぐに、6人が衝撃を受けた。


Weibo は大混乱となり、コメント欄には何百ものコメントが書き込まれました。誰もが「ショックだ、100万回見た」と言った。


情報通の編集部員も思わず息を呑んだ。


正直に言うと、昨年の立ち位置に比べて、今年の春節祭のユシュロボットは、反転、打撃、すべての動きさえ実行しました。言うまでもなく、それは人間とまったく同じでした。それはただ、人間を超える限界を試すだけだった……。

そこで問題は、ロボットがどのようにしてそのようなクールな動きをするのかということです。ロボットはどのようにして人間らしくなるのでしょうか?

今回、レビュアーは事前に春祭りガラのリハーサル室に潜入し、今回ステージに上がったユシュウG1ロボット「ベンベン」にインタビューし、レビュワーの皆さんに舞台裏を聞いてきました。

彼が部屋に滑り込むとすぐに、ミスター・バッド・レビューはみんなの注目を集めた。ベンベンは努力家で、宙返りを自分ではできないほど高く跳びます。


これに続いて、滑らかな関節と完璧に制御された体のスイングを備えた別のマンティスフィストが続きました。


武道のコンボの最後のセットは終わりを迎え、鉄の鎧と鋼の拳が残忍な強さを示します。圧迫感を感じてください。


しかし、ステージから降りたベンベンは、ただの普通の「人」だった。

カメラの焦点の下で確実に行動するには、誰も知らないさらなる苦労があります。

リハーサル室でコートを脱ぐと、体中が練習の傷跡だらけだった。幸いなことに、一生懸命働けば働くほど幸運が訪れます。この文はシリコンベースの労働者にも当てはまります。


今年の春祭りガラの演技が非常に難しいことは誰でも分かると思います。昨年のロボットが人間を模倣することしかできなかったとすれば、今年のロボットはすでに人間を超えようとしています。

アクションは昨年のスタンス出力から今年の難しいスタントに変わったにもかかわらず、Yushu Technologyの最高マーケティング責任者(CMO)であるWang Qixin氏はインタビューで、ベンベンと彼の兄弟は春節祝賀の大規模なリハーサルで毎回ゼロのロールオーバーに成功したと語った。

そして、完璧なパフォーマンスの背後には、必死で取り組んでいる一連の技術計画があります。

目立たないほど小さなダンスシューズであっても、本物のエンジニアリング機器です。春祭りのガラのガラスステージに上がる際に心理的な影を作らないためには、衝撃を吸収し安定した着地ができる靴でなければならず、接着剤の素材も慎重に選ばれなければなりません。


ロボットの制御アルゴリズムにも大きな最適化の波が来ています。

以前は、ロボットはそれほど賢くないと誰もが常に考えていましたが、実際、今年の春祭りガラでのすべてのアクションの成功は、ロボットが音楽を聴き、ステージを見て、環境を理解し、最終的にリアルタイムで手足を飼い慣らした結果でした。

つまり、脚をどのくらいの高さに上げるか、隊列が次にどこに行くかはすべてロボットが観察して調整することになります。この知覚、意思決定、行動の閉ループは、常に身体化された知性の長期的な困難の 1 つでした。


正直に言うと、最初は否定的な批評家はそれだけだと思っていました。ロボット俳優のベンベンを捕まえて会話をするまで、春祭りの祝賀会の前にいる「軍の将軍」たちの背後には、実際にはこれまで見たことのないドラマがあり、彼らは高い感情的知性を持って話していることがわかりました...

その背景には、ユシュと火山エンジンが共に鍛え上げた音声対話能力がある。彼らは知性、視力、言葉に多大な努力を払ってきました。

たとえば、私たちが彼とジャッキー・チェンのどちらがより強力であるかを尋ねると、ベンベンはすぐに謙虚になりました。

この答えと笑い声が組み合わさって、私は生き残りたいという願望で満たされました。

皆さんがどう感じているかはわかりませんが、しゃべるベンベンが冷たいダンスマシーンのようなものではなくなり、もう少し感情が加わったような気がします。

ベンベンの声が本物の人間に似ているだけでなく、コンテンツごとに感情表現が異なることがはっきりとわかります。良いものは高音で速いものです。悪いことは低音で、気分も落ち込んでいます。

Volcano Engine の技術チームとの綿密なインタビューの結果、Benben の言葉の背後にある言葉はすべてお手玉音声合成モデルに依存していることがわかりました。

ロボットが各文を出力する前に、モデルはまず文脈の意味論と感情を理解し、次に表現方法を決定する必要があります。話す速度が速いか遅いか、イントネーションが高いか低いか、さらにはポーズの位置や感情パラメータまでもが動的に生成されます。そのため、この文章は読み物としてではなく、むしろ人間が話しているように聞こえます。

ボイスラインはランダムに生成されるのではなく、若い男性を中心に優州G1の気質に合わせて特別に作成されます。

しかし、感情を持つだけでは十分ではありません。 Benben を本当に啓発したのは、Beanbao 言語モデルでした。

音声認識が正確であるだけでなく、春節の挨拶全体を読み上げてもらうと、10 秒以内に、おめでたい言葉が直接、大量に出力されます。

ロボットコミュニティを代表してのスピーチも内容が濃いです。

ベンベン氏はまた、大きなお手玉モデルの視覚的理解能力により、ロボットが世界を理解することさえ可能になることを査読者に明らかにしました。

皆さんが以前の邪悪な豆宝の着こなしガイドを見たかどうかは分かりません。青いハイヒールと赤いストッキング、フリルはストレートの男性におすすめ、短いスカートはショールとしても使えます...目を開けた豆宝は何の役にも立っていません、彼は人類に復讐しているだけです。

幸いなことに、ベンベンはとても正直です。旧正月に親戚が着た服装を評価してもらいます。それは単なる自慢ではありません。あなたが何を着ているかを本当に理解して、完全な感情的価値を直接提供します。

しかし、ロボットと大型模型の組み合わせに対するみんなの期待は明らかにこれ以上のものです。 Bad Reviews は Volcano Engine の開発チームにインタビューしました。「一方で、私たちはロボットがより感情的になり、チャットしたり、私たちに同行したりできるようにしたいと考えています。しかし、より重要なのは、機械が人間の音声を理解し、その理解を行動に移せるようにするための、より一般的な一連の機能を検証したいということです。」

もちろん、これは少し謎です。悪い批評家はその場でこう尋ねました。「どうやら、それは口で命令しているだけではないでしょうか?」

今や技術者たちはじっとしていられなくなった。これをうまく行うには、素人が考えるよりもはるかに複雑でした。

「ちょっと前に進んで」って軽く言うけど、「前に進む」というのは誰の方向に対する相対的なものなのでしょうか? 「1点」とは何センチですか?これは、音声認識 + 大規模モデルの意味論的推論の第 1 レベルであり、曖昧な人間の言葉を正確な意図に変換します。

次に、モデルはその指示をロボットに翻訳し、それを詳細なアクションの配置に分解する責任を負います。どれだけ足を先に上げるか、どこで体を回転させるか、いつ足を着地させるかなどを正確に計算しなければなりません。数十の関節と複雑な協調制御の同時計画は、大規模モデルの第 2 レベルです。

音声制御ロボットにできることは今は多くありませんが、ハグくらいはできるかもしれません。

しかし、これはロボットが人間の音声を理解するための最初のステップにすぎません。もしかしたら、いつか、コマンドひとつで、ロボットが家事をしたり、宿題を手伝ったり、家計を助けるために働きに出たりできるようになるかもしれません。携帯電話の電源を入れて、Doubao にお子様の宿題を監督させたり、服装を教えたりするのと同じくらい簡単です。

ただ、当時の子供はロボットを逆攻撃する方法を学んで、シリコンベースの生命体が喜んで宿題のゴーストライターになったのかもしれません...

Yushu Technology CMO の Wang Qixin 氏もインタビューの中で、今回の Volcano Engine との協力により、ロボットのインタラクションの親密さと鮮明さが向上したと述べました。本質的には、ロボットと人間の間のコミュニケーションの欠点を補うことになります。

しかし、ロボットの本当の変化は「より人間らしく話す」だけにとどまりません。外側から内側まで、ロボットは人間と同じように学習し始めています。

強化学習と行動模倣により、人間の映像や行動を分解・吸収し、独自の行動ロジックに変換することができます。つまり、スクリプトに従ってあらかじめ設定された手順を実行するだけではなく、環境を理解し、変化に適応する過程で独自のスキルを開発します。このステップは、将来のロボットが複雑な現実世界のシナリオに参入するための技術的基盤となります。


短期的には、ロボットは商業およびディスプレイのシナリオを優先するでしょう。 3 ~ 5 年以内に、産業環境やリスクの高い環境で大規模に人間に取って代わられるようになるでしょう。そして、信頼性とインタラクション機能がさらに成熟すれば、5 ~ 10 年後には人型ロボットが実際に家庭に入る機会が得られるかもしれません。

言い換えれば、今日私たちが春祭りガラで見たものは、彼らの能力を検証するための最初のステップにすぎません。将来のロボットの目標は、人間の生産と生活において徐々に長期的なパートナーとなることです。

2025 年を振り返ると、AI と身体化された知能が国家的なテーマになっています。意識的に注意を払っていなくても、私たち一人ひとりがテクノロジーの波に押し流されていることは否定できません。

そして今回、ステージ上で歩き、話すことができる同じ玉舟ロボット25体が、春祭りガラ豆宝APPの抽選インタラクションを通じて、まるで未来への招待状が届いたかのようにプレゼントされました。


多くの人が急速な発展の時代に迷うことを心配していますが、ミスター・バッド・レビューは科学技術の発展の終着点は人類のより良い生活であると信じています。

あなたもこれまで、たくさんの悩みや混乱を経験してきたかもしれません。相談できる人がいない深夜には、私たちは問題を AI に任せることを選択します。

将来的には、Seedance 2.0が制作した春祭りのプロモーションビデオのようなものになるかもしれません。一年の疲れを経てドアを開けると、すでにロボットが部屋を片付け、食事を準備してくれています。些細なことで失った時間を、ようやく周りの大切な人たちに取り戻すことができるのです。


宣教師の皆様にとって新年明けましておめでとうございます。新年もテクノロジーが進歩し続け、本当に便利になることを願っています。

未来の知性がもっと生活に近づき、あなたの人生がもっとゆとりのあるものになりますように。