Volcano Engine が Beanbao モデル 1.8 をリリース、マルチモーダルエージェント機能が world

本日、Volcano Engine は FORCE Power Conference でビーンバッグモデル 1.8 とオーディオおよびビデオ作成モデル Seedance 1.5 pro を正式にリリースしました。権威ある評価データによると、Doubao Big Modelはマルチモーダルの理解、生成能力、エージェント能力の点で世界第1位にランクされています。

Volcano Engine の社長である Tan Dai 氏によると、今年 12 月の時点で、Doubao Big Model の 1 日あたりの平均トークン使用量は 50 兆を超え、前年同期と比べて 10 倍以上増加しました。現在、100 社を超える企業顧客が累計 1 兆を超えるトークンを使用しています。

Doubao ファミリの最新のフラッグシップモデルとして、Doubao 大型モデル 1.8 (Doubao-Seed-1.8) は、マルチモーダルエージェントシナリオ向けに最適化されています。ツール呼び出し機能、複雑な命令追従機能、OS エージェント機能がすべて強化され、複雑なタスクを処理する際のモデルの計画と実行レベルが向上しました。

視覚的な理解という点では、Doubao 1.8 の単一ビデオ理解フレーム数は 640 フレームから 1280 フレームへと 2 倍になりました。このモデルは、低フレームレートでの非常に長いビデオの理解をサポートし、高フレームレートで主要なセグメントを理解するためのツールを呼び出すことができます。この機能は、オンライン教育、製品品質検査、その他のシナリオで広く使用できます。

ビデオ作成の需要の高まりに応えて、Volcano Engine は Seedance 1.5 プロオーディオおよびビデオ作成モデルを発売しました。このモデルは、映画やテレビレベルの物語の緊張感を持ち、動きの詳細を正確に捉え、キャラクターの感情を繊細に表現できるだけでなく、オーディオとビデオの同期技術でも画期的な進歩を遂げています。

Seedance 1.5 proは、革新的なネイティブオーディオとビデオの共同生成アーキテクチャを採用し、環境音、BGM、ボーカルなどの要素をサポートし、ミリ秒レベルのオーディオとビデオの同期出力を実現します。対話処理の面では、このモデルは正確な口の位置合わせによる多人数および多言語の対話をサポートし、中国の方言（四川語、広東語など）、英語、少数言語をカバーしており、ビデオコンテンツのリアリティとグローバルな作成可能性を大幅に向上させます。

作成の敷居とコストをさらに下げるために、Seedance シリーズでは近日中に「ドラフトサンプル」機能を開始します。クリエイターはまずプレビュー用に低解像度のサンプルを生成できます。その主要な要素は最終的な映画と非常に一致しており、まさに「プレビューだけで得られるもの」です。データによれば、この機能によりクリエイターは全体的な効率を 65% 向上させ、非効率な制作コストを 60% 削減できることがわかっています。

現在、個人ユーザーは Doubao、Jimeng AI、その他のプラットフォームでモデルを体験できます。企業ユーザーは、12 月 23 日から Volcano Engine API を通じて Seedance 1.5 プロモデルサービスにアクセスできるようになります。

Tan Dai 氏は、従来の IT アーキテクチャではもはやエージェント時代のニーズを満たすことができないと指摘しました。モデル中心の AI クラウドネイティブアーキテクチャが具体化され、エージェントの開発と運用を中心に再構築されています。

エージェント開発レベルでは、Volcano Engine はエンタープライズレベルの AI エージェントプラットフォーム AgentKit を包括的にアップグレードしました。このプラットフォームは、開発、展開、管理、制御に至るエージェントのライフサイクル全体をカバーしており、アイデンティティ権限管理、モデルの確実性、システム統合など、エージェントの実装において企業が直面する中核的な課題を解決することを目的としています。

さらに、企業利用の敷居を下げるために、ボルケーノエンジンは業界初の「AI Savings Plan」を開始しました。このプランは、従量課金制サービスを必要とするすべての大型モデル製品をカバーしており、企業は段階的な割引を通じてコストを最大 47% 節約できます。