「Project Gutenberg」はニューラルテキスト読み上げ技術を使用して 5,000 冊の無料 audiobooks

オーディオブックは読みやすさから近年爆発的に人気が高まっていますが、オーディオブックの録音は難しく、高価です。最近、研究者らは、合成テキスト読み上げを使用した自動化手法を実証しました。これにより、この技術が直面する問題の多くが解決され、一般ユーザーがオーディオブックを作成できるようになります。現在、読者はプロジェクトグーテンベルクを通じて、何千もの古典文学オーディオブックやその他のパブリックドメイン素材を無料で聴くことができます。マイクロソフトとマサチューセッツ工科大学の研究者は、テキスト読み上げソフトウェアを使用して書籍をスキャンしてコレクションを作成しました。

これらのテキストには、シェイクスピア、アガサクリスティ、ジェーンオースティン、レオナルドダヴィンチなどの作品が含まれます。ユーザーは InternetArchive、Spotify、ApplePodcast、GooglePodcast で聴くことができます。

https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.html

オーディオブックコレクションの構築に使用されるコードは、GitHub で入手できます。

https://github.com/microsoft/SynapseML

Appleは今年1月、自動テキスト読み上げ技術を利用したオーディオブックの販売を開始した。しかし、この試みは、アップルのビジネス目標を批判する文学界や、同社の人工知能のトレーニングを提供する声優らから懐疑的な見方を受けている。 Gutenberg のアプローチはオープンソースであり、営利目的がないため、さまざまな反応を引き起こす可能性があります。

プロジェクトグーテンベルクは、無料で広く利用できるテキスト形式の無料文献リポジトリの構築に数十年を費やしましたが、オーディオブックを使用することで、この資料をよりアクセスしやすくすることができます。オーディオブックは、車の運転、マルチタスク、視覚障害のある読者、読書の学習、または新しい言語の学習に役立ちます。

従来の方法でオーディオブックを作成するには、時間と費用をかけて誰かに本全体を読んでもらう必要があります。読む価値のあるすべての本の音声バージョンを手動で録音するのは費用対効果が高くありません。テキスト読み上げ技術は、プロジェクトグーテンベルクに適していました。しかし、研究者は機械学習ツールに関して複数の障害に直面しています。

最初の最も重要な問題は、ソフトウェアがどの電子書籍を解析できるかを決定することです。 Project Gutenberg はさまざまな形式で資料を収集しており、多くのファイルにはエラーや不完全なスキャンが含まれています。そこで研究者らは、HTML ファイル形式で保存されている書籍に焦点を当て、どのアイテムが同様の形式で表示されているかを検出するツール (上の写真) を構築しました。

研究者らが取り組んだもう 1 つの問題は、どのテキストを読んだり無視したりするかをシステムが確実に認識できるようにすることでした。これには、目次、ページ番号、脚注、表、その他の無関係な資料などのコンポーネントが含まれます。

さらに、その結果は人間の自然な音声に十分近い音である必要があります。研究者らは、ノンフィクションやナレーションに最適な音声表現に焦点を当てましたが、ユーザーがソフトウェアを調整して劇的な朗読を試すこともできます。

研究者らは、ユーザーが自分の声でオーディオブックを生成できるデモンストレーションを開催する予定だ。アルゴリズムをトレーニングするためにいくつかの文を録音した後、各参加者はソフトウェアに本全体を読み上げる前にサンプルを聞くことができました。また、オーディオブックのコピーも電子メールで受け取ります。ユーザーは合成音声から選択して各オーディオブックをカスタマイズできます。

アクセス：

Alibaba Cloud - 最大 1888 元のユニバーサルバウチャーがすぐに利用可能