DeNA、スマホでリアルタイム音声変換を実現できる生成AI技術を独自に開発 VTuberなどのエンタメや社会課題領域まで幅広く協業パートナーを募集

ビジネス アプリ・サービス

ディー・エヌ・エーは11月10日、スマートフォンでリアルタイム音声変換を実現できる生成AI技術を独自に開発したことを発表した。高品質・低コストの技術であることから、幅広いシーンでの活用の可能性を見込んでおり、協業先の募集も開始している。

DeNAでは2019年から自分の声が別人の声になる音声変換技術の開発を進めてきた。2021年に公開した「VOICE AVATAR 七声ニーナ」(公開は終了)を皮切りに、社内事業での技術検証を経て、誰でも手軽にリアルタイム音声変換を実現できるAI技術を開発した。これにより、従来利用が難しかった動作環境においても多くの人が音声変換AIを利用できるようになる。

リアルタイム音声変換AIは、音声を受け取るAIと変換音声を出力するAIのペアからなる。これらをリアルタイムで動くようにチューニングすることで本技術を実現している。これまでエッジデバイスと称されるスマートフォン上ではAIを動かすための計算量を担保できず、特にリアルタイムで動かすことが困難だった。今回、計算量を小さくする技術を独自開発することで、高品質かつ遅延100ミリ秒(1000分の1秒)未満のリアルタイム性を維持しながらスマートフォン上で動作させることができたという。

スマートフォン上で動作するため、プラグイン形式で様々なサービスのアプリやプロダクトに組み込むことが可能になる。これにより、音声変換をしたいとき別個に準備が必要だったPC向けソフトウェアや専用機器、それらのアプリへの統合をユーザに求める必要がなくなる。どんなサービスにもマッチするポータビリティの高い音声変換AIを実現した。

多種多様な声への変換を実現する本技術では、ビジネスニーズに応じて新たな種類の声を追加することも可能だ。ゲームやライブ配信といったサービスでは、多様なユーザーに利用されているため、特定話者だけでなく誰でもなりたい話者の声になれることを目指している。

近年、VTuber配信やゲームにおけるボイスチャットなど、リアルタイムに声でコミュニケーションする市場が拡大している。新たなユーザ体験の重要性は高まってきており、市場拡大と併せて音声変換ニーズも高まることが予測される。活用領域の課題を捉えた中長期の事業戦略を策定し、プロダクトやサービスとシナジーを生み出す事業開発体制を強化する。

さらに、事業戦略に基づくリアルタイム音声変換AIの技術開発も強化する。明瞭性や頑健性の向上、処理負荷の軽減だけでなく、対応デバイスの増加、動作環境に適したAIモデルやプラグインなどニーズに根差した開発を進めていく。将来的に、声が価値となるプロダクトを運営する企業・個人に対するサービス化も視野に入れて検討を進めるという。

今回の技術開発に用いられた音声の権利は同社に帰属する。また今後ビジネスを展開するにあたっても、権利関係の適切な整理はもちろんのこと、安易なAIモデルの公開を避ける、声の模倣・濫用への技術的な対策を検討するなど、同社は声優をはじめとする人たちの権利保護への配慮を徹底する。

DeNAでは、法令を遵守し、AIの適切な利活用をグループ全体で推進していく指針として「DeNAグループAIポリシー」を策定している。今後もAI技術の進展や利活用に関する取り組みなど状況の変化に応じて、適宜、必要な見直しを行っていくとのこと。

オススメ