「生成型AI」が音楽番組を作る時代、Spotify DJ「未来は音楽が連れてくる」連載第75回

2023年3月30日 13:52

Spotifyは先月末、DJの声でラジオ番組のように曲を紹介する「Spotify DJ」をテスト公開した。本機能には第3次AIブーム以来のトピックとなった「生成型AI」が活用されており、ポスト・サブスクの未来図を予感させる出来となっている。

Spotify DJは「自動生成型AI」による音楽番組

上記のYouTube動画を見てもらえば一目瞭然だが、かなり自然なDJトークで音楽が紹介されている。Spotify DJは、技術的にはいくつかの要素で構成されているが、下記が大事なポイントになる。

1. レコメンデーション・エンジン

ひとつ目は、ユーザーの嗜好に合わせてプレイリストを自動生成する技術だ。Spotifyは2014年、アメリカで人気が先行するPandoraに対抗すべく（今でも米国内では認知度1位だったりする）、楽曲レコメンデーション・エンジンの会社The Echo Nest社を5千万ユーロ（約70億円）で買収した。以降、Spotifyにおけるプレイリストの自動生成や、キュレーターによるプレイリスト作成の補助作業などでフル活用されているが、Spotify DJもこのエンジンで選曲している。

筆者は買収以前に同社を手伝っていたが、The Echo Nestのレコメンデーション・エンジンはAIそのものだった。楽曲のメタDBを構築するに当たり、グーグルのように世界中のウェブでクローラーを走らせるだけでなく、AIが認識できるように楽曲を波形の画像に変換してディープラーニングで関連付けしていく仕組みだった。

「プレイリストを生成する」という意味では、今もてはやされている「生成型AI」の趨りといってもよい技術を、今回もSpotify DJの自動選曲に活用した形だ。しかも今回は、各ユーザーの聴取履歴に基づいた嗜好のみならず、季節、ムードなどユーザーのシチュエーションに反映するようチューニングされているようだ。

2. OpenAI

昨年夏、デジタルアートを中心としたNFT市場でバブル崩壊が起こり、ブームが一段落したWeb3だったが（ようやく地に足の付いた議論ができるようになったとも言える）、まるで狙いすましたかのように今度は文章生成のChat-GPTや画像生成のNovel AIに代表される「生成型AI」のブームが始まった。エンジニアたちの反応を見ると、Web3よりもインパクトが大きく、第3次AIブームを起こした2006年のオート・エンコーダー（ニューラルネット・ワークの実用化）の登場以来の盛り上がりを見せているようだ。

Spotify DJはトーク内容の生成に、話題のDALL-EやChat-GPTを生み出したOpenAIの技術を採用している。Chat-GPTで遊んでみた方ならご存知と思うが、その文章生成能力は驚嘆すべきものがありつつも、素知らぬ顔で間違いを羅列してきて失笑することも多い（ナイツの漫才みたいなときがある）。Spotify DJはそうしたことが起こらぬよう、アーティスト名や楽曲名の紹介、天候や聴取履歴といった選曲した理由など事故の起こりにくい簡潔なトーク内容に絞っているようだ。

ただ、事故の起こりにくいトーク項目は他にも追加可能だ。たとえばユーザーの属性に合わせたニュース・トピックの要約の朗読や天気情報を軽くインサートしたり、該当アーティストのライブ情報やリリース情報、アーティストのTwitterやInstagramをクローリングして盛り上がった投稿を紹介することなどが考えられる。

3. ボイス生成エンジン

Spotify DJを試して一番驚くのが、ラジオDJに引けを取らない、そのトークの豊かなイントネーションだ。ここにはSpotify社が昨年夏に買収したSonantic（ソナンティック）社の技術が活用されている。Sonanticは音声の合成（テキスト読み上げ）に特化した生成型AIのプラットフォームで、その特徴は感情表現すら可能にする、人間に引けを取らない抑揚と間（ま）を合成スピーチに与えることにある。

Spotify DJの音声はエグゼヴィアー・ジャーニガンという黒人男性DJのものだが、彼はSpotifyが配信しているモーニング・ショー「The Get Up」でホストを務めている。驚きなのは番組で話す彼と、Spotify DJでAIが生成した彼の見分け（聞き分け?）がつかないほど自然な音声合成であることだ。ロボットじみていたSiriやAlexaの声が過去の遺物になったようなインパクトがある。

以上のように、まずAIでユーザーの趣味やシチュエーションに合わせてプレイリストを生成し、次にAIで曲の紹介文を生成し、最後にAIで自然な読み上げ音声を生成するのがSpotify DJであり「生成型AI」時代の到来で、いよいよAIが音楽番組を創る時代に入ったといえるだろう。

Podcastに侵食されつつあった音楽配信

音楽産業100年の歴史を追うと、新しいメディアが誕生するとまず音楽がキラーコンテンツになり、やがてトークに音楽が追いやられていくという歴史を繰り返している。ラジオ、テレビ、ネット、スマホすべてでそれが起きている。

ラジオの登場時、キラーコンテンツは音楽だった（20年代後半）が、次第にニュースやバラエティ番組などトークが主役となっていき（40年代後半）、ニュースやバラエティの層をテレビに奪われるとDJの登場で再び音楽がラジオの主役に返り咲く（50年代後半）、そしてまたトークがラジオの聴取率を決めてゆくようになる（80年代以降）、という歴史を拙著で追ったことがある（『音楽が未来を連れてくる』）。

この「音楽人気→トーク人気」という歴史はMTVやYouTubeでも繰り返したが近年、Spotifyでも似た現象が始まっていたので少々危惧していた。

というのは、やはり同著で取り上げた話なのだが2018年の段階で、Spotifyでじぶんの作ったプレイリストを聴く割合は23％、ポッドキャストを聴く割合は18％で、キュレーターの用意したプレイリストを聴く割合15％を凌駕しはじめていた（※1）。

世界のPodcast人気は日本にいると気づかないほど高まっており、アメリカでは2020年の段階で既にPodcastの聴取時間（34分/日）はYouTubeのそれ（19分/日）を超えている（※2）。日本はだいたいアメリカの五年遅れで後追いする傾向があるので、時期的にそろそろ話題に取り上げてよいだろうと思い、この話題を書いている次第だ。

Spotify社は抜け目なくここ数年、数百億円単位でPodcastに投資しており、昨年にはPodcastの広告売上で少なからぬ売上を達成したが、音楽配信アプリのなかでトークのブームが起こってしまうと音楽を聴く時間が減り、遅かれ早かれ音楽売上が減ってしまう可能性があった。

実際、プレイリストで音楽だけをずっと鳴らしていると聴き疲れて音楽離れならぬ音楽配信離れが起きうるし、現実的にも、ラジオや音楽テレビで音楽ばかり流す時間を作ると如実に番組のレーティングが下がる。

肝心なのはトークと音楽のバランスが整った「音楽番組」を音楽配信上にどうすれば再現できるかなのだが、テクノロジー的に効率よく提供するにはどうすればよいか、という課題があった。その観点からも、今回のSpotify DJは見た目（?）以上の意味合いがあるので解説させていただいた。

AIの力で音楽番組が復活するかもしれない

去年の10月頃だったろうか。一ヶ月、あえて音楽配信を使わず寝ても覚めてもFMを付けておく、という生活をしてみたことがあった。既に地上波で音楽番組が廃れて久しく、音楽TVもYouTubeに負けて衰退。その上、著作権上、YouTubeでもPodcastでも音楽番組は出来ない（※筆者は、Nusicmanという企画でYouTube上で実験的に音楽番組をやっている）。ならば今のFMはどう音楽番組を作っているか、音楽放送出身者として気になったからである。

結果は、今も品質の高いパッケージを作っているという安心感もあったが、同時にYouTubeやTikTok、Spotifyのような便利なアプリに慣れているとしんどいものも感じざるを得なかった。

音楽を聴きたいのにトークの方が多く、トークの時間に他局に切り替えても、軒並みトークの時間で、音楽がかかっていない。音楽がかかる時間になると全局がいっせいに音楽をかけ始める、という具合で、レコメンデーション・エンジンに慣れていると音楽やトークがじぶんに合っていないこともストレスを感じた。

もちろん興味がなかった話題や音楽に触れることが新しい世界をつくってくれるセレンディピティになっていることも承知しているが、

「テクノロジーの力を使えば、もう少し自分に合った形で音楽とトーク内容が組み合わされる番組を生成できるのではないか。音楽とトークの割合も含めて」

と改めて感じた。実はそれが、筆者が2008年にPandoraやSpotifyに初めて触れたときにやりたくなったことでもあるのだが。

現在のSpotify DJは、トーク内容に関しては簡潔を極めている。曲名やアーティスト名を読み上げるぐらいなら大した話ではないようにも感じられるだろう。だが、Chat-GPTがいかにおバカな答えを出してくることがあろうとも、その無限の可能性を肯定せざるをえないように、今後、Spotify DJのような生成型AIの話す内容が進化するかしないかのどちらに賭けるか、と訊かれれば大半の人は前者を選ぶのではないだろうか。

（文：榎本幹朗）

※1 https://musicindustryblog.wordpress.com/2019/04/11/spotify-the-decline-of-playlists-and-the-rise-of-podcasts/
※2 https://www.insiderintelligence.com/content/time-spent-with-podcasts-will-dip-amid-pandemic-should-rebound-by-2022（元データはいずれもeMarketer）

この記事の画像一覧

著者プロフィール

榎本幹朗（えのもと・みきろう）

1974年東京生。作家・音楽産業を専門とするコンサルタント。上智大学に在学中から仕事を始め、草創期のライヴ・ストリーミング番組のディレクターとなる。ぴあに転職後、音楽配信の専門家として独立。2017年まで京都精華大学講師。寄稿先はWIRED、文藝春秋、週刊ダイヤモンド、プレジデントなど。朝日新聞、ブルームバーグに取材協力。NHK、テレビ朝日、日本テレビにゲスト出演。