【特別取材】AIがカメラマンになると世界はどう変わる？自動撮影システムについてソニーミュージックに聞いてみた（中編）「未来は音楽が連れてくる」連載第77回

2023年7月4日 18:30

今年3月にソニーミュージックの発表した「自動ライブ撮影配信システム」は、AIを活用することで音楽ライブの撮影費を1/10に落とす画期的なものだった。高品質のまま音楽ライブ配信の魅力をさらに広めてくれそうだ。前回に引き続き、ロングインタビューの中編をお届けする

【特別取材】音楽ライブ・ビジネスに革命を起こす自動撮影システムについてソニーミュージックに聞いてみた（前編）

【特別取材】「ライブの模倣」ではないライブ配信の新しい使い方。自動撮影システムについてソニーミュージックに聞いてみた（後編）

＜取材＞

福田正俊氏：ソニー・ミュージックエンタテインメント EdgeTechプロジェクト本部 LSチームチーフプロデューサー
原口竜也氏：ソニー・ミュージックエンタテインメント EdgeTechプロジェクト本部本部長
戸井田隆男氏：ソニー・ミュージックソリューションズホールネットワークカンパニーホール事業企画室部長

（取材：Musicman 屋代卓也・畑道纓・榎本幹朗　収録日：2023年4月25日）

スポーツ・テックで実績のあるソニーのAIを活用

榎本：ソニーのハード側からはどんな技術の提供を受けているのですか？

福田：今だと特に安価な市販センサーを使った追尾技術ですね。タバコ2箱ぐらいの大きさのセンサーをステージの前におけば人物を自動追跡できる。この新方式の開発が成功すると、ライブの当日に行ってぽんっとステージの真ん前に置くだけでカメラロボットを操作できるようになります。

プロジェクトの最初は画像処理だけでいけると思ったんですが、やってみたら、ステージ上の人物の位置を補足するというのが想像以上にむずかしかったんです。それこそ超音波とかいろいろやってみたのですがむずかしくて、「こんなのソニーなら簡単だろう！」と思っていたら違いました（笑）。結局、UWBセンサーを組み合わせたら上手くいった。

その後、別の安価な市販センサーでも追尾ができるように開発したのでUWBセンサー無しでもいけるようになり、置き換えることになりました。

榎本：ソニー株式会社と共同で開発したんですよね。

原口：はい、ソニー株式会社でカメラや放送局向け機器を開発している部門のメンバーと共同開発を続けています。

榎本：スポーツ判定支援システムの「ホークアイ」とも関係があるんですか？

原口：ホークアイの技術そのものではないんですが、同様の方式で、動いている人間を補足できる技術を開発しているチームで･･･。

榎本：野球の動作解析でも導入されているやつですね。

屋代：これを音楽で使ったのは世界初？

福田：こんなことをやっている人たちはいないんじゃないんですかね（笑）

榎本：たぶん思い浮かんではいるとは思うんです。コロナでライブ配信やってみたらコストがすごくて、AIでなんとかできないかというのはトレンドにも合ってたので。ただし、コロナでそうしたトレンドが話題になる前から、ホークアイとかライブ配信のコストダウンとか、世界に先んじてやってたのはソニーさんだけだったのではないでしょうか。

屋代：マーケットは世界ですね。可能性は無限大だ。

榎本：今はB2Bですけど、それこそスマホだけでもAIで人物を自動追尾したり、バーチャル監督のAIがディレクションまでができるようになったらB2Cまで行って、いまの配信の枠組み自体が変わってしまうかもしれませんね。

AIがカメラマンになると世界はどう変わる？

福田：開発していくうちに、ライブ収録のどの部分を自動化すべきなのかということが分かってきました。たとえばオンライン配信ならではの価値として始まったサービスの1つにマルチアングル配信がありますが、カメラマンがライブの間中、メンバーを追い続けるというのはなかなか重労働なんです。こういった部分こそが自動化すべきポイントなのではないか、と。

榎本：マルチアングルは配信のとき、よく出てくる話題なのですが、だいたい始めても長続きしない。それはおっしゃるとおり、メンバーや選手を一人ずつを追い続けるために何人もカメラマンを雇ってめちゃめちゃお金がかかるけど、それに見合うリターンがなかった。でも追跡を自動化できるなら話は変わってきます。

福田：何度かやってみて分かったんですが、マルチアングルは何回でも観たくなるんですね。全体を観た後、推しのメンバーだけを見返す、お気に入りのシーンを見つける、など何回でも観たくなる。しかしコストが掛かりすぎるという状況だったので、ここが自動化できればコスト面も解決できます。

榎本：AIを育てるのはデータといいますが、ソニーが持っている膨大なデータというのは？

福田：SMEが持っている大量のライブ映像ですね。それを解析することも検討しています。

原口：AIの時代なので、優れたデータをAIにどれだけたくさん学習させられるかというのが勝負を分けると思います。AI学習についての権利者への配慮についても確認しながら、なるべく早く進めていきたいと思っています。

畑：他に分かったAIにまかせるべきポイントというと？

福田：人が大変な部分は自動化してあげたいですし、ミスを減らせる、というのもありますね。たとえば1カメがずうっとズームしていく映像を撮るときに、今までだったらスイッチャーさんが「はい、1カメ行った。ズーム開始して。はいストップ！」と指示を出す場合、撮影は目まぐるしいですから途中でヒューマンエラーも起きるのですが、タッチパネルにぽんと触ったら後はミスなくやってくれるわけです。

畑：AIだと監督の個性が削がれるという可能性は？

福田：むしろ逆だと感じてますね。監督のディレクション通り、正確に撮影してくれるようになりますから。

屋代：そしてディレクター毎の癖も学習させて「誰々さん風」というアルゴリズムもいずれ作れる、と。

福田：実はもう作り出してます。現在、三人の監督さんのデータを取って解析しています。

榎本：ライブをしっかり中継する時って、セットリストを見ながらディレクターとスイッチャーで打ち合わせしてシナリオを決めときますよね。例えば一曲目は1カメがギターの手元から引いていって、2カメがバストアップのボーカルを撮って、フェードインで歌い出すとか。こういう撮影パターンをプリセットでいくつか用意するというのは？

福田：あらかじめ撮影パターンを打ち込んでおくという機能ならもう実装しています。

榎本：撮る順番を事前に？

福田：ここは企業秘密になってしまうのですが（笑）、シナリオというか監督の思想を事前に入力しておいて、ミスを減らすような機能は既に備えています。

結局、曲のことを一番わかっているのはマネージャーさんなんですね。例えば「この曲のサビではあの娘のアップがほしい」という判断はマネージャーさんが一番わかっているので、究極、マネージャーさんがカットを撮れるくらい使いやすいUIが目標です。

榎本：マネージャーさんが操作できるようになる。それは素晴らしいですね。

畑：これからは、セットリストに合わせてプログラミングで照明だけでなくカメラも動かす世界になっていく？

福田：全部がそうなるかと言ったらそうではないと思います。ライブの世界というのは着々とオートメーション化が進んでて、一番そこが進んでいるのが照明さんだと思います。照明さんといえば打ち込みと言えるぐらいで、シーンごとにボタンひとつで複数のレーザーやムービングライトを動かします。楽曲のクリックにシンクロした打ち込みも増えていくでしょう。

海外のアーティストのライブでは照明や舞台演出が全部、楽曲とシンクロしている公演も出てきていると聞いています。いずれにせよ、マニュアル操作が主体でAI操作がサポートというパターンであっても、ミスを減らして人間は演出に専念できるというメリットがあると思います。

屋代：昔のライブでは、照明のピンスポットが遅れて大将からお叱りを受けている、というのをよく目撃しました（笑）。今ではどんなクラスの演者でも照明はドンピシャで出せるじゃないですか。たぶん撮影もこのまま行くと、照明のようにほとんどミスのない世界になっていきますよね。

戸井田：照明さんがプログラミングを用意していても、現場でアーティストさんが「やっぱりそこ変えて」と言ってきててんやわんやになることがあるので、その場合はマニュアル操作で切り抜けることもあります。ですが、しっかりとセットリストと照明のシナリオができていれば、それに合わせて音楽のクリックと、照明とカメラが打ち込みで連動することは充分、可能です。

屋代：ドラムがドドッドーンでスポットが当たってカメラが動くような？すごいな。世界中に売れそう（笑）。

ソニーとSMEならではの強み

榎本：これが売れると真似するところが出てきますよね。GAFAなどから競合が出てきた場合、ソニーとSMEの強みってどこになってくるでしょうか？

福田：まずはソニーの技術力、そしてエンタメの現場を知るSMEの知見を技術開発に活かしている点です。僕らは配信で3年先行して培った技術とノウハウがあるので、それも強みになるかもしれません。

戸井田：グループの中にZeppがあるというのも開発の強みになっていると思います。実験環境を提供できますので。

屋代：業務用機材というのもソニーの強いところですけど、いろいろなところが押し寄せてくる場所ではないと思うので、技術面では当面、先行できるのではないでしょうか。

福田：あくまでも個人的な感想ですが、海外の音楽フェスなどの配信を見ていても、日本の音楽ライブ収録のクオリティは高いと思います。

榎本：コーチェラとか海外フェスのライブ配信の品質は、あんまりコストをかけてないせいというのもありますよね。あれを全会場・全公演をテレビ・クオリティで撮影すると何十番組分のとんでもない金額になってしまう。でもこのソニーグループのシステムを使えば、そういうことも解決できそうです。

屋代：やっぱり業務用の事業じゃないですか。そこに他社がたくさん入ってきて群雄割拠になるというのは考えにくいですよね。

榎本：20年前、「ネットがあるならフェスの全会場をライブ配信できるだろう」となって、大阪でMINAMI WHEELというイベントがあるのですが、全会場にカメラ2台設置してライブ配信するという先駆け的なことをやったことがあるんです。

そうしたらカメラがズレたとか、配信が途切れたとか、15分ごとにどこかでトラブルが起こって、朝から晩までタクシーでミナミをぐるぐる回ることになって全員、疲労困憊でとても苦労しました（笑）。

ネットが誕生したときから「すべての箱、すべての公演を世界に配信する」という理想があったと思うのですが、AIの画像処理やロボットが発達して、ようやくそれが実用レベルに到達した。ソニーグループの画期的なイノベーションだと思いますね。

福田：音楽フェスの全バンド配信は僕らの夢ですね。このシステムでの音楽フェスのライブ配信は今年の夏にはチャレンジするつもりです。新システムの初陣を野外フェスという厳しい環境でスタートします。

畑：フェスのような屋外での稼働実験を予定している？

福田：5月の九州のフェスで野外での実験をスタートさせます。

人類の音楽文化に貢献するAIの使い方

屋代：この画期的なシステムが普及すると、音楽ライブの映像アーカイブが世界中で膨大に増えていくことになるじゃないですか。これは人類の音楽文化にもたいへんな貢献ですよね。

福田：おっしゃるとおりで、我々のシステムで少しでも音楽文化に貢献できればとても嬉しいです。

榎本：今、十年後、二十年後の音楽産業の見取り図を考えてくれ、という仕事を頼まれていて、その中で大事な議論になっているのがAIなんですよ。AIが録音に取って代わるのではないか、というトピックスです。

今まではスタジオで音の波形をマスターに固定して、それをレコードとかCDにコピー。今なら音源ファイルにコピーして配信で、スマホにキャッシュとしてコピーして届ける形でしたが、生成型AIの急発展を鑑みると、これにプラス・アルファのことが起こりうる、と。

AIに人格をコピーするというのはSFでよくある話ですが、アーティストの歌い方・演奏の癖などをAIに学習させて、アーティストのAIを音源の代わりに音楽ファンへ届けるようになるかもしれない、ということですね。

これができると今までは何度聴いても全く同じ音源だった時代から、聴くたびにバリエーションが違うので、アーティストの音楽性を様々な角度から楽しむことも可能になります。

そのとき課題になることのひとつが優秀なデータです。「ビッグデータではGAFAに敵わない」とよく言われていますが、アーティストの演奏を様々なアングルから捉えた高品質の映像データというのは例えばYouTubeにはないんですよ。けれども、ソニーグループのこのシステムが普及したら、そういうデータを莫大な規模で集積していくことも可能になる。

福田：おそらく、おっしゃるとおりの世界になっていくと思います。

榎本：ソニーは音楽をCDでデータ化して、いまデータ化した音源が音楽配信でみんなに届く時代になってますが、このシステムが普及してAIの学習が進むと、サブスクなどよりもっと先の世界が見えてきます。

福田：データの学習で言うと、画像認識が苦手な分野がまだまだあります。同じ衣装のメンバーが多いグループだったり、双子のメンバーがいたり（笑）。実験するとAIであっても間違えるのですが、そういうところへの挑戦というのも僕らのこだわりのひとつです。厳しい環境でAIを鍛えてます。

屋代：いずれはスマホの顔認証のレベルまで行ってしまうと。

福田：そこまで行きたいですけど大変ですね。

屋代：動いてますしね。

福田：大人数アイドルグループの収録を担当しているスタッフさんにもヒアリングしたのですが、ミスなく完璧に譜割りと顔を瞬時に一致できる方は日本で2人しかいないと聞きました。（笑）

カメラロボットに関して面白い気付きがあったのですが、舞台上でアーティストと大変近い距離に近づくカメラマンに対して嫉妬の感情を抱く方々がいらっしゃることがあるそうで（笑）もしかしたらそういうところに我々が気付かないニーズがあるのかもしれません。

屋代：カメラロボットのサイズはどれくらい？

福田：腰の高さぐらいです。いま、何件か相談を受けているのですが「ライブ冒頭でむちゃくちゃカメラが寄る必要があるので使わせてもらいたい」とか「振り付けといっしょにカメラロボットを動かして音楽ビデオを作りたい」とか「一人ひとりの顔をずっと追い続けたい」とか、様々な注文を頂戴しています。引き続き、映像の価値を高めることに注力していきたいと思っています。

（次回へ続く）

この記事の画像一覧

著者プロフィール

榎本幹朗（えのもと・みきろう）

1974年東京生。作家・音楽産業を専門とするコンサルタント。上智大学に在学中から仕事を始め、草創期のライヴ・ストリーミング番組のディレクターとなる。ぴあに転職後、音楽配信の専門家として独立。2017年まで京都精華大学講師。寄稿先はWIRED、文藝春秋、週刊ダイヤモンド、プレジデントなど。朝日新聞、ブルームバーグに取材協力。NHK、テレビ朝日、日本テレビにゲスト出演。