SONY

メニュー
サイト内検索ボタン

サイト内検索エリアを開く

ウェアラブルなAIが、音楽体験を深化させる。

DSEE Extreme™

人に最も身近なウェアラブルデバイスである「ヘッドホン」。これにソニーならではのセンシング技術とAIが搭載されることで、人と音楽との関係のみならず、日々の暮らしにまで変化がもたらされようとしています。

大庭 寛/知念 徹/山本 優樹

大庭 寛(写真左) ソニーホームエンタテインメント&
サウンドプロダクツ株式会社
V&S事業本部

知念 徹(写真中央)・山本 優樹(写真右) ソニー株式会社
R&Dセンター Tokyo Laboratory 20

ダウンスケールされた音を、美しいハイレゾサウンドに。

山本:「DSEE HX™」は、楽曲データが本来持っている情報を復元することで、CDや圧縮音源にハイレゾ品質の臨場感をもたらす、ソニー独自の高音質技術です。
従来、これは予測によって行われていました。しかし、例えばボーカルとドラムでは音の特徴が大きく違うため、予測すべき信号も異なります。そこでAIで音を識別し、それぞれの音に最適な処理を行うことで、さらなる高音質化を実現したのが「DSEE Extreme」です。私たちはAIでどこまで音を良くできるか、画像のディープラーニングを参考に開発に着手しました。そして、これ以上はないというレベルにまで達した“究極版”を完成させましたが、それは計算量もメモリー量も度外視した、とても大規模なものでした。

知念:“最高音質究極版”と呼べる高度なAIができたわけですが、リアルタイムで動かすことは難しいし、製品に入れるには大きすぎる。そこで、「どうすれば音質を下げずにコンパクトにできるか」を山本さんに検討してもらいました。教師データはソニー・ミュージックエンタテインメントがもつハイレゾの音源であり、予めMP3などに圧縮した音が、どれだけ元のハイレゾサウンドに近づいているかを評価するわけです。その際、数値的に確認するとともに、人の耳の感覚でも検証します。そうしながら、慎重にニューラルネットワークのムダを省いていくのです。

山本:画像は2次元、オーディオは1次元という信号の違いに大きなブレイクスルーがありました。画像用につくられたディープラーニングを、オーディオ専用にしてしまったとも言えます。そして2018年、ついにウォークマンに搭載することができました。

ウェアラブル×AIで、ライフスタイルに合わせた体験を。

大庭:「DSEE HX」を搭載したヘッドホンがとても好評だったので、後継機種にはウォークマンに搭載されていた「DSEE Extreme」をぜひ採用したかった。そこで知念さんと山本さんに相談し、「DSEE Extreme」の音質はそのままに処理量を最適化して、ヘッドホンのBluetoothチップに載せることを実現しました。これが搭載されたWH-1000XM4なら、MP3やYouTubeなどどんな音源でも、より美しいハイレゾ相当のサウンドで楽しむことができるのです。また、WH-1000XM4の新機能として、装着者がしゃべることで自動的に音楽が止まり、周囲の音を聞こえるようになる「スピーク・トゥ・チャット」も注目して欲しいポイントです。この機能にもAIが使われています。

山本:装着者がしゃべったのか、周囲の人がしゃべったのかをヘッドホンに識別させるのは、想像以上に難しいことでした。WH-1000XM4の外側には5個のマイクが内蔵されているので、それを利用しています。実は「DSEE Extreme」と同時に開発を行っていたのですが、アルゴリズムがすごく似ていて、並行して開発することが相互の性能向上に役立ちました。

大庭:スマートスピーカーなどで機能を立ち上げる際のウェイクワードではなく、どんな言葉でも認識する「スピーク・トゥ・チャット」は、ユーザーフレンドリーでとても自然なUIです。さらにこの「スピーク・トゥ・チャット」に加え、「アダプティブ・サウンドコントロール」という機能にも対応しています。これは、スマートフォン向け専用アプリとスマートフォンに搭載された加速度センサーやGPSを用いることで、歩いている・止まっている・走っている・乗り物に乗っているというユーザーの「行動」や、「よく行く場所」を認識して、ヘッドホン設定を自動で切り替える機能です。今回、新たにアップデートされた専用アプリを使用することで、従来より対応していた「行動認識」に加え、アプリに搭載されたAIがあなたの「よく行く場所」を学習できるようになります。音にもUIにも、AIが使われているというのは、ソニーならではだと思います。しかも、バッテリーサイズが小さいウェアラブルなデバイスに搭載されているというのは画期的なことです。

AIを、クリエイティブとエンターテインメントのために。

大庭:製品の本質的な価値を見失うことなく、ユーザーのやりたいことやユーザーも気付かなかったことをいかにAIで実現するか。そして、ユーザーと機器の新しい関係性と、エンターテインメントへの“没入”をいかに自然な形でつくっていくかを考えています。ヘッドホンは人にいちばん近いデバイスですから、生活のコンテキストやその時の状況、さらには暮らしの中で感じたことまでセンシングするということも可能になってくるはずです。それは、感動をつくり出す事業を行っているソニーだからこそ、挑戦すべきだと思います。

山本:過去のデータを使って学習していくのがAIです。一方、人間は過去のデータに捉われることなく新しいものを生み出すことができます。すなわち、人間には創造性がありますがAIにはなかなか難しい。それぞれ得手不得手があるわけですから、お互いがお互いを支えあうような関係が自然に成立していくと思います。例えば、誰がやっても同じような仕事はAIが担い、創造性が必要な仕事を人間が行う。そんなふうに、AIと人がうまく共存できるといいですね。

知念:我々は限られている時間の中で、より高い価値の仕事をすることを求められています。しかしその時間の多くが、定型の仕事で使われてしまっています。AIが進化し普及することで、人はほとんどの時間をクリエイティブな仕事に費やすことができるようになるでしょう。また、人をエンターテインする仕事をする人にとって、AIは強力な武器となります。クリエイティブとエンターテインメントにAIを使う、これもソニーが目指すことの一つなのです。

このページの先頭へ