ページの先頭ヘッダーをスキップし、本文へ

make.believe Special site

Japan

本文の開始
コンテンツメニューをスキップし、コンテンツの開始へ

技術情報

12音解析(音楽解析技術)

 高度な音楽検索、音楽推薦、その他新しい音楽の楽しみ方(アプリケーション)を実現するために、質の高い音楽のメタデータ(音楽の特徴などを表すデータ)に対するニーズが高まっている。従来は人の手によるメタデータ付与作業が主流であったが、コストの問題や、付与されるメタデータが人によって異なるという問題があった。
 ソニーでは、信号処理、統計処理を施すことにより音楽の波形を解析し、ビート、コード進行、楽曲構造、ジャンル、含まれる楽器音、ムードなどのさまざまなメタデータを自動的に抽出する「12音解析」を独自開発し、"ネットジューク"、"Rolly"、VAIOの付属ソフトウェアなどに採用している。
図1 12音解析とは
図1 12音解析とは

12音解析で実現するアプリケーション

 12音解析を用いることで、あらゆる楽曲に対して自動的にメタデータ付与を行う事ができる。自動抽出したメタデータを利用することで、例えば次のようなアプリケーションが実現可能になる。
  • 楽曲の特徴(速い、明るいなど)で聞きたい楽曲を探す
  • メタデータの類似した楽曲を検索することで、自分の好きな曲に似ている楽曲を探す
  • 複数の楽曲のサビの部分だけを連続再生
  • 楽曲の雰囲気に合わせたスライドショーなどの自動生成
  • ラジオ放送を音楽、トークに自動分類

12音解析のしくみ

 12音解析は、以下の流れで音楽を解析する。

時間-音程解析
 12音解析では、まず楽曲を時間と音程の二次元に解析する。音程は1オクターブあたり12の音程(ドレミに相当)に解析する。最初にこうした解析を行うことで、音のなり始めのタイミングや強さ、音質、和音構造など、後の各種検出処理で必要な情報の抽出を容易にする。

 12音解析では解析の際のフィルタ構造を工夫することで、低音から高音まで高速かつ高精度な解析を実現している。
  • 図2 時間-音程解析結果の例
    図2 時間-音程解析結果の例


音楽理論に即した解析
 次に、解析された二次元画像を元にさまざまな信号処理、検出処理などを行い、テンポ、拍子、小節線などのビート構造、コード進行、キー、楽曲構造など音楽理論に即したものの検出処理を行う。

  • 図3 ビート、コード進行の自動検出例
    図3 ビート、コード進行の自動検出例


  • 図4 楽曲構造の例
    図4 楽曲構造の例


 コード検出、楽曲構造検出などの各要素技術が独立していた従来技術と比較して、12音解析ではこれら全ての検出処理が統合されており、検出結果を相互に利用した推定を行うことで高精度な検出処理を実現している。

特徴量の抽出
 続いて、時間-音程解析結果、音楽理論に即した解析結果を元に、楽曲の分類に有効と思われる特徴量の抽出を行う。現在商品化されている12音解析では、独立性の高い数十種類の特徴量を用いることで、色々な視点からの音楽分類を可能にしている。

メタデータの推定
 最後に、これまでの音楽解析で求められた特徴量を元にメタデータを推定する。ここで推定したメタデータは、例えば音楽検索のためのキーとして利用することができる。推定するメタデータとしては、以下のようなものが挙げられる。

メタデータの例

スピード感 人が感じる音楽の速さ。同じテンポでも音質やリズムパターンなどによって人が感じる音楽の速さ感は異なるため、テンポとは区別される。
エネルギー感 人が感じる音楽のエネルギー感。静かな曲は小さく、にぎやかな曲は大きくなる。
ジャンル ロック、ジャズ、クラシックなどのジャンルに当てはまるかどうか。
楽器音 音楽にピアノ、ベース、ギターなどの楽器が含まれているかどうか。
ムード 明るい、さわやか、優雅など、ムードを表すキーワードに当てはまるかどうか。

 12音解析では、数十あるメタデータそれぞれに対して手付けされた膨大な統計データを元にした統計解析、機械学習を行うことで、高精度にメタデータを推定している。

音楽、トークの分類

 音楽解析技術の一部を使うことで、高精度な音楽/トーク分類が可能になる。12音解析では、ラジオ番組の時間-音程解析結果に対して基本特徴量の抽出を行い、実際のラジオ放送から学習した音楽/トーク判別機を用いて一定間隔ごとに音楽/トークの自動ラベル付けを行う。

 12音解析は音楽の分類のために最適化された多くの特徴量を使った分類を行うため、従来は誤識別が多かったラップや音量変化の大きい音楽に対しても高い精度での分類を実現している。

類似楽曲の検索

 楽曲のメタデータ間の距離を利用した従来の類似楽曲検索では、必ずしも似ている曲が検索されるわけではない。これは、メタデータ間の距離は必ずしも実際に人間が感じる音楽の類似度を表さないためである。

 12音解析では、実際に人が感じる類似度を測定した実験データを元に特徴量を一旦、類似度をよく表す特徴量に変換し、変換後の特徴量を用いて楽曲の類似度を推定することで、より人間の感覚に近い類似楽曲検索を実現している。

今後の技術展開

 ソニーは、今後もより高精度なメタデータ自動付与のための技術を開発すると共に、メタデータを利用した新しいアプリケーションを提案していく。




本文の終了フッターをスキップし、ページの終了へ
Copyright 2012 Sony Corporation
ページの終了ページの先頭に戻る