使わないと損するレベル？音から直接楽曲検索できるAWAの音楽認識機能

11月 29, 2019

AWAのユニークな機能の1つに、「音楽認識機能」というものがあります。

これは、スマートフォンやタブレット端末に音楽を数秒～10秒程度聞かせることで、楽曲を特定してくれるという機能です。

通常、音楽を検索する際には、曲名、アーティスト名、アルバム名などをテキストで入力する必要があるのですが、必ずしもそうした情報を知っている場合ばかりではないと思います。

「音楽認識機能」は、「あのメロディーが聴きたい」というような、頭の中にある音楽を検索する場合や、街中などで「今流れているこの曲の情報を知りたい」といった場合に威力を発揮します。

とはいえ、「本当にそんなことができるの？」という疑問を持たれる方も多いかと思います。

そこで、今回は私が様々なパターンの音をスマホに聞かせて、その認識精度を検証した結果についてお伝えします。

話が長くなるので、最初に結論を。

流れている楽曲音源を認識させるのはほぼ問題なし
音源がなくても歌ものの歌メロであれば自分の声で認識可能

いかがでしょう、なかなか良さげな気がしませんか？

それでは、以下詳しくみていきましょう！

(※)今回紹介する検証は2018年夏頃行ったものであり、それ以降に同様の検証を行っても、AWAの仕様や楽曲ラインナップの変更などにより、結果が異なる可能性があります。

１．普通の音源は普通に認識できるか？

まずは、基本パターンの確認から。

これは、CDなどに収録されているスタジオ録音の音源をスマホに聞かせて認識させてみる、というテストです。

**音楽認識テスト結果(通常単一音源)**
No.	アーティスト名	曲名	ヒット数	候補数	配信	判定
1	Sonic Youth	Candle(Album Version)	1	1	なし	〇
2	Hysteric Blue	春～Spring～	1	1	なし	〇
3	Mr.Children	Discovery	1	1	あり	〇

表の見方

ヒット数：検索候補楽曲のうち、正しく特定できている(バージョン違い含む)数
候補数：認識結果に表示される候補楽曲の数

表の通り、ヒット数1、候補数1となっており、AWAで配信されていない楽曲も含めて、ドンピシャに特定できています。

AWAで配信されている曲はともかく、AWAで配信されていない曲(特に一度も配信されたことのないであろうHysteric Blue)まで特定できるのは意外でした。

なお、AWAで配信されていない曲については、曲名とアーティスト名のみの表示で、収録されているアルバム名までは表示してくれません。

しかし、曲名とアーティスト名さえわかれば、あとは普通にネット検索すればよいので、実用上はこれで十分ではないかと思います。

２．バージョン違いの音源を聞き分けられるか？

同じ曲でも、スタジオ録音、ライブ録音、ステレオ音源、モノラル音源と、バージョン違いのものが複数存在する場合もあります。

音楽認識機能の用途から言えば、そこまで聞き分ける必要はあまりないのかもしれませんが、こだわる人は一定数いるでしょうし、興味がわいてきたので試してみました。

**音楽認識テスト結果(バージョン違い)**
No.	アーティスト名	曲名	バージョン	ヒット数	候補数	配信	判定
1	Led Zeppelin	Heartbreaker	スタジオ	1	1	あり	〇
1	Led Zeppelin	Heartbreaker	ライブ(BBC Sessions)	1	1	あり	〇
2	Mr.Children	Discovery	スタジオ	1	1	あり	〇
2	Mr.Children	Discovery	ライブ(1/42)	1	1	なし	〇
3	Number Girl	EIGHT BEATER	スタジオ	1	1	あり	〇
3	Number Girl	EIGHT BEATER	ライブ	0	5	なし	×
4	The Beatles	A Hard Day's Night	ステレオ	1	1	あり	〇
4	The Beatles	A Hard Day's Night	モノラル	1	1	なし	〇
5	The Who	I Need You	ステレオ	0	1	あり	×

表の見方

ヒット数：検索候補楽曲のうち、正しく特定できている数(異なるバージョンを「異なる」とまで判定できていればカウント)
候補数：認識結果に表示される候補楽曲の数

以下、「ステレオ音源とモノラル音源」、「スタジオバージョンとライブバージョン」の2つに分けて説明します。

２－１．ステレオ音源とモノラル音源

スピーカーから流れる音源を聞かせるという時点で、ステレオ音源もモノラル音源も大差ないと思われるので、

「そこまで聞き分けられるものではないだろう」

というのが事前の予想でした。

実際、The WhoのI Need Youの場合は、ステレオ音源を再生したにも関わらず、モノラルバージョンと誤認しました。

しかし、The BeatlesのA Hard Day's Nightは、ステレオ音源とモノラル音源を聞き分け、AWAで配信のない(検証当時)モノラル音源の方は「配信がありません」との表示が出ました。

AWAの音楽認識機能は、必ずしもスピーカーの真ん中で音楽を聞かせることを想定しているわけではないと思います。

とすると、ステレオ音源、モノラル音源の微妙な響きの違いを認識して聞き分けているのかもしれません。

２－２．スタジオバージョンとライブバージョン

Led ZeppelinのHeartbreakerのように、AWAで両バージョンが存在する場合には、各バージョンの違いを判別できています。

AWAでスタジオバージョンの配信はあるが、ライブバージョンの配信がない場合は、曲によって結果が分かれることになりました。

Number GirlのEIGHT BEATERは、ライブバージョンを聞かせても検索結果が0件でしたが、Mr.ChildrenのDiscoveryは、ライブバージョンの音源から曲名とアーティスト名までは特定、「配信がありません」と表示されました。

Mr.ChildrenのDiscoveryの場合、スタジオバージョンとは異なる音源というところまでは判別できているようです。

このように、バージョン違いを判別できる場合もあれば、誤認する場合もあるという結果になりました。

３．鼻歌でも認識できるか？

１，２で想定したような、流れている曲の情報を知りたいというケースの他に、頭の中にある曲の情報を知りたい、再生したい、というケースも多々あるかと思います。

AWAの音楽認識機能では、音源だけではなく、鼻歌を聞かせることでも楽曲を特定させることができます。

歌詞のあり・なし、キーの違いなど、いくつかのパターンで鼻歌を試してみました。

**音楽認識テスト結果(鼻歌)**
No.	アーティスト名	曲名	条件	ヒット数	候補数	判定
1	Coldplay	Viva La Vida	キー：原曲歌詞：あり	2	3	〇
1	Coldplay	Viva La Vida	キー：原曲歌詞：なし	2	5	〇
2	大塚愛	ユメクイ	キー：オク下歌詞：あり	1	3	〇
2	大塚愛	ユメクイ	キー：オク下歌詞：なし	1	4	〇
3	19	三分間日記	キー：2音半下げ歌詞：あり	1	3	〇
3	19	三分間日記	キー：2音半下げ歌詞：なし	1	3	〇

表の見方

ヒット数：検索候補楽曲のうち、正しく特定できている(バージョン違い含む)数
候補数：認識結果に表示される候補楽曲の数

鼻歌の場合、CD音源などを聞かせる場合と違い、ドンピシャで特定できる、ということはありません。

3～5件程度の候補が表示されます。

ただ、歌詞があってもなくても、キーが原曲と同じでも違っていても、正しい結果が候補の中に含まれていますので、実用上、問題はないでしょう。

当然、ある程度正確に音程をとらないと認識精度が下がりますが・・・

４．ギターのフレーズなどを口ずさんでも認識できるか？

３でみたように、AWAの音楽認識機能を立ち上げて、歌メロを口ずさめば、一応正しい結果が出てきます。

が、歌のないインストゥルメンタルの曲を特定したい場合や、歌ものでもギターフレーズしか口ずさめない、という場合もあるでしょう。

そうした場合には、楽器のフレーズをハミングなどでスマホに聞かせるしか手立てがないように思いますが、うまく認識できるのでしょうか?

というわけで、4アーテイスト4曲の明快な楽器フレーズを口ずさんでみました。

**音楽認識テスト結果(楽器パート口ずさみ)**
No.	アーティスト名	曲名	パート	候補数	判定
1	Led Zeppelin	Heartbreaker	ギター(イントロ)	0	×
2	Deep Purple	Smoke On The Water	ギター(イントロ)	4	×
3	Jeff Beck	Blue Wind	ギター(メインテーマ)	5	×
4	My Little Lover	Magic Time	エレピ(イントロ)	4	×

表の見方

ヒット数：検索候補楽曲のうち、正しく特定できている(バージョン違い含む)数
候補数：認識結果に表示される候補楽曲の数

表の通り、惨敗です(笑)

特にJeff BeckのBlue Windは完全なインストゥルメンタル曲であり、ギターのフレーズで認識できなければ、この曲を認識させることは不可能でしょう。

５．2つの曲が同時に流れている場合でも認識できるか？

ここまでは1曲だけを認識させることを目標にテストしてきましたが、街中では複数の曲が同時に流れているケースも多々あります。

そうした場合でも正しく曲を認識できるのでしょうか？

この疑問に答えるため、スマホに2つの音源を同時に聞かせてみました。

結果は以下の通りです。

ボリュームの大きい方の曲が認識される。
ボリュームがほぼ同じ場合は、どちらの曲も認識不能(無関係な曲が候補に現れる)
2曲分を認識させることはできない

ある意味、当たり前な結果ですが、

「2曲同時に認識させることができれば、もっと効率よく楽曲情報を収集できるのに・・・」

と思いました。

６．まとめ

今回は、様々なパターンで、AWAの音楽認識機能をテストしてきました。

結論としては、

流れている楽曲音源を認識させるのはほぼ問題なし
音源がなくても歌ものの歌メロであれば自分の声で認識可能

ということになります。

長年多くの音楽リスナーを悩ませてきた「テキスト情報のない(知らない)音楽をどうやって検索するか」という問題。

まだまだ課題はありますが、AWAの音楽認識機能はこれを解決する一手段として有効であると感じました。

AWAの音楽認識機能自体は、無料プランでも利用できますので、興味を持った方は一度試してみてはいかがでしょうか?

このブログを検索

まほろばnotes