特許情報から見たJOYSOUNDの声質評価

特許情報から見たJOYSOUNDの声質評価

こんにちは。
今日はJOYSOUND採点の声質評価についてJOYSOUOND関係の会社の特許情報から読み取れる内容を書いてみたいと思います。

まずMAXから導入されたと思われる、聴覚感度特性を考慮した聴き取りやすい周波数分布の声の評価(特開2013-57892)について

この特許を一言で表すと、聞き取りやすい声を高評価するのですがイメージしずらいので聞いていて疲れない声を高評価するということです

これは特定の瞬間瞬間の音声のパワースペクトルが人間の聴覚特性として「聴き取りやすい」と感じるスペクトルに近いほうが高評価となるものです。
ざっくり言うと瞬間瞬間の音声をグラフィックイコライザーやスペクトラムアナライザーで見た場合に、人間の耳にとって聴き取りやすい音と感じる周波数特性グラフ(の帯域制限特性グラフ)に近いと高評価になります。
基準となる聴覚感度特性はカラオケのメモリー内に格納しているようです。
ISO 226:2003で規定されている等ラウドネス曲線(A特性)が聴覚感度特性として使用されているのだと思いますが、この聴覚感度特性はどのようなデータであってもよいと特許に記されています。
この特許でののスコア(得点)を決定する基準となる「帯域制限特性LRA(fi(m))」を生成する数式のうちの感度ZA(fi(m))が周波数毎の聴覚感度になります。
この聴覚感度特性が改変されると、採点で急に伸びなくなったり急に伸びたりする曲や人が出てきたりします。

採点厨の方でマイクにイコライザーを介して使う方がいるようですが、おそらくこの聴き取りやすい周波数特性となるように自分の声を加工していると思われます。
ただ、自分の声にイコライザーを介した声の周波数特性が聴覚感度特性に合致した周波数特性となる保証はどこにもないので膨大なトライアンドエラーの調整の末高得点に結びつけたのでしょう。

と、裏技っぽい話もありますが、人の耳に心地よい発声をより良く評価するためにJOYSOUND運営さんは細かく聴覚感度特性を更新していってるのだと思います。
なので、MAX発売開始当時にヒドイ点数で採点をあきらめてしまった方も今では高評価をもらうように変化している可能性も大いにあります。
実際に私はここ1年くらい採点がさっぱりダメになってきたので(主にMAX2での歌唱で)、聴き取りやすい声質に関してはJOYSOUND運営さんの姿勢は正しいような気がしています。

ちなみに、特許に「周波数F0minを、歌唱音声帯域の帯域下限周波数VFminとし、周波数F0maxに音声成分帯域VFを加えた周波数を、歌唱音声帯域の帯域上限周波数VFmaxとした歌唱音声帯域を特定する。ただし、ここでいう音声成分帯域VFとは、周波数F0maxから、周波数F0maxの規定数倍の倍音成分に対応する周波数までの周波数帯域である。」とあるのですが、MAX2とMAXではマイク入力のAD変換DSPが異なるので、同じ周波数帯域VFminからVFmaxの区間であっても、得られる歌唱の音声スペクトルは多少異なると思います。

特許に「聴覚感度特性を、いわゆるA特性としていたが、聴覚感度特性は、これに限るものではなく、例えば、いわゆるB特性や、いわゆるC特性であっても良い。つまり、聴覚感度特性は、人の聴覚の周波数特性を表すものであれば、どのようなものでも良い。」とあるので、A特性である「等ラウドネス曲線」の説明等を示します。
【参考資料】
等ラウドネス曲線
A特性・B特性・C特性

音声のケプストラム分析による母音の安定性の評価(特開2015-31728)

この特許を一言で表すと、無理して声出しても評価しないよってことです

これは歌詞情報から母音情報を抽出し、特定の歌唱区間での音声のケプストラム分析により母音がキレイに(苦しそうでなく)発声されたかを検出し、安定性として評価するものです。
ケプストラム分析はざっくり言うと音声のパワースペクトル自体を波形として見て分析するものです。スペクトルのスペクトルのようなイメージです。
ケプストラムの波形にあまり変動が無い場合に安定して発声していると評価します。
【参考資料】
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析 – SlideShare

音声の母音標準ケプストラムとの比較によって音高を適切に発声したかの評価(特開2015-31729)

この特許も上と同じで、無理して声出しても評価しないよってことです

上記と同じようなケプストラム分析を用いてあらかじめ用意した母音標準ケプストラムとの比較を行って特定の音高を無理なく発声したかを評価しています。

歌の同一箇所の歌手のメル周波数ケプストラムと歌唱音声のメル周波数ケプストラムの相関を評価(特開2015-184448)

この特許を一言で表すと、原曲のアーティストに声似てたらそれって上手いんじゃね?です

この特許は現行の採点仕様に利用されているか若干不明で、ひょっとしたら新機種の採点仕様に実装されるものかもしれないですが、歌手の音声特徴に近い(ケプストラムを人間の耳の聴覚特性によって強調したメル周波数ケプストラムで検証)かを評価しています。
【参考資料】
メル周波数ケプストラム(MFCC)

このあたりの特許がMAX2,MAXでの声質評価に該当するものかと思われます。
分析採点のパラメーターとしては安定性に寄与するものと思われます。

高音を無理して発声しないようにしたり、歌詞の母音をキレイに発声することなどの2015年公開の特許は2017年7月のMAX2登場以降に実装されたのではないかと考えています。
MAX2発売以降私の高音の無理やり発声では得点が稼げなくなって代わりに、裏声に変えてキレイに発声したら高得点が稼げたような気がすることからそう考えています。
一文字歌唱の方は、歌詞の母音に合わせた「ラリルレロ」とかに変えた方が伸びるのかもしれません(試したことがないのでテキトー発言です)。

特許は存在していますが、実際の採点エンジンに使用されているかはJOYSOUND運営さんが情報を開示するわけもないので予想の範囲を超えませんが、このような特許の存在も知識として持っておくと良いかと思います。

特許の内容はJ-PlatPat(特許情報プラットフォーム)でどなたでも閲覧可能なので、興味があるかたは特許全文に目を通してみるといいかもしれません。

参考まで。

特許関係カテゴリの最新記事