AI現場レポート:音声認識の精度検証と意外な”落とし穴”

初めまして。製品企画部の 平石です。
 
今回は音声認識にまつわる話をさせて頂きます。
 
お客様がよく気にされるのは、「認識精度って何パーセントですか?」という点ですが、音声認識の精度評価には数字が小さいほうが認識精度は良いという指標がよく使われています。
 
精度評価に使われる指標は具体的には以下のようなものです。
* WER(Word Error Rate) 単語誤り率
* CER(Character Error Rate)文字誤り率
 
この2つの指標はいずれも、間違っている率なので、数字が小さい方が良い数字となります。
(皆さん認識精度という言葉を使われているので、数字は大きい方がいいと思っているのですが、この音声認識の指標は小さい方が精度がいいという事になります。ちょっとした落とし穴ですね。)

さて、WER、CERはいずれも「正解」と「認識結果」を比較して計算します。 
 
ここで、そろそろ本題の精度評価なのですが、ここにも落とし穴があります。
簡単に言うと認識結果が微妙でも、精度は高くなるケースがあるのです。
  具体的には下記のイメージになります。

 まず「正解」が下記のケースにおいて、  2つの音声認識エンジンでテストして「認識結果1」、「認識結果2」の2つの結果が得られたとします。
 
正解)斎藤さんから見積頂いたのですが
   
認識結果1)斉藤さんから見積り頂いたのですが
認識結果2)さいとうさんからみつもりいただいたのですが

  そこで「正解」と「認識結果1」を比較します。
 
認識結果1)藤さんから見積頂いたのですが
 
  正解と比べると、2か所誤りがあります。「斎藤」の「斎」が「斉」に誤変換、「見積」が「見積り」となり「り」が1文字余分に追加されています。
  
ちなみに「認識結果2」と比較すると誤りが11文字あります。
 
認識結果2)さいとうさんからみつもりいただいたのですが
 
  計算するまでもなく「認識結果1」のほうが良い精度という事になります。
 
「認識結果1」>「認識結果2」

でも、「認識結果1」の誤りとされた箇所ですが本当に間違いとしていいのでしょうか?

人名は「サイトウ」という音を聞いただけでどの漢字かは誰もわからないと思いますし、「見積」と「見積り」の表記のゆれは、どちらが間違いとも普通は言えないですね。

従って、どのレベルを許容するかという線引きが必要となりますが、この線引きがまた少しやっかいです。
昔、私が学生だった頃の話ですが、テストの答案を書く際に『誤った漢字を記載すると減点します。ただし、ひらがなで記載すれば誤りとはいえないので減点しません』というルールがありました。
 
もしこのルールを適応すると、
「認識結果1」は「斎」を「斉」に間違っているので 1文字誤り
「認識結果2」はすべて正解
となります。結果、「認識結果2」の方が良い精度という結論になり、実は精度が逆転してしまいます。
 
「認識結果1」<「認識結果2」
でも、少なくとも私には「認識結果1」のほうが全て平仮名の「認識結果2」より読みやすいように思えます。おそらく皆さんも同じお考えになるのではと思いますが如何でしょうか?
 
残念ながら、世の中の統一的な線引きというものは無いのですが、音声認識を業務活用するとしたら、ここは間違えたくないというところがあるはずです。従って、業務目線で線引きを考える事が必要です。もっとも「斎藤」と「斉藤」のように当てる事が出来ないものもありますので、ここは業務目線と出来ない事のバランスが重要かと思います。
 
レトリバは各種の製品と共に利用できるように、独自に音声認識エンジンを開発しており、柔軟にご提供が可能です。
当社製品との組み合わせに限らず、音声認識のみでのご相談もお待ちしております。
 
詳細希望の方はこちらからお問い合わせください!

retrieva.jp