「言った」「言わない」の争いに終止符!?

2000時間のデータを3秒でサーチ!音声検索技術のメカニズムとは?

2008.11.14 FRI


今回体験させてもらった、大規模音声検索技術のデモ画面(※開発中のもの)。検索結果には該当精度を星の数で表す「スコア」が添えられている。世の中には様々な口調・声質の人がいるが、「開発過程で数百人の音声データをサンプリングして検索精度を高めている」(神田さん)とのこと
先ごろ日立製作所が公開した「大規模音声検索技術」がすごい。発表によると、2000時間分の音声(または映像)データから、キーワードで任意の箇所を検出する作業が、わずか3秒で行えるという。

音声や映像がキーワードで検索できるようになれば、これは画期的! さっそく日立製作所・中央研究所を訪ね、デモンストレーションを見せてもらった。

今回のデモは、講演会の音声データ(※独立行政法人国立国語研究所『日本語話し言葉コーパス(CSJ)』収録のもの)から、任意のキーワードの発言個所を検出するもの。検索窓にキーワードを打ち込み、検索ボタンを押すと確かに早い! 通常の検索サイトと同じ感覚で、入力した言葉を含む箇所がサムネイルでずらりと表示された。

検索結果を順にクリックしていくと、入力した言葉が様々な人(講演の登壇者)の声で次々と再生されていく。検索精度も文句なしだ。

「もともと弊社では長年、音声認識を研究してきました。ストレージやインフラの発達によって音楽や動画をパソコンで楽しむことが浸透した昨今、蓄積したコンテンツを有効活用するために、音声検索のニーズはいっそう高まっていくでしょう」(知能システム研究部・主任研究員 大淵康成さん)

それにしても見事な速度と精度。その秘密は?

「高速かつ高精度の音声検索を実現するため、ふたつの技術を組み合わせています。ひとつは音声データを音素記号に変換し、インデックスを作る技術。たとえば『日立』というワードなら『hit/ita/tach/achi』と4つの音素ブロックに分解し、それぞれを含む部分を一覧化します。そこから照合作業を数段階に分けて行うことで、高い検索精度が得られます」(同・神田直之さん)

では、この技術はどんな形で実用化され得るのか。同社では、ビジネス面でのニーズも大きいと期待する。

「ビジネスにはどうしても『言った』『言わない』の問題が生じがちですが、音声記録さえ残しておけば必要な場面を検出し、容易に事実関係が確認できます。金融機関や不動産業者など、法的な説明義務が果たされたかどうかの確認、あるいはコールセンターなどの品質管理などにも有効でしょう」(大淵さん)

現在、アプリケーション販売やデバイスへの組み込みなど、様々な可能性を模索中だというこの技術。数年先を見込んでいるという商品化が実現すれば、検索シーンを大きく進化させることになりそうだ。

関連キーワード

注目記事ピックアップ

 

編集部ピックアップPR

ブレイクフォト