「レンコンが数十万円」のウラの意味って!?

ネット隠語を識別する「自然言語処理」の実力とは?

2008.09.26 FRI


「レンコンと豆セット」=「拳銃と弾丸をセット」という意味の隠語なのだとか。でも、実際にレンコンと豆が送られてきたら、「鳩が“豆鉄砲”食らった」ような顔になるかも? イラスト/コットンズ
先日、総務省が新しい違法有害情報の検出ソフトの開発に乗り出すというニュースが流れた。

一連の報道によると、サイト運営企業などが、自社でネット上の殺人予告や隠語を使った拳銃取引などの犯罪の情報を素早く、少ない人手で検知することを可能にするソフトだという。

このソフトには、例えば「レンコン」(拳銃の意味)、「豆」(弾丸の意味)といった、特定の関係者にしか分からない特別の意味を持つ語である「ネット隠語」がデータベース化されるらしい。さらに、「自然言語処理」と呼ばれる手法を使い、単語の有無だけでなく、文章全体の構成を解析して、一見普通の文章からでも犯罪との関連性を推測する、画期的な機能も備えるとのこと。

つまり、「レンコンが数十万円」「レンコンと豆をセットで販売」という文章や、連絡先住所が明記されていないなど、一般的な通販サイトと明らかに違う場合、ソフトウエアが「犯罪性アリ。有害情報の可能性が高い」と推測。サイト運営企業などがこの推測結果を踏まえて、素早く犯罪性の有無などを判断できるようになるのだとか。

隠語の裏に隠された違法有害情報の可能性まで発見できるとは、なかなかやりますなあ。ところで、このシステムのキモとなる「自然言語処理」って、一体どんな技術なんでしょう?

「私たちがいつも書いたり、話したりしている言葉を『自然言語』といいます。自然言語処理とは、コンピュータにとってはただの情報の羅列に過ぎない文字列を単語の組み合わせだと認識させ、単語の品詞を解析し、文章の主語、述語を判断させるような技術のことです。そのアプリケーションの例としては、翻訳ソフトや検索エンジンが挙げられます」(情報通信研究機構で「自然言語処理」を研究する鳥澤さん)

「自然言語処理」研究の歴史は非常に長いけれど、10年ほど前から統計的処理を利用することで劇的に進歩したそうだ。例えば、文部科学省のプロジェクト「情報爆発」などでもWebを大規模に使って盛んに研究されているとのこと。現在も日々技術は進化しており、今では音声認識技術と組み合わせ、携帯電話に搭載されている音声翻訳やプログラムと会話できる会話ソフト、ワープロソフトの文章校正などにも「自然言語処理」が活かされているという。

ネットを利用した犯罪や犯行予告が社会問題化しつつある昨今。それらを迅速に発見してくれるソフトの実現は、実は急務の課題なのかもしれません。

関連キーワード

注目記事ピックアップ

 

編集部ピックアップPR

ブレイクフォト