Google が大規模な日本語 n-gram データを公開

大規模日本語 n-gram データの公開
http://googlejapan.blogspot.com/2007/11/n-gram.html


常盤さんの mixi 日記で知りました.

Web から抽出した 1~7gram のデータらしい.
「Web から」ということは,正しい日本語かどうかはさておいた,今現在の使われ方がなされた日本語のデータということになります.
たぶん,「正しい日本語」から作られた n-gram データよりも,ずっと実用的でしょう.

さて,私は何に使おうかなー.

--

そういえば,国語研って,廃止検討に挙がっていたっけ?

この記事へのコメント

のぐち
2007年11月02日 06:13
分かち書きされた後のデータに対するn-gramですね。webの日本語を元にしたのは良いのですが、使っているツール(mecab)がそれに対応できる力がないから、正しい日本語を食わせた時より、より実用になるかどうかは疑問。mecabの解析能力は正しい日本語でも理想からは程遠いから、くだけた日本語だともっとつらいことになるでしょう。

某企業のソフトウェアの日本語化プロジェクトで日本語のインデックスを作るのにmecabを使いましたが、mecabは未知語や複合語の処理がかなり弱い。Wikipediaのデータ10万件を食わせてテストしたけど、辞書に入っていない単語がくるとお手上げ。

(それでもmecabは最強の形態素解析の一つですよね。作者の名誉のため)
2007年11月02日 07:47
「インデックス」というのは,いわゆる「目次」のことでいいのかな?
インデックスを作るのと違って,n-gram 統計量を n-gram 統計量として使うときには,正しい解析である必要は必ずしもないと思うのですが,いかがですか?
仮に,"ワインバーガー長官" が "ワイン" + "バーガー" + "長官" になっていても,解析時と使用時とで一致していれば,有用でしょ?
2007年11月02日 07:55
http://nomadscafe.jp/test/keitaiso/index.cgi
こういうサイトがあった.

> mecabの解析能力は正しい日本語でも理想からは程遠いから、

私は,「理想から程遠くなっちゃう例文」を知らないのだけど,それらに共通する特徴(傾向)ってないかな?