語彙数推定テスト

きむりん1000ミリグラムから教わった「語彙数推定テスト」.
http://www.kecl.ntt.co.jp/icl/mtg/goitokusei/goi-test.html

まずは結果を書くと,順に,

60100, 61700, 64600

でした.
「粗い近似方式を考えました」ということはわかるけれども,測定方法や推定にあたっての仮定に疑問がある.
まず,「知っている単語をチェックして」の「知っている」の度合い.
私は,「自分が聞かれたときに説明できるかどうか」を基準にした.
「知っている」の度合いが,「聞いたことがある」程度でいいのか,それとも「なんとなく説明できる」程度でいいのか,「きちんと説明できる」でないといけないのか,それによってかなり推定値が異なる.
たとえば,「事務次官」は割とニュースで聞くので,多くの人が「知っている単語」だろうけれども,「事務次官とはどんな人なのか」をきちんと「知っている」人はほとんどいなさそう.
「事務次官」は,中ほどの位置にある語なので,だいぶ結果に影響がありそうな感じ.
「糸道」も「おそらくはあのことだろうなー」とは思うけれども,見当違いの事物を指しているのかもしれない.

次に,この推定は,母集団平均値推定(推定平均値そのものか,平均値区間推定での信頼限界上限)っぽいのだけど,母集団がひとつであると仮定しているのだろうか?
テストが 3 通りあったけれども,異なる母集団を相手にしているような気がしなかった.
たとえば,芸術系の単語はなかったし,コンピュータ関連の単語もなかった.
かといって,日常的に存在する単語から選んでいるふうでもなかった.

実際に試したのぐちくんと私の結果を比べてみると,こんなに差があるはずがないと思う.

ということで,推定値の桁数程度しかあてにならないのではなかろーか.
10 万語はないかもしれないが,1 万よりは多かろう,5 万よりは多かろう,くらい.

このテストを基にして,もうちょっと精度を上げるとしたら,「知っている」の正しさをチェックしつつ,複数のテストは複数の母集団を仮定する,のかなぁと思う.
私だったらそうする.

------
唐突に思い出したのだけど,「練りはみがき」ってわかりますか?
これがよい例かどうかわからないけれど,世代によっても「知っているだろう単語」,「知らないだろう単語」があるので,粗く近似するのも難しそう.

この記事へのコメント