読者です 読者をやめる 読者になる 読者になる

MediaLab Love Chapter 2

Assistance of MediaLab Love about Javascript test and more...

BSDライセンスの表記ゆれ辞書「たんし」を公開しました

nlp dictionary


sourceforgeに移りました。こちらからどうぞ。

ダウンロード (SkyDrive)

「たんし」は表記ゆれ判別用の辞書です。フォーマットは国立国語研究所表記統合辞書に基づいています。

TSV(タブ区切り)で、

  1. 見出し語
  2. 当該見出し語の読み
  3. 当該見出し語の品詞名
  4. 当該見出し語の活用型
  5. 当該の「見出し語」に対して,同語と判断された「見出し語」のリスト

です。

一部を引用すると、

踏みやぶら	フミヤブラ	動詞-自立	五段・ラ行五段・ラ行-未然形	踏みやぶら/踏み破ら/ふみやぶら/踏破ら
踏破ら	フミヤブラ	動詞-自立	五段・ラ行五段・ラ行-未然形	踏破ら/踏み破ら/ふみやぶら/踏みやぶら
ねぐら	ネグラ	動詞-自立	五段・ラ行五段・ラ行-未然形	ねぐら/ネグら

という風になっています。

語数の比較は次のようになります。

表記ゆれ辞書 見出し語数 表記ゆれ候補数(見出し語を含めない)
表記統合辞書 約3万語 約4.5万語
たんし 約30万語 約67万語

ライセンスは2条項BSDライセンス*1です。

修正BSDライセンスの規約上、元になった辞書はここでは書けません。関係者の方々に感謝いたします。

MD5(V1.0.0)
0b94380423e7377f08ca1a2c3d4a4c81
SHA1(V1.0.0)
e31b0368c397a8bf8107401df79130aff3f2c63c
SHA512(V1.0.0)
1a03dec7715480ca801821e2db9c9a136a14e22a8b19965fa5e5b34e81bcfa9584276b4a2acf401aca6263126f4c4b2c324eab6e9cfdae5fa9e31b43a79a9860

*1:FreeBSDと同じライセンスです。修正BSDライセンスのうち、第3条を削除したものです。詳しくは、[http://ja.wikipedia.org/wiki/BSD_License:title]を参照してください。