BSDライセンスの表記ゆれ辞書「たんし」を公開しました
sourceforgeに移りました。こちらからどうぞ。
「たんし」は表記ゆれ判別用の辞書です。フォーマットは国立国語研究所の表記統合辞書に基づいています。
TSV(タブ区切り)で、
- 見出し語
- 当該見出し語の読み
- 当該見出し語の品詞名
- 当該見出し語の活用型
- 当該の「見出し語」に対して,同語と判断された「見出し語」のリスト
です。
一部を引用すると、
踏みやぶら フミヤブラ 動詞-自立 五段・ラ行五段・ラ行-未然形 踏みやぶら/踏み破ら/ふみやぶら/踏破ら 踏破ら フミヤブラ 動詞-自立 五段・ラ行五段・ラ行-未然形 踏破ら/踏み破ら/ふみやぶら/踏みやぶら ねぐら ネグラ 動詞-自立 五段・ラ行五段・ラ行-未然形 ねぐら/ネグら
という風になっています。
語数の比較は次のようになります。
表記ゆれ辞書 | 見出し語数 | 表記ゆれ候補数(見出し語を含めない) |
---|---|---|
表記統合辞書 | 約3万語 | 約4.5万語 |
たんし | 約30万語 | 約67万語 |
修正BSDライセンスの規約上、元になった辞書はここでは書けません。関係者の方々に感謝いたします。