表記ゆれ辞書「たんし」 V1.1.0を公開しました。
sourceforgeに移りました。こちらからどうぞ。
V1.1.0との変更点は
- 表記ゆれと見なす基準を、「表記が同一」から「発音が同一」に変更しました。
(これによって、「ヴァイオリン」と「バイオリン」の表記ゆれが判別できるようになりました。)
- 上記変更に伴い、発音を辞書に含める。
- 地名と組織の固有名詞を辞書に含める。
- その他バグを修正
以上です。見出し語が4,000、表記ゆれ候補数が約17,000増えました。
- MD5(V1.1.0)
- 7bd5ba4c73da418eaa740e64bbd7e198
- SHA-1(V1.1.0)
- a890161c8e2cb9b62f375875b49f6f7037030781
- SHA-512(V1.1.0)
- 03a3add26998f0df100db3d688aae79405c2d81f9249da253f5ee938552d22b0c3fc9f7eec511ea2f65561286ea6ace8c9b52a93a8374c761511381581eb05c0
追記:
http://tansi.sourceforge.jp/ に移管しました。
BSDライセンスの表記ゆれ辞書「たんし」を公開しました
sourceforgeに移りました。こちらからどうぞ。
「たんし」は表記ゆれ判別用の辞書です。フォーマットは国立国語研究所の表記統合辞書に基づいています。
TSV(タブ区切り)で、
- 見出し語
- 当該見出し語の読み
- 当該見出し語の品詞名
- 当該見出し語の活用型
- 当該の「見出し語」に対して,同語と判断された「見出し語」のリスト
です。
一部を引用すると、
踏みやぶら フミヤブラ 動詞-自立 五段・ラ行五段・ラ行-未然形 踏みやぶら/踏み破ら/ふみやぶら/踏破ら 踏破ら フミヤブラ 動詞-自立 五段・ラ行五段・ラ行-未然形 踏破ら/踏み破ら/ふみやぶら/踏みやぶら ねぐら ネグラ 動詞-自立 五段・ラ行五段・ラ行-未然形 ねぐら/ネグら
という風になっています。
語数の比較は次のようになります。
表記ゆれ辞書 | 見出し語数 | 表記ゆれ候補数(見出し語を含めない) |
---|---|---|
表記統合辞書 | 約3万語 | 約4.5万語 |
たんし | 約30万語 | 約67万語 |
修正BSDライセンスの規約上、元になった辞書はここでは書けません。関係者の方々に感謝いたします。
PerlでUTF-8のファイルを開くときはBOM無しにした方がよい
use strict; use warnings; use utf8; use encoding 'UTF-8'; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; 中略 open my $FH, "<:utf8" , 以下略(ファイル名) while (readline $FH){ chomp; @temp = split(/,/,$_); print $temp[0];
という風にしたら、
?あああ
と言う風に?が出ちゃいます。最初分からなかったのですが、?の正体はBOMみたいです。
Perl 5.8.x 以降で BOM を操作するモジュール ハードなソフトの話/ウェブリブログを見ると、BOMを取り除くモジュールがあるようですが、面倒なので最初からBOMなしのファイルを使った方が良さそうです。
著作権法改正案を読み解く(3) (第四十七条の六 検索エンジンの非違法化)
その3です。
(送信可能化された情報の送信元識別符号の検索等のための複製等)
http://www.mext.go.jp/component/b_menu/other/__icsFiles/afieldfile/2009/03/11/1251916_5_3.pdf
第四十七条の六 公衆からの求めに応じ、送信可能化された情報に係る送信元識別符号*1を検索し、及びその結果を提供することを業として行う者*2は、当該検索及びその結果の提供を行うために必要と認められる限度において、
長いので、ここで切ります。送信元識別符号っていうのは、URLですね。しかし、いい加減この「業として」というのを削除してほしいと思います。今時は個人だってウェブサービスの一つや二つは持ってしまう時代なのですから。
送信可能化された著作物*3について、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行い、及び公衆からの求めに応じ、当該求めに関する送信可能化された情報に係る送信元識別符号の提供と併せて、当該記録媒体に記録された当該著作物の複製物*4のうち当該送信元識別符号に係るものを用いて自動公衆送信(送信可能化を含む。)を行うことができる。
http://www.mext.go.jp/component/b_menu/other/__icsFiles/afieldfile/2009/03/11/1251916_5_3.pdf
検索エンジンのことですね。冒頭の「送信可能化された著作物」の説明では「ログインしなきゃ見られないような情報は、きちんと許可を得てからクローリングしろ」と言っています。
うーむできれば、記録媒体への記録の際にはrobots.txtに代表される公開クローリング制限情報をきちんと遵守するような文言を入れてほしかったです。
また、自動公衆送信を行うことができるのはあくまで送信元識別符号、つまりURLの提供と併せたときだけです。URLを表示せず、つまりリンクを張らずに単純に情報を並べるのは要件を満たさないということになります。
ただし、当該検索結果提供用記録に係る著作物に係る送信可能化が著作権を侵害するものであること*5を知つたときは、その後は、当該検索結果提供用記録を用いた自動公衆送信(送信可能化を含む。)を行つてはならない。
http://www.mext.go.jp/component/b_menu/other/__icsFiles/afieldfile/2009/03/11/1251916_5_3.pdf
「当該検索結果提供用記録に係る著作物」とは送信元識別符号が示す先の著作物(つまりURL先)のことをいっているのか、公衆送信する者が作成する二次的著作物なのかがいまいち理解できません。
悔しいですがここで断念します。
*1:自動公衆送信の送信元を識別するための文字、番号、記号その他の符号をいう。以下この条において同じ。
*2:当該事業の一部を行う者を含み、送信可能化された情報の収集、整理及び提供を政令で定める基準に従つて行う者に限る。
*3:当該著作物に係る自動公衆送信について受信者を識別するための情報の入力を求めることその他の受信を制限するための手段が講じられている場合にあつては、当該自動公衆送信の受信について当該手段を講じた者の承諾を得た者に限る。
*4:当該著作物に係る当該二次的著作物の複製物を含む。以下この条において「検索結果提供用記録」という。
*5:国外で行われた送信可能化にあつては、国内で行われたとしたならば著作権の侵害となるべきものであること
著作権法改正案を読み解く(2) (第四十七条の五 キャッシュ、プロキシサーバ)
その2です。
2 自動公衆送信装置等を他人の自動公衆送信等の用に供することを業として行う者は、送信可能化等がされた著作物(当該自動公衆送信装置等により送信可能化等がされたものを除く。)の自動公衆送信等を中継するための送信を行う場合には、当該送信後に行われる当該著作物の自動公衆送信等を中継するための送信を効率的に行うために必要と認められる限度において、当該著作物を当該自動公衆送信装置等の記録媒体のうち当該送信の用に供する部分に記録することができる。
http://www.mext.go.jp/component/b_menu/other/__icsFiles/afieldfile/2009/03/11/1251916_5_3.pdf
要はキャッシュサーバ、プロキシサーバのことですね。こちらでも「業として行う」の文言が入っています。
3 次の各号に掲げる者は、当該各号に定めるときは、その後は、当該各号に規定する規定の適用を受けて作成された著作物の複製物を保存してはならない。
http://www.mext.go.jp/component/b_menu/other/__icsFiles/afieldfile/2009/03/11/1251916_5_3.pdf
「は、」が3連続のひどい悪文。どの主語がどれに係っているのか全然わかりません。文化庁に文化を感じない。
一 第一項(第一号に係る部分に限る。)又は前項の規定により著作物を記録媒体に記録した者 これらの規定に定める目的のため当該複製物を保存する必要がなくなつたと認められるとき、又は当該著作物に係る送信可能化等が著作権を侵害するものであること*1を知つたとき。
http://www.mext.go.jp/component/b_menu/other/__icsFiles/afieldfile/2009/03/11/1251916_5_3.pdf
保存する必要がなくなったとき、著作権侵害コンテンツであることを知ったときは速やかに消してください、とのことです。
しかし、現行著作権法(追記:附則だけでした。)ですら小さい「っ」を使っているのに、どうして使わないのでしょうか。暇なときに青空文庫の入力でもしているのでしょうか。
二 第一項(第二号に係る部分に限る。)の規定により著作物を記録媒体に記録した者 同号に掲げる目的のため当該複製物を保存する必要がなくなつたと認められるとき。
http://www.mext.go.jp/component/b_menu/other/__icsFiles/afieldfile/2009/03/11/1251916_5_3.pdf
これもいらなくなったら消してくださいね、とのことです。ちなみに、第一号は通信障害防止用、第二号はバックアップ用と考えてください。
*1:国外で行われた送信可能化等にあつては、国内で行われたとしたならば著作権の侵害となるべきものであること
著作権法改正案を読み解く(1) (第四十七条の五 バックアップ)
とりあえず文部科学省、文化庁のお役人の皆様、お疲れ様でした。三重括弧とかがあってすごく読みにくかったです。それから、法律案の段階なので著作権は文化庁が保持していると思いますが、PDFはコピー可能にしてほしかったです。私の環境はAcrobat Standard 8ですが、PDF内の単語検索もできません。
私にとっては著作権侵害コンテンツのダウンロード違法化はどうでもいいので、そのほかの部分について自分で理解できた分だけを書きたいと思います。主に第四十七条の複製の関する部分を読む予定です。
引用元が「主」引用先が「受」、及びその他の「引用」の用件は満たさないと思いますが、文化庁の皆様は目くじらたてないでくださいね。
(送信の障害防止等のための複製)
http://www.mext.go.jp/component/b_menu/other/__icsFiles/afieldfile/2009/03/11/1251916_5_3.pdf
第四十七条の五
自動公衆送信装置等*1を他人の自動公衆送信等*2の用に供することを業として行うものは、次の各号に掲げる目的上必要と認められる限度において、当該自動公衆送信装置等により送信可能化等*3がされた著作物を、当該各号に定める記録媒体に記録することができる。
あまりにも複雑なんで、脚注記法で書いちゃいました。本当は脚注の脚注にしたかったのですが、ダイアリーの仕様上無理で、またブラウザの仕様上しても意味がないので仕方がありません*4。
「業として行う」と書いてありますが、こちらを読むと、個人的あるいは家庭的なものを除くすべて、と書いてあります。個人で運営するユーザー参加型のウェブサービスではバックアップとっちゃだめってことですかね…。
それはともかくこの法律の一例を挙げると、「ブログデータのバックアップを、そのブログを運営している会社がしていいよ。」ってことですが、目的が二つありまして、
一 自動公衆送信等の求めが当該自動公衆送信装置等に集中することによる送信の遅滞又は当該自動公衆送信装置等の故障による送信の障害を防止すること 当該送信可能化に係る公衆送信用記録媒体等*5以外の記録媒体であつて、当該送信可能化等に係る自動公衆送信等の用に供するためのもの
http://www.mext.go.jp/component/b_menu/other/__icsFiles/afieldfile/2009/03/11/1251916_5_3.pdf
二 当該送信可能化等に係る公衆送信用記録媒体等に記録された当該著作物の複製物が滅失し、又は毀損した場合の復旧の用に供すること 当該公衆送信用記録媒体等以外の記録媒体(公衆送信用記録媒体等であるものを除く。)
一は送信の遅れ、障害の防止のために、ミラーサイト(当該送信可能化等に係る自動公衆送信等の用に供するためのもの)をつくってもいい。二はデータが壊れたとき用にバックアップをとってよい、というところでしょうか。
しかし、わざわざ「バックアップは『その公衆送信用のためにある』別の記録媒体にしろ」だなんて、文化庁の方は親切ですね。記録媒体の定義は現行の著作権法にも書いてありませんが、「コンピュータ1単位」ってことでいいんでしょうか?最近はサーバの仮想化が流行っていますが、その辺はどういう風に考えているのでしょうか?
頭が痛くなってきたので、今日はここまでです。
*1:自動公衆送信装置及び特定送信装置(電気通信回線に接続することにより、その記録媒体のうち特定送信(自動公衆送信以外の無線通信又は有線電気通信の送信で政令で定めるものをいう。以下この項において同じ。)の用に供する部分(第一号において「特定送信用記録媒体」という。)に記録され、又は当該装置に入力される情報の特定送信をする機能を有する装置をいう。)をいう。以下この上において同じ。)
*2:自動公衆送信の及び特定送信をいう。以下この上において同じ。
*3:送信可能化及び特定送信をし得るようにするための行為で政令で定めるものをいう。以下この上において同じ。
*4:2chブラウザみたいにできたらいいんですけどね。LegalXMLとかどうなったのかな…
*5:公衆送信用記録媒体及び特定送信用記録媒体をいう。次号において同じ
「青空文庫 全」DVDから2009/3/5までの差分配信を開始しました。
前回の報告は、様々な反響があり私自身とても驚いています。
また、ファイルのシーダーとなってくださった方、並びに青空文庫の管理運営、入力校正に携わっている方々、誠に有り難うございました。
今度配信するのは、「青空文庫 全」のDVDの収録(2007/10/1)から2009/3/5までのファイルで、約1300の作品が入っています。
今回はファイルサイズが小さいので、BitTorrentによる配信と、SkyDriveによる配信、両方実施します。
BitTorrentによる配信はトレントファイルを以下からダウンロードして実施してください。圧縮ファイルで、60MBほどです。
http://www.ceena.net/view.php?id=110204015350-792640
またSkyDriveからダウンロードする方は、以下の3つのファイル全てダウンロードしてください。Windows Liveの登録は必要ありません。分割ファイルになっています。
- http://cid-82e06003bdbc7ae7.skydrive.live.com/self.aspx/.Public/%e9%9d%92%e7%a9%ba%e6%96%87%e5%ba%ab%20%e5%b7%ae%e5%88%86%20071001-090305/AozoraBunko%7C_090305.zip.001
- http://cid-82e06003bdbc7ae7.skydrive.live.com/self.aspx/.Public/%e9%9d%92%e7%a9%ba%e6%96%87%e5%ba%ab%20%e5%b7%ae%e5%88%86%20071001-090305/AozoraBunko%7C_090305.zip.002
- http://cid-82e06003bdbc7ae7.skydrive.live.com/self.aspx/.Public/%e9%9d%92%e7%a9%ba%e6%96%87%e5%ba%ab%20%e5%b7%ae%e5%88%86%20071001-090305/AozoraBunko%7C_090305.zip.003
ダウンロードしたら、READMEファイルを読んで結合をしてください。
分割ファイルを結合するためのファイルは以下から入手できます。
ダウンロードすると、2つのフォルダがあります。
一つは、テキストファイル(zip圧縮)、XHTMLファイル、エクスパンドブック等のファイルのみ収録です。青空文庫ウェブサイトのディレクトリ構造を維持しています。
もうひとつは、著者名フォルダの中に、作品名のZIPファイルが入ったものです。こちらは一部抜けがあります。ご了承ください。リストファイルもあるので、番号の突き合わせに便利かと思います。
それから前回リストファイルをつけましたが、それは間違っておりました。そのうち、リストファイルだけをアップロードし直そうと思います。←アップロードしました。
追記:BitTorrentからダウンロードした方向けのチェックサム値です。