新潮文庫の100冊
現在進めている研究の中で日本語の文学作品(というかフィクション全般)のテキストから用例を取り出す必要があり、『新潮文庫の100冊 CD-ROM』を使うことを思いつきました。知っている人は知っていると思いますが、この CD-ROM は言語学・日本語学の分野で語コーパスとしてよく用いられている、なかなか優れた製品です。
ところが収録されているデータには仕掛けがしてあって、付属のソフトを使わないと内容を読み出すことができないようになっています。といってもその仕掛けというのはそれほど複雑なものでなく、ちょっとしたプログラムを書けば割と簡単にプレーンなテキストファイルに変換することができます。Google で検索するとそのあたりの情報がいくつか出てきます。
今回はそれらを参考に Ruby で変換プログラムを書いてみました(実際には1年くらい前に作ったものを取り出してきて調整をしました)。出来上がったプログラムには次のような特徴があります。
- コマンドラインプログラムである。(こんなニッチなスクリプトに GUI など与えてもしょうがない。)
- ディレクトリ構造を保ちつつ指定した場所に変換済みテキストファイルをコピー。
- 画像データなどテキストにならないものはスキップ。
- コーパス処理するにあたってノイズになりそうなコード類はできるだけ削除。
- ルビや注釈類はそれなりに処理。
- 結果ファイルのエンコーディングを指定可能(Shift JIS/EUC/UTF-8)。
- Ruby が無くても使えるように Exerb で Windows 実行ファイル (exe) 化。
せっかくなので公開!といきたいところですが、『新潮文庫の100冊 CD-ROM』というものの性質上、それはやめといたほうが無難そうです。言語学者にとって非常に有用とはいえ、このCD-ROM 自体がすでに廃盤のため入手困難なので変換プログラムのニーズもそれほど無いでしょう。でも、もしご入用の人がおられたらメールしてください。お送りします。(もちろんプログラムのみです。CD-ROM 自体についての質問にはお答えできませんので悪しからず。)
≪ Prev entry |
| Next entry ≫