WP2TXT 0.3.0 公開
WP2TXT Version 0.3.0をリリースしました。
WP2TXT はWikipediaの圧縮データベース・ダンプ(英語版、日本語版、etc)を言語コーパス作成などのため、プレーンテキストに変換し、一定のサイズに分割するプログラムです。
今回の主な修正点は次の通りです。
- 安定性と変換速度の向上
- テキスト中の脚注部分や括弧書きをスキップする機能の追加
- Mac(Leopard)用、Windows(XP/Vista)用のインストーラ・パッケージを用意
ところで、WPTXTの以前のバージョン(0.1.0)は、いくつかの研究で実際に使用されました(敬称略)。
- 田中和紀・管村昇 「Wikipediaを利用した音声認識用言語モデルの構築および評価」
- 氷野善寛 「言語研究対象としての中国語Wikipediaの可能性」
- 淺尾仁彦 「用法基盤モデルに基づいた複合語形成の生産的パターンの抽出」
その後、0.2.0では、一部の機能を犠牲にして、多国語対応を目指しました。ところが公開の後、いくつか重大なバグのあることが分かりました。
今回のリリースはそれらのバグをfixし、かなり念を入れてテストしました。英語と日本語とでしか試していませんが、他の言語でも基本的に機能するのではないかと期待しています。
ただ、依然変換の精度は100%ではありません。本家Wikipediaで使われているMediaWikiのパーサーを移植すれば良いのですが、今のところ、自前の簡易的なパーサーを用いています。言語研究のためのデータを大量に取得するような目的には適うかと思います。
≪ Prev entry |
| Next entry ≫