yohasebe.com


Tue May 19 10:47:58 +0900 2009

WP2TXT 0.3.0 公開

WP2TXT Version 0.3.0をリリースしました。

WP2TXT はWikipediaの圧縮データベース・ダンプ(英語版、日本語版、etc)を言語コーパス作成などのため、プレーンテキストに変換し、一定のサイズに分割するプログラムです。

今回の主な修正点は次の通りです。

  • 安定性と変換速度の向上
  • テキスト中の脚注部分や括弧書きをスキップする機能の追加
  • Mac(Leopard)用、Windows(XP/Vista)用のインストーラ・パッケージを用意

ところで、WPTXTの以前のバージョン(0.1.0)は、いくつかの研究で実際に使用されました(敬称略)。

その後、0.2.0では、一部の機能を犠牲にして、多国語対応を目指しました。ところが公開の後、いくつか重大なバグのあることが分かりました。

今回のリリースはそれらのバグをfixし、かなり念を入れてテストしました。英語と日本語とでしか試していませんが、他の言語でも基本的に機能するのではないかと期待しています。

ただ、依然変換の精度は100%ではありません。本家Wikipediaで使われているMediaWikiのパーサーを移植すれば良いのですが、今のところ、自前の簡易的なパーサーを用いています。言語研究のためのデータを大量に取得するような目的には適うかと思います。

Prev entry | | Next entry



大学関係


計算機プログラミング


その他いろいろ


--