yohasebe.com


公開ソフトウェア

以下は言語学研究のための自作プログラムです。プログラミング言語は主にRubyを用いています。いずれもオープンソースとして公開しますので、よろしければお使いください。質問・要望・バグ報告はこちらまでお願いします。


WP2TXT: Wikipedia to Text File

WP2TXTは、Wikipediaのデータベースダンプ(XML形式のbz2圧縮ファイル)をコーパス言語学研究で利用しやすいテキストデータに変換し、指定したサイズに分割して書き出します。 wxRuby を用いた GUI を備えています。


Mconc: Morphological Concordancer

Mconcは、テキスト形式の日本語コーパスから特定の形態的・文法的条件を満たすセンテンスのみを抽出しCSV形式で出力するプログラムです。内部での形態素解析にはMeCabを利用しています。GUI は wxRuby を利用しています。


RSyntaxTree: yet another syntax tree generator made with Ruby

言語学でよく用いられる樹形図を出力するRubyライブラリとWebインタフェイスからなるパッケージです。André Eisenbach氏によるphpSyntaxTreeを元にRubyで実装しました。Webインタフェイス部分はRuby on Railsを利用しています。日本語などのマルチバイト文字を使用可能という特徴があります。


EngTagger: English Part-of-Speech Tagger

PerlのLingua::En::TaggerをRubyに移植したライブラリです。Pen Treebankのデータを元にした隠れマルコフモデルを用いて英文テキストを解析し、品詞タグを付けます。また、様々な種類の名詞句を抽出したりすることができます。




大学関係


計算機プログラミング


その他いろいろ


--