Software
以下は言語学研究のための自作プログラムです。プログラミング言語は主にRubyを用いています。いずれもオープンソースとして公開しますので、よろしければお使いください。質問・要望・バグ報告はこちらまでお願いします。
WordMapper
WordNet 3.0のデータを用いて、指定された英単語を中心とした意味のネットワークをヴィジュアルに表示します。大規模コーパスからの出現頻度表に基づいたレベルを指定して、表示する関連語のフィルタリングが可能です。
- ホームページ(公開準備中)
RubyFCA: A Formal Concept Analysis Tool
情報通信研究機構の黒田航さんと共同開発している形式概念分析(Formal Concept Analysis)のためのコマンドライン・ツールです。フォーマル・コンテクストからコンプリート・ラティスを出力する Concept Lattice Builder と、パターンの集合からパターン・ラティスを出力する Pattern Lattice Builder から構成されています。
WP2TXT: Wikipedia to Text File
WP2TXTは、Wikipediaのデータベースダンプ(XML形式のbz2圧縮ファイル)をコーパス言語学研究で利用しやすいテキストデータに変換し、指定したサイズに分割して書き出します。 wxRuby を用いた GUI を備えています。
Mconc: Morphological Concordancer
Mconcは、テキスト形式の日本語コーパスから特定の形態的・文法的条件を満たすセンテンスのみを抽出しCSV形式で出力するプログラムです。内部での形態素解析にはMeCabを利用しています。GUI は wxRuby を利用しています。
RSyntaxTree: yet another syntax tree generator made with Ruby
言語学でよく用いられる樹形図を出力するRubyライブラリとWebインタフェイスからなるパッケージです。André Eisenbach氏によるphpSyntaxTreeを元にRubyで実装しました。Webインタフェイス部分はRuby on Railsを利用しています。日本語などのマルチバイト文字を使用可能という特徴があります。
EngTagger: English Part-of-Speech Tagger
PerlのLingua::En::TaggerをRubyに移植したライブラリです。Pen Treebankのデータを元にした隠れマルコフモデルを用いて英文テキストを解析し、品詞タグを付けます。また、様々な種類の名詞句を抽出したりすることができます。
