Skip to content

Software

以下は言語学研究のための自作プログラムです。プログラミング言語は主にRubyを用いています。いずれもオープンソースとして公開しますので、よろしければお使いください。質問・要望・バグ報告はこちらまでお願いします。


WordMapper

WordNet 3.0のデータを用いて、指定された英単語を中心とした意味のネットワークをヴィジュアルに表示します。大規模コーパスからの出現頻度表に基づいたレベルを指定して、表示する関連語のフィルタリングが可能です。

  • ホームページ(公開準備中)


RubyFCA: A Formal Concept Analysis Tool

情報通信研究機構の黒田航さんと共同開発している形式概念分析(Formal Concept Analysis)のためのコマンドライン・ツールです。フォーマル・コンテクストからコンプリート・ラティスを出力する Concept Lattice Builder と、パターンの集合からパターン・ラティスを出力する Pattern Lattice Builder から構成されています。


WP2TXT: Wikipedia to Text File

WP2TXTは、Wikipediaのデータベースダンプ(XML形式のbz2圧縮ファイル)をコーパス言語学研究で利用しやすいテキストデータに変換し、指定したサイズに分割して書き出します。 wxRuby を用いた GUI を備えています。


Mconc: Morphological Concordancer

Mconcは、テキスト形式の日本語コーパスから特定の形態的・文法的条件を満たすセンテンスのみを抽出しCSV形式で出力するプログラムです。内部での形態素解析にはMeCabを利用しています。GUI は wxRuby を利用しています。


RSyntaxTree: yet another syntax tree generator made with Ruby

言語学でよく用いられる樹形図を出力するRubyライブラリとWebインタフェイスからなるパッケージです。André Eisenbach氏によるphpSyntaxTreeを元にRubyで実装しました。Webインタフェイス部分はRuby on Railsを利用しています。日本語などのマルチバイト文字を使用可能という特徴があります。


EngTagger: English Part-of-Speech Tagger

PerlのLingua::En::TaggerをRubyに移植したライブラリです。Pen Treebankのデータを元にした隠れマルコフモデルを用いて英文テキストを解析し、品詞タグを付けます。また、様々な種類の名詞句を抽出したりすることができます。