- [morogram]とは、花園大学の師茂樹氏の開発にかかる、N-gram統計を取るためのアプリケーションソフトです。
- morogramは、SourceForge.JPの「morogram」にて公開されています。
- 実行に当たっては、以下の環境が必要となります。
- Perl 5.8以降
- (Windows以外の人は)Cコンパイラ
- Windows環境では、極悪氏が作成したmorogramのWindows用実行ファイルを利用する事で、Perlを使わなくてもmorogramを利用する事が可能です。
- こちらのファイルも、SourceForge.JPよりダウンロードすることができます(最新版はこちら)。
- morogramの特徴は以下の通りです(morogramの公式配布サイトからの引用)
- 文字単位のNグラム分析が可能(単語単位などは不可能)
- Nagao and Mori [1994]のアルゴリズムで高速(のはずだが)
- Nagao and Mori [1994]については、(http://www-lab25.kuee.kyoto-u.ac.jp/member/mori/postscript/Coling94.ps) にPostScript形式の印刷用ファイルが公開されています。
- ほとんどすべてディスク上で行うので(そこそこ)省メモリ
- 0〜16面のUnicodeに対応(入出力はUTF-8のみ)
- 実体参照形式&Mnnnnnn;(1≦nnnnn≦131,072)を一文字として扱うことが可能。
- 4,294,967,296文字まで対応
- 1〜4,294,967,296グラムに対応
- 頻度1〜4,294,967,296に対応
- morogramは、utf-8で書かれたテキストファイルのみを対象としていますので、利用に際しては元のテキストファイルをutf-8形式で保存したものを用意する必要があります。
Perlの実行環境とモジュールを組み込む
- Windows環境以外でmorogramを実行するには、Perl scriptが動作可能な環境が必要です。
- Windowsの場合は、ActiveStateから公開されているActivePerlか、Cygwin上のPerlを利用するのがよいかと思います。
- 立命の共用パソコンにはActivePerlがインストールされていませんが、その代わりにCygwin(後述)上のPerlが利用できます。
- 但し、システムの管理上モジュールの追加インストールが出来ませんので、授業ではmorogramは極悪氏作成のWindows用実行ファイルを利用します。
- Perlを実行可能な環境にしたら、次に[Unicode::Stringモジュール]を組み込みます
- 極悪氏の実行ファイルを利用する場合は、この手順は必要ありません。
- 授業では極悪氏の実行ファイルを利用しますので、ここから下は読み飛ばして下さい。
- [スタートメニュー]→[プログラム]→[アクセサリ]→[コマンドプロンプト]を選択してください。
- 立命の共用パソコンでは、[スタートメニュー]→[プログラム]→[コマンドプロンプト]でも選択できます。
- コマンドプロンプトのウィンドウが表示されたら、以下の画面のように[perl -v]と入力して[Enter]キーを押してください。
C:\ コマンドプロンプト
E:\>perl -v
- Perlがコマンドプロンプト上で直ちに実行できるようになっていれば(「Passが通る」と言います)、以下の画面が表示されるはずです。
- 表示されなかったら、PerlのインストールされているフォルダにPassを通しておきましょう。
C:\ コマンドプロンプト
E:\>perl -v
This is perl, v5.8.0 built for cygwin-multi-64int
Copyright 1987-2002, Larry Wall
Perl may be copied only under the terms of either the Artistic License or the
GNU General Public License, which may be found in the Perl 5 source kit.
Complete documentation for Perl, including FAQ lists, should be found on
this system using `man perl' or `perldoc perl'. If you have access to the
Internet, point your browser at http://www.perl.com/, the Perl Home Page.
- ActivePerl5.8の場合、[Windows用Unicode::String]モジュールがActivePerl側で提供されていませんので、CPANからモジュールのソースをソースを持ってきて自分でコンパイルする必要があります。
- ActivePerlでモジュールをCPANからソースを持ってきてインストールする方法は、こちらを参照(塚本牧生氏のWalrus, Digitの下位ページ)して下さい。
- CygwinのPerl5.8でも、同様に[Unicode::String]モジュールを別途インストールする必要があります。
- Cygwinの方がコンパイル環境が初めから揃っているので、5.8で利用したい場合はこちらをお薦めします。
- Cygwin上でPerlモジュールをCPANのソース経由でインストールする方法は、こちらを参照(塚本牧生氏のWalrus, Digitの下位ページ)して下さい。
- Perl実行環境とUnicode::Stringモジュールさえ組み込めば、morogramを実行する事が可能です。
- では、実際にmorogramを使ってみましょう。