睡人亭トップ >> 授業用 >> N-gramモデルを利用したテキスト分析 >> ngmergeで比較しよう
最終更新日:
参照

morogramを使う前に

実際にmorogramを使ってみよう

sortlで並び替え

ngmergeで比較しよう

batファイルで楽をしよう

NGSMデータを加工しよう―その1―

NGSMデータを加工しよう―その2―

N-gramインデックス

N-gramモデルを利用したテキスト分析

ngmergeで比較しよう

ngmergeとは?ngmege.plを使ってみる実際の使用例

ngmergeとは?

  1. 複数のngram結果を融合して出力する。
  2. morogramのようなutf-8のデータファイルでも結合可能。
  3. 融合するファイル数の限界がない。
  4. 動作がそこそこ軽い。

ページ先頭

ngmerge.plの使い方

  1. ngmerge.plをコピーしたら、[スタートメニュー]→[プログラム]→[コマンドプロンプト]を選択してコマンドプロンプトを起動します。
  2. コマンドプロンプトが表示されたら、morogramの実行ファイルのあるフォルダに移動します。
  3. 以下の画面に従って入力してください。
C:\ コマンドプロンプト
C:\D:
D:\>cd temp\morogram
D:\temp\morogram>
  1. これで、morogramのあるフォルダに移動しました。
  1. ngmerge.plの実行書式は以下の通りです。
perl ngmerge.pl [一つ目の入力ファイル] [二つ目の入力ファイル]… > [出力ファイル]

ページ先頭

実際の使用例

  1. 初めに[gyujin.txt]を対象にmorogramを実行し、結果を[mgyujin.txt]に保存します。
C:\ コマンドプロンプト
morogram-0.7.1W.exe --f=1 --g=2,2 gyujin.txt > mgyujin.txt
  1. 次に[mgyujin.txt]の文字列部分を、sortlを使って文字コード順に並び替え、結果を[ngyujin.txt]に保存します。
C:\ コマンドプロンプト
sortl -W U -t \t +1 -o ngyujin.txt mgyujin.txt
  1. 以下、残りのテキストを対象に1.2.の操作を実行します。
C:\ コマンドプロンプト
morogram-0.7.1W.exe --f=1 --g=2,2 kitsunetsuki.txt > mkitsunetsuki.txt
sortl -W U -t \t +1 -o nkitsunetsuki.txt mkitsunetsuki.txt
morogram-0.7.1W.exe --f=1 --g=2,2 kouhuku.txt > mkouhuku.txt
sortl -W U -t \t +1 -o nkouhuku.txt mkouhuku.txt
morogram-0.7.1W.exe --f=1 --g=2,2 meijinden.txt > mmeijinden.txt
sortl -W U -t \t +1 -o nmeijinden.txt mmeijinden.txt
morogram-0.7.1W.exe --f=1 --g=2,2 mojika.txt > mmojika.txt
sortl -W U -t \t +1 -o nmojika.txt mmojika.txt
morogram-0.7.1W.exe --f=1 --g=2,2 sangetsuki.txt > msangetsuki.txt
sortl -W U -t \t +1 -o nsangetsuki.txt msangetsuki.txt
  1. 最後に生成された[n*.txt]をngmerge.plで融合し、その結果を[ngmerge.txt]に保存します。
C:\ コマンドプロンプト
perl ngmerge.pl ngyujin.txt nkitsunetsuki.txt nkouhuku.txt nmeijinden.txt nmojika.txt nsangetsuki.txt > ngmerge.txt
  1. コマンドプロンプトを終了するには、「exit」と入力して[Enter]キーを押してください。
C:\ コマンドプロンプト
d:\temp\morogram>exit
  1. 下図は[ngmerge.txt]の一部分です。
  1. NGSMを実行する一連のプログラムの実行手順は、上記のように全てコマンドプロンプト上で実行されます。
  2. 一つ一つの手順を直接入力してもよいのですが、[batファイル]と呼ばれる幾つかの手順をまとめて実行するためのファイルを作成しておいて、一気に実行した方が効率的 に作業が行えます。
  3. では次に、batファイルを利用してこの一連の手順を実行する方法について解説します。

ページ先頭


睡人亭謹製