睡人亭トップ >> 授業用 >> N-gramモデルを利用したテキスト分析 >> sortlで並べ替え
最終更新日:
参照

morogramを使う前に

実際にmorogramを使ってみよう

sortlで並び替え

ngmergeで比較しよう

batファイルで楽をしよう

NGSMデータを加工しよう―その1―

NGSMデータを加工しよう―その2―

N-gramインデックス

N-gramモデルを利用したテキスト分析

sortlで並べ替え

sortlとは?sortlを使用可能にするsortlでmorogramの出力ファイルを並べ替える

ページ先頭

sortlとは?

  1. 日本語用の文字コード以外にも、中国語やUnicode(utf-8やutf-16)にも対応しています。
  2. 豊富なオプションが指定可能。
  3. 動作がそこそこ軽い。

ページ先頭

sortlを利用可能にする

  1. [スタートメニュー]→[プログラム]→[コマンドプロンプト]を選択してコマンドプロンプトを実行します。
  2. コマンドプロンプトが表示されたら、morogramの実行ファイルのあるフォルダに移動します。
  3. 以下の画面に従って入力してください。
C:\ コマンドプロンプト
C:\D:
D:\>cd temp\morogram
D:\temp\morogram>
  1. これで、morogramのあるフォルダに移動しました。
  2. ここで、sortl.exe -help と入力して[Enter]キーを押します。
  3. 以下の画面のようなメッセージが表示されていたら、sortlを実行可能です。
C:\ コマンドプロンプト
D:\temp\morogram>sortl.exe -help
usage: sortl [-bdfiKMnr][-cmu][-o file][-t/T S][-R S][-W CS][flds] file ...
b=trim blanks, d=alphanumeric only, f=case fold, i=ignore non-printable
K=kana, M=month, n=number, r=reverse
c=check sorted, m=merge only, u=unique
o=output file, t/T=field separator, R=record separator, W=encoding
CS = Utf|Sjis|Big5|Euc|Tw-euc|Narrow
flds = -k fld1[.char1][opt1][,fld2[.char2][opt2]]
+fld1[.char1][opt1] [-fld2[.char2][opt2]]
=fld[.char][opt]
opts1, opts2 = bdfiKMnr 

ページ先頭

sortlでmorogramの出力ファイルを並べ替える

gram数を基準に大きい数字から順に並べ替え

sortl -W U -n -r -t \t +2 -o [出力ファイル] [入力ファイル]

頻度数を基準に大きい数字から順に並べ替え

sortl -W U -n -r -t \t +0 -o [出力ファイル] [入力ファイル]

文字コードを基準にコード番号が若い順に並べ替え

sortl -W U -t \t +1 -o [出力ファイル] [入力ファイル]
オプション 説明
-W U 文字コードにutf-8を利用しているという宣言をしています。
-n 数字順に並び替えるという意味です。
-r

数値を逆順(数値の大きいのものから順に)で並べ替えるという意味です。

-o 出力ファイルを指定します。

morogramとは異なって、[出力ファイル][入力ファイル]の順である事に注意しましょう。

-t \t 並べ替える各項目の区切りが、水平タブである事を示します。
+[数値] 頻度数、文字列、gram数の項目を指定します。
頻度[水平タブ]文字列[水平タブ]gram数

各gram数毎に、頻度上位順で並べ替え

sortl -W U -n -r -t \t +2 +0 -o [出力ファイル] [入力ファイル]

頻度上位順で並び替え、同頻度中の文字列を並び替え

sortl -W U -n -r -t \t +0 +1 -o [出力ファイル] [入力ファイル]

ページ先頭


睡人亭謹製