睡人亭トップ >> 授業用 >> N-gramモデルを利用したテキスト分析 >> NGSMデータを加工しよう―その1―
最終更新日:
参照

morogramを使う前に

実際にmorogramを使ってみよう

sortlで並び替え

ngmergeで比較しよう

batファイルで楽をしよう

NGSMデータを加工しよう―その1―

NGSMデータを加工しよう―その2―

N-gramインデックス

N-gramモデルを利用したテキスト分析

NGSMデータを加工しよう  ―その1―

秀丸で加工するExcelへコピー

  1. 読点直前の文字を対象に分析したい場合は、読点のN-gram統計を取る必要はない。
  1. NGSMモデルの数値部分だけ必要とする場合、ファイル名や括弧の部分がじゃまである。
  1. Excelとの関連
ページ先頭

秀丸で加工する

  1. 初めに、読点の行があれば、その行を削除しましょう。
  2. 次に、置換コマンドの正規表現を利用して、半角空白を水平タブ(\n)に置き換えます。
  1. 半角のパーレンを削除します。
  1. ファイル名をを削除します。
  1. 行末の[水平タブ][改行]の部分がじゃまですが、この部分はExcelに貼り付けた際に自動的に消えますので、放っておいても大丈夫です。

ページ先頭

Excelへコピー

  1. 先ほど加工したNGSMファイルを開きます。
  2. メニューの[編集]→[全てを選択]を選択します。
  1. テキスト全文が選択されます。
  1. 選択後、メニューの[編集]→[コピー]を選択します。
  2. コピーを実行したら、Excelを起動します。
  3. A2セルをアクティブにして、メニューの[編集]→[貼り付け]を選択します。
  1. 貼り付けが実行されます。
  1. 貼り付け後、任意のセルを左クリックするか、[Enter]キーを押しせば完了です。

ページ先頭


睡人亭謹製