睡人亭トップ >> 授業用 >> N-gramモデルを利用したテキスト分析 >> インデックスページ
最終更新日:
参照

morogramを使う前に

実際にmorogramを使ってみよう

sortlで並び替え

ngmergeで比較しよう

batファイルで楽をしよう

NGSMデータを加工しよう―その1―

NGSMデータを加工しよう―その2―

N-gramインデックス

N-gramモデルを利用したテキスト分析

インデックスページ

N-gramモデルとは?共起関係と共起頻度N-gramモデルを利用した事例人文学的へのN-gramモデル導入漢字情報処理研究会のN-gram特集号N-gram統計をとるテキストについて参考文献(本文中で紹介したもの以外)

ページ先頭

N-gramモデルとは?

0頻度(スパースネス)問題

サンプルに起因する問題

ページ先頭

共起関係と共起頻度

共起関係の例

1(uni)-gram 「あ」「a」「亜」
2(bi)-gram 「あい」「ab」「亜居」
3(tri)-gram 「あいう」「abc」「亜居禹」

共起頻度の例

共起頻度 4 3 2 2 1 1 1 1 1 1 1 1 1
文字列
共起頻度 1 1 1 1 1 1 1 1 1 1 1 1
文字列

ページ先頭

N-gramモデルを利用した事例

ページ先頭

人文学的へのN-gramモデル導入

近藤みゆき氏の研究―和歌の使用文字におけるジェンダー性の発見―

ページ先頭

漢字文献情報処理研究会のN-gram特集号

山田のN-gramを利用した研究

このページの著者山田も、N-gramを利用した研究を幾つか公刊している。

  1. 「『國語』韋昭注引系譜資料について―N-gram統計解析法による分析―」
    『立命館史学』22号(2001) pp.38-75
    『國語』に対する諸注釈のうち、三国呉の韋昭よる注釈(以下韋昭注と略)が纏まって現存する最古のものである。韋昭注序には彼の用いた資料が記されるが、そこでは「系譜については『世本』を参考にした。」と述べる。韋昭注で『世本』の引用を明言する部分は極僅かだが、それとは別に系譜関係の注文が数多く見られ、序文から判断する限り、これらは『世本』を典拠とする可能性がある。そこで本論では、韋昭注に見られる系譜関連の注文を分析し、それが『世本』の佚文か否かについて検討する事を主題とする。本論で試みた、既存佚文のN-gram解析の結果を利用して他の文献との比較分析という作業自体の有効性は、『世本』の系譜関係の文書構造の想定と、今まで知られていなかった『世本』佚文の発見及び可能性の提示という形で実を結んだ。
  2. 「歴史記録としての『春秋』―N-gramモデルと統計解析法による分析―」
    『中國古代史論叢』(2004) 立命館東洋史学会叢書二 pp.横13-42
    中国哲学の根本経典である『春秋』は、魯国の年代記に対する解釈手法をその方法論とする。では、『春秋』自身を歴史記録として見た場合、どの様な特徴が現れるかについて、N-gram方式による言葉の数値化を元に分析したもの。これによって、『春秋』は魯を中心とした情報の密度の濃淡や、春秋期の画期となった晋覇の影響を大きく受けた事が明らかとなった。
  3. 「『孟子』の成書時期について―N-gramと統計的手法を利用した分析―」
    『立命館東洋史学』第27号(2004) pp.横1-27
    学会発表06を論文にしたもの。『孟子』のテキストをN-gram方式で数値化した情報を分析した結果、『孟子』にみえる孟子の言葉は、孟子自身のそれを記録したもの(孟子に仮託した後世の言説ではない)事を明らかにした論文。これにより、『孟子』が前4世紀末の言語資料として使用可能なことが確定された。
  4. 「中国戦国期の語彙量について―N-gramとユールのK特性値を利用した分析―」
    『漢字文献情報処理研究』第5号(2004) pp.93-101
    戦国期の諸子百家文献を定量的な視点から分析した論文。その手法として、N-gram方式によって収集された語彙の総量をユールのK-特性値を用いて分析した。本論で行った語彙の総量や独自あるいは共用される語彙を数値化した値を分析した結果、儒家・道家は多様な言葉を保持し、墨家は貧困、法家(韓非子)は洗練、雑家(『呂氏春秋』)は諸学を折衷した言葉を用いている事が明らかとなった。また、時系列で見れば、言葉の多様性は前3世紀初唐を一つのピークとなり、前3世紀後半には言葉を整理して絞り込む方向性を見せる事が確認された。この推移は、天下統一へと移る時代を反映して、言葉も前3世紀後半以降新たな言葉(概念)の乱立が収まり、一定の整理の方向へと向かっていたことを反映していると評価することができる。
  5. 「『礼記』中庸篇の成書時期について―N-gramモデルを利用した分析―」
    『中国古代史論叢』続集(2005) 立命館東洋史学会叢書四 pp.97-143
  6. 「『周禮』の成書時期・地域について」
    『中国古代史論叢』三集(2006) 立命館東洋史学会叢書五 pp.96-150
    13, 14は、N-gram方式によって収集された数値化された文字列傾向を、複数の手段を用いて分析し、それぞれの文献が何時・何処で成書されたかを考察した研究である。本論での分析の結果、『中庸』は前4世紀前半と『孟子』以前に存在した二つのテキスト群を前3世紀後半に新たなテキスト群を付加してまとめたもの。また、『周禮』は前三世紀後半に戦国の齊の稷下の学問を反映して編纂されたものと結論づけた。
  7. 「N-gram方式を利用した漢字文献の分析」
    『立命白川靜記念東洋文字文化研究紀要』第一号 立命館白川静記念東洋文字文化研究所(2007) pp.横1-23
    筆者がここ数年行っている研究手法であるN-gram方式による文献分析の手法について、その効能や具体的な方法論・手順についてまとめたもの。複数の論文で同じ事を述べるのは煩雑になるので、基本的な概念や方法論を一個所にまとめ、導論としての役割を期待したもの。
  8. 「N-gramによる先秦文献の分類」
    『漢字と情報』8号(2004)京都大学人文科学研究所
    N-gram方式を利用した先秦文献の分類手法についての紹介。ここでは『韓非子』を事例とした。
  9. 「N-gramモデルを利用して先秦文献の成書時期を探る―『孫子』十三篇を事例として―」
    東京大学 東洋文化研究所附属東洋学研究情報センター「アジア研究情報Gateway」(2004)
    N-gram方式を利用した先秦文献の分類手法についての紹介。ここでは『孫子』を事例とした。

ページ先頭

N-gram統計をとるテキストについて

テキストの性質について

  1. 同一テキスト中に旧字・旧かな・新字・新かな・各種異体字が混在していたりするような場合は、テキストの性質に従って用字・仮名遣い等を統一しておく必要があります。
  1. また、既存の文字集合に収まりきらない文字は、morogramでは実態参照形式を利用して処理する事が可能ですが、その際には同じ文字を複数の番号に割り当てたり、複数の文字を同じ番号にする事は厳禁です。「文字集合とコードポイントが一対一の関係を持たなければならない」という文字コードの基本概念の通りに、番号を割り振ってください。
  1. 後述するmorogramは、段落間を跨いでN-gram統計を取りますが、段落のまとまりを統計上の情報として加味したい場合には、各段落の頭に適当な記号類(必ず本文の他の箇所で使われていない記号である事。筆者はよく■を使う)を入れておくと便利だと思います。
  1. 「テキストのレベル」とは、電子テキストが「学術的に信頼できるレベルの原本を元に作成され」ており、なおかつ「電子テキスト自体にも誤字脱字が少ない」という 事を意味します。
  1. また、青空文庫の一部のテキストのように、JIS未収録字を特殊な表記で示されるような場合には、(大体がUnicodeのCJK統合漢字で足りますので)出来るだけUnicodeの当該文字に置き換えて、余計な情報は削除しましょう。また、《ルビ》が不必要な場合は、それも合わせて削除しておきましょう。

ページ先頭

参考文献(本文中で紹介したもの以外)

ページ先頭

睡人亭謹製