睡人亭

文字コード入門

文字コードを超えて:大規模文字集合

e漢字

日本のコンピュータと漢字情報処理における先駆者の一人であった故勝村哲也先生が中心となって進められていた、大規模漢字コードプロジェクトです。元々は京都大学人文科学研究所付属東洋学文献センターで開発されていたのですが、勝村先生の移動に伴って島根県立大学に引っ越しました。

外部から漢字データ収集して文字集合を作成する手段ではなく、従来の文字集合の代表的存在である大規模漢字辞典をそれぞれコード化すると言う手法に特徴があります。その為、確実に辞書までは典拠をたどれるというメリットがありますが、辞典毎に異なる文字集合が出来てしまうと言う欠点がありまし。現在、『大漢和辞典』『康熙字典』等が発表済です。

文字実装は現在の所画像(GIF)ファイルが中心です。アウトラインフォントの提供はありません。

オフィシャルサイトはこちら(勝村先生が亡くなられた事によりプロジェクトも止まっているようです。)。現在では過去の遺産の一つとして見た方がよいかもしれません。

今昔文字鏡

現在Unicodeを除く大規模文字集合の中で、最も普及していると思われるのが株式会社エーアイネットが開発する「今昔文字鏡」です。

文字鏡は漢字コードと言うより、大規模な共用外字セットにも喩えられる性格を持っています。

まず、個々の文字に「文字鏡番号」という『大漢和辞典』上位互換の番号を付けて管理し、実装はJIS X 0208の第一・第二水準漢字の収録域に配置されています。当然、この領域には収録し切れませんので、裏技を使っています。これが「フォント切り替え」と呼ばれる手段です。

まず、文字鏡番号1番を16区の01番に、次に2番を16の2番にという形で配列をします。この方法で5640番までを77区の94番まで配列をします。これで領域が一杯になりますので、ここまでをMojikyo 101というフォント名で保存をします。次に、5641番を16区の1番に配列をして同様に77区の94番まで配列をします。これをMojikyo 102というフォントにします。後は同様にフォントを収録したい文字数だけ作成すればよいわけです。フォントは文字鏡研究会が無料で公開しています。

これをワープロソフトで使いたい場合は、「亜(16区の1番)」と入力してフォントを「Mojikyo 101」に代えるという方法を使います。そうすると、デジタルデータでは「亜」なのですが、見た目だけ「一」に変わるという事になります。従って、テキストデータ自体を処理するのには向きませんが、理屈上無限の拡張が可能なので「印刷出来ればいい!」という方にはお薦めです。但し、PDFデータに代表されるフォントデータを埋め込んだ文書ファイルの公開や文字鏡番号を利用したプログラムの配布、文字鏡研究会(フォントの配布元)に対する許可申請と公開条件の制約に関する同意が必要になります。

上記PDFへのフォント埋め込みや商業印刷時に今昔文字鏡を使用したい場合は、インデックスフォント版を使用するようにとのことです。それ以前のバージョンでの商業印刷についての許諾については、各自文字鏡研究会・株式会社エーアイネット・紀伊國屋書店にお尋ね下さい。

登録数は公称10万字以上ですが、漢字以外にも甲骨文字・西夏文字・梵字等、多彩な文字種に対応し、True Type Fontが公開されているのも特徴です。

また、製品版「今昔文字鏡」には、強力な検索ツールが付属しているので便利です。

オフィシャルサイトはこちら

GTコード

東京大学が日本学術振興会と組んで進めていた大規模文字コードプロジェクト。

公開前はテレビで紹介される等注目を浴びたが、公開まで長い時間が経過した事があり、公開時にはその熱気がすっかり冷めてしまったようである。

文字集合は独自の物で、部首画数順になっていたはずであるが、今後の拡張によってそれ以前の整然とした部分との歪みがどうなるのか気になる所である。Windows上での実装は文字鏡と同じくフォント切り替え形式。超漢字では文字コード化されているため、テキストデータ処理にも使用可能。但し、超漢字で処理したGTコードのデータは、超漢字の中でしか使えないという制約がある。

フォントのデザインは教育目的を重視したとの事で、画数を強調したものとなっている。作成のコンセプトとしては有りだと思うが、印刷用のフォントとしてみるとデザインの収まりが悪いようにも見える。フォントや番号等の再配布条件は文字鏡よりは緩やからしい。

現在の所、巨額のプロジェクト費用を費やした割には、殆ど普及していない。原因は、プロジェクト完成までに時間がかかりすぎた事と、フォントのデザインが印刷用途には向かないためだと思われる。

しかし、フルGT明朝でデータを作成して公開すれば、単純なコピペ泥棒に遭う事が格段に少なくなるだろうと思われるので、そういった向きにはお薦めである(Googleにも引っかからない恐れがあるが。)。

オフィシャルサイトはこちら

CHISE

CHISE (CHaracter Information Service Environment) は、他の大規模文字集合とは異なり、アプローチに文字コード的な手法を採用しない点に一番の特徴があります。

『東洋学文献類目』の冊子版がΩ/CHISEで作られています。

公式サイト