- 漢籍電子文献のバージョン1.1の利用方法について解説しています。
- ここでは、外字の利用方法と問題点について説明しています。
外字について
- 漢籍電子文献を利用する際に注意しなければならないのが、BIG5未定義字の表示を独自の外字を使用して行っている点です。これらの外字を表示・印刷するためには、公式ページから外字ファイルをインストールする必要があります。
公式のセットアップ情報はこちらを参照。
- 上記Webページから外字ファイルも自由にダウンロードして使うことが可能です。この外字ファイルは、本来台湾版Windows専用なので、日本語版での動作は保証されていません。
実際に、日本語版Windows98,Meでは動作しません。
- 日本語版WindowsNT4.0 2000 XPでは使用可能ですが、使用可能な環境でも問題が皆無というわけではありません。
- 例えば、XPで簡体字中国語環境をインストールしていたり(初期状態で自動的にインストールされます)、2000、NT4.0でも韓国語環境をインストールしていたりすると、外字の一部の表示が 今挙げた特定の言語が外字領域に割り当てている文字に化けてしまうという不具合が生じます。
- この不具合については、Microsoft社の方から説明がでています。仕様との事なので、改善されることはなさそうです。
- Unicodeに割り当てられていない、一部のGB18030収録文字やハングル文字を外字領域に割り当てているため、それが中央研究院の外字とコードポイントが重なってしまうために起こる現象のようです。
不具合の具体例
- 例えば、以下のような検索結果を、html形式でWordに貼り付けたとします。
- それをWordにhtml形式で貼り付けると、外字[冄]の表示がハングルになっています。また、外字[衞]が本来あるべき場所から移動して、しかも文字表示もおかしくなっています。しかも、外字部分を選択して外字を表示させようとしても上手く出来ません。特に、[冄]のハングルを直そうとしても上手くいきません。
- 従って、html形式で貼り付けると、全く元の文章と異なってしまうという場合があるという事です。
必ず貼り付けの際には、[Unicodeテキスト形式]で貼り付けましょう。
- 但し、その場合でも上記の外字[冄]の表示がハングルのフォントで表示されるという不具合が残っています。Windows2000やXPと、Wordとを組み合わせて漢籍電子文献を利用する場合には不具合が多くある事を憶えておいてください。
- この不具合を避けるには、他のアプリケーションに貼り付けて外字部分をUnicodeや文字鏡に収録された文字に置き換えた後、加工後の範囲を選択してコピーし、WordにUnicodeテキスト形式で貼り付ける必要があります。加工に適したアプリケーションとして、テキストエディタやhtmlエディタがあります。但し、いずれもUnicodeに対応している必要があります。
- ここでの[Unicode]対応とは、「Unicodeのファイルは読めるがJIS X 0208以外の文字は扱えない」という類の代物ではなく、UnicodeのBMP領域程度の文字は不都合なく扱えるものを指します。
例えば、Emeditorや、akira2003、xyzzy等が該当します。
- 一太郎でも文字化け無く貼り付けられますが、外字の部分が時々「・」表示になっていますので、一文字一文字外字のフォント[EUDC]を指定しなければいけない場合もあります。
筆者は、検索結果のページを一端html(但しutf-8)形式で保存した後、自作の外字置換用perl scriptを利用して一括して置き換えし、ついでにそこでhtmlタグの不要部分も取り除いて二次利用用のデータとして保存しています。
外字のインストール方法
- 外字ファイルを利用するには、以下の手順に従って下さい。
- 外字ファイルをダウンロードします。
- ダウンロードしたファイル 「EUDC.EXE」を左ダブルクリックして実行します。
- 生成されたファイル「EUDC.TTE」を、Windows NT 2000 XPがインストールされているハードディスクのFONTフォルダ(通常WINNT\FONTS)にコピーを しましょう。
- [Windows NTエクスプローラー]では上手くコピーできない可能性もあります。
- その際には[SYSTEM32フォルダ]にある「WINFILE.EXE(ファイルマネージャ)」を使うとコピーできる可能性があります。
- またこの作業は、Windows NTを起動した直後に行ってください。
- 但し、初期設定ではフォントフォルダが「隠し属性」となっています。
- メニューの[表示]→[ファイルの種類の指定]でダイアログボックスを開き[隠しファイル・システムファイルの表示]をチェックして、隠し属性を解除 してください。
- もし、やり方が解らない、コピーがうまくいかない場合は、フリーソフトウェアの外字コピー屋さんを使うと、簡単に外字のコピーが出来ます。
- 多分これを利用するのが一番楽だと思います。
- 外字には、元の活字本に起因する間違い、外字の文字デザインのミス、間違った外字を割り当てている等の不具合があります。また、同じ文字を些細な文字デザインの違いから、外字を作字してある場合もあります。
- それについては、漢字文献情報処理研究会のメールマガジン第二号に、少しそれについての文章を書いておきました。
- 漢籍電子文献には、異体字同一視機能はありません。
- 従って、外字相当部分の文字列を検索する場合には、十分な注意が必要です。
- 利用に際しては、もう一度元本を見る程度の慎重さが求められます。
外字ファイル一覧
- 外字ファイル一覧を作成してみました。PDFファイル(約1.4MB)です。
- TIFファイルをPDF化しているので、表示や印刷が重いかもしれません。これは、Windows以外の環境からでも確認できるようにするためです。
- 各コードポイント毎に、「文字」「BIG番号」「Unicode16進数番号」「Unicode10進数番号」の情報が明記されています。コードポイントに何も字が割り当てられていないものについては「■」表記を入れてあります。