バイナリファイルとテキストファイル
コンピューター上で作成されたデータは、全てデジタル化(0と1との組み合わせのみで構築)されています。
これらデータには、文字(テキスト)だけで作られた物、また映像・音楽・画像はもとより、様々なアプリケーションソフトで作成されたデータや、個々のプログラムファイルも含まれます。
これらのファイルの中で、テキストデータ(文字)のみで作成されたデータを「テキストファイル」、それ以外の全てのファイルを「バイナリファイル」と呼びます。
- テキストファイル
- 文字コードを示すビット列のみで組み合わされたファイルです。
- 見ただけで何が書かれているか判読可能なものを指します。
- バイナリファイル
- 文字データ以外の様々な情報を織り込んであるファイルです。
- ファイルの中身を見ても、何が書いてあるか一見してわからないものを指します。
- テキストファイル以外のファイルは、全てバイナリファイルです(画像・音声・映像・WordやExcelの文書ファイルetc.)。
- バイナリファイルの中には、内容の一部に可読可能なテキストデータを含んでいるものもあります。
Shift_JISでエンコードされたテキストファイルの中身(バイナリエディタBZで閲覧)
Word2003で保存されたファイルの中身(バイナリエディタBZで閲覧)
電子テキストとは何か?
電子テキストとは「何らかの文字集合で定義された文字と、特定のビット列との対応のルールに従い、0と1との組み合わせのみで構築された文字列データの事」を指します。
言い換えると「ある特定の文字集合に収録された文字(制御記号を含む)のみを、またある特定のエンコーディングスキームに従ってデジタル化したデータのみで作られたデータファイル」になるかと思います。
もっと簡単に言えば、「文字+制御記号」だけで作成されたファイルだと思っていただければよいでしょう。
「デジタルテキスト」「電子テキスト」と呼ばれる事もあります。
上記の定義に従って構築されたテキストデータを、特に「プレーン(な)テキスト」「フラットテキスト」と呼ぶ場合があります。
テキストデータ(テキストコーパス)とは何か?
- テキストデータ
- 狭義の「テキスト」とは文書(そこの書かれた文字)そのものを指します。
- コーパス
- 「資料の総体」
- 特定のテキストを対象として分析を行う場合、そのテキストが「コーパス」となります。
- 最近では、大規模な電子テキストの集合を「コーパス」と呼ぶようになってきました。これは、電子テキストをコンピュータで分析する研究手法の進展に伴うものといえるでしょう。
- 公開されているテキストコーパスの利用
- 最近、大部な書籍をデジタル化するのみならず、大規模なテキストコーパスの公開が進んでいます。
- 東京大学史料編纂所の各種データベースや、青空文庫、国文学資料館の古典データベースが日本では有名ですが、海外のデータベース(『二十五史』『四庫全書』『ブリタニカ大百科事典』「プロジェクトグーテンベルグ」など)も押さえておく必要があるでしょう。
コンピュータ上で作成されたデータの種別(バイナリファイル・テキストファイル)の説明、デジタルテキストとテキストデータについて説明します。