プレーンテキストファイル:シンプルで汎用性の高いテキストデータ
プレーン
[テキストファイル]]は、コンピュータ上で扱う最も基本的な
テキストファイル形式です。文字データのみで構成され、フォント、色、サイズ、画像といった装飾情報は一切含まれません。このシンプルさが、その汎用性の高さにつながっています。様々な
オペレーティングシステム]や[[ソフトウェアで容易に扱えるため、データの交換や共有に広く利用されています。
拡張子は一般的に `.txt` で表されます。
プレーンテキストの特徴
シンプルさ: 文字データのみで構成されているため、ファイルサイズは小さく、処理速度が速いです。
互換性: 多くのOSやアプリケーションで読み書きできます。
可搬性: 異なるプラットフォーム間でも容易にデータのやり取りができます。
軽量性: リソース消費が少なく、低スペックな環境でも扱えます。
人間可読性: テキストエディタで直接編集・閲覧可能です。
プレーンテキストファイルの取り扱いにおいて重要な要素として、文字コードと改行コードがあります。
文字コード: 文字を
コンピュータで表現するための符号化方式です。
ASCII、ISO-8859-1、EUC-JP、Shift_JIS、
Unicodeなど様々な
文字コードが存在します。プレーン
テキストファイルは、
文字コード情報をファイル自体に保持していないため、ファイルを開く際に適切な
文字コードを指定する必要があります。間違った
文字コードを指定すると、文字化けが発生します。
*
改行コード: 行の終わりを示す制御文字です。OSによって異なる改行コードが使用されます。WindowsではCR+LF、macOS/
LinuxではLFが一般的です。異なるOS間でプレーン
テキストファイルのやり取りを行う場合、改行コードの差異によって改行位置がずれる可能性があります。
歴史的には、
MS-DOSやWindowsではCR+LF、Unix系OSではLFがそれぞれ標準的な改行コードとして使用されてきました。これは、初期のタイプライターの動作を模倣したためです。CRはキャリッジリターン(印字ヘッドを先頭に戻す)、LFはラインフィード(用紙を1行分送る)を表します。
UnicodeではU+2028やU+2029といった改行を表す文字も定義されています。
プレーンテキストとその他のファイル形式
プレーン
テキストファイルは、Microsoft Wordの`.doc`や`.docx`ファイル、PDFファイルなど、書式情報や画像、音声などを含むリッチ
テキストファイルとは対照的です。リッチ
テキストファイルは、プレーン
テキストファイルよりも多くの情報を保持できますが、ファイルサイズが大きくなり、処理速度が遅くなる可能性があります。また、特定の
ソフトウェアでしか開けない可能性があります。
プレーン
テキストファイルは、
プログラミング言語の
ソースコード、HTML、XML、
TeXファイルなども含む広いカテゴリーに属します。ただし、これらはプレーンテキストの範囲を超えた独自の構文や構造を持ち、単なるテキストデータとして扱うことはできません。例えばHTMLやXMLでは、タグを使用して文書構造や文字エンコーディングを指定します。
Pythonの
ソースコードはデフォルトでUTF-8を想定しますが、シバンを用いてエンコーディングを明示的に指定することもできます。
制御コード
プレーン
テキストファイルには、表示されない制御コードも含まれることがあります。改行、タブ、改ページなどがその例です。これらの制御コードはOSによって異なる場合があります。例えば、BOM(バイトオーダーマーク)は
Unicodeのエンディアンを判別するために使用されますが、すべての
テキストエディタがBOMに対応しているわけではありません。
暗号技術におけるプレーンテキスト
暗号技術の文脈では、暗号化される前の元のテキストを「プレーンテキスト (plaintext)」と呼びます。これは、暗号化アルゴリズムへの入力データとなります。
まとめ
プレーン
テキストファイルは、シンプルで汎用性の高いファイル形式であり、様々な場面で利用されています。しかし、
文字コードや改行コードといった点に注意する必要があります。特に、異なるOS間でファイルのやり取りをする際には、互換性を考慮した処理が必要です。現代では
Unicodeの普及により、
文字コードの問題は軽減されていますが、依然として注意が必要です。