制御文字

制御文字とは



コンピューティング電気通信において、制御文字(control character)とは、文字コード規格で定義される特殊な文字であり、ディスプレイ、プリンター、通信装置などの機器に対して、特定の動作(制御)を指示するために用いられます。これらの文字は、画面に表示されないため、非表示文字(non-printing character)とも呼ばれます。情報処理の規格では「制御機能文字」とも定義されています。制御文字に対して、表示可能な文字は図形文字(graphic character)と呼ばれます。

制御文字と図形文字は、電気信号上は区別がなく、同じデータストリーム上に存在します。この方式を帯域内信号方式と呼びます。

制御文字にどの文字コードを割り当てるかは、ASCIIEBCDICなど文字コード体系によって異なります。ASCIIでは、0から31までのコードと127が制御文字として割り当てられており(C0制御コード)、拡張ASCIIでは128から159までのコードが追加されました(C1制御コード)。

これらの制御文字Unicodeにも引き継がれており、Unicodeではさらに制御文字が追加されています。ただし、これらはゼロ幅非接合子のようなフォーマット用文字とは区別されます。

EBCDICには、ASCIIの制御文字に加え、IBM周辺機器制御用の制御文字が含まれます。

歴史



制御文字の概念は、初期の通信技術にまで遡ります。モールス符号の交信略号は、制御文字の一種と見なすことができます。1870年に制定されたBaudot Codeでは、最初の制御文字であるNULとDELが導入されました。その後、1901年にはドナルド・マレーによってキャリッジリターン(CR)とラインフィード(LF)が追加されました。

ベル文字は、送信先のオペレーターに通知するためにベルを鳴らす目的で、初期のテレタイプ端末に追加されました。これらの歴史的背景から、制御文字が通信技術において重要な役割を果たしてきたことがわかります。

表現法



制御文字は、通常の方法では表示できないため、代替表現を用いる必要があります。ASCIIのベル文字を例に説明します。


これらの表現法により、制御文字をテキストとして扱うことができます。

ASCIIの制御文字



ASCIIの制御文字には、以下のようなものが含まれます。

  • - NUL (Null): データなし
  • - SOH (Start of Heading): ヘッディング開始
  • - STX (Start of Text): テキスト開始
  • - ETX (End of Text): テキスト終了
  • - EOT (End of Transmission): 伝送終了
  • - ENQ (Enquiry): 照会
  • - ACK (Acknowledge): 肯定応答
  • - BEL (Bell): ベル
  • - BS (Backspace): バックスペース
  • - HT (Horizontal Tab): 水平タブ
  • - LF (Line Feed): 改行
  • - VT (Vertical Tab): 垂直タブ
  • - FF (Form Feed): フォームフィード
  • - CR (Carriage Return): 復帰
  • - SO (Shift Out): シフトアウト
  • - SI (Shift In): シフトイン
  • - DLE (Data Link Escape): データリンクエスケープ
  • - DC1 (Device Control 1): デバイス制御1
  • - DC2 (Device Control 2): デバイス制御2
  • - DC3 (Device Control 3): デバイス制御3
  • - DC4 (Device Control 4): デバイス制御4
  • - NAK (Negative Acknowledge): 否定応答
  • - SYN (Synchronous Idle): 同期アイドル
  • - ETB (End of Transmission Block): 伝送ブロック終了
  • - CAN (Cancel): キャンセル
  • - EM (End of Medium): メディア終了
  • - SUB (Substitute): 代用
  • - ESC (Escape): エスケープ
  • - FS (File Separator): ファイル区切り
  • - GS (Group Separator): グループ区切り
  • - RS (Record Separator): レコード区切り
  • - US (Unit Separator): ユニット区切り
  • - DEL (Delete): 削除

Unicodeの制御文字



Unicodeでは、制御文字は以下の範囲にあります。

  • - U+0000 - U+001F: C0制御コード
  • - U+007F: 削除文字
  • - U+0080 - U+009F: C1制御コード

これらの制御文字は、一般カテゴリとして「Cc」に分類されます。フォーマット用のコードは、「Cf」として区別されます。Unicodeでは、Ccの制御文字には名前がなく、正式には「<control-001A>」のように表示されます。

関連項目




脚注



  • - (注釈、出典は省略)

外部リンク



もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。