DOCファイルフォーマットとは
DOCファイルフォーマットは、本来「ドキュメント」の略であり、文書ファイルを意味する言葉でした。しかし、今日ではMicrosoft Wordのファイルフォーマットとして広く認識されています。
拡張子「.doc」は、かつて
MS-DOS時代にはテキスト形式の説明書などにも用いられていましたが、Microsoft Wordの普及とともに、その専用フォーマットとしての地位を確立しました。
概要
Microsoft WordのDOCファイルフォーマットは、バイナリ形式で構成されており、Microsoft Word 97を基盤としています。このため、それ以前のバージョンとは互換性がありません。2003年までは標準のファイル形式として使用されていましたが、2007年以降は
Office Open XML Document(.docx)が標準となりました。しかし、現在でも多くの
ワープロソフトでDOC形式が利用されており、その互換性が保たれています。
Microsoft Word バイナリファイル形式
DOCファイルは、RTFやHTML形式に比べて、書式情報、スクリプト、Undo情報などを豊富に保持できるのが特徴です。ただし、他のアプリケーションでの再現性には課題が残ります。また、DOCファイルの形式はMicrosoft Wordのバージョンによって異なり、特にWord 97以前の形式と、Word 97から2003年の形式との間には大きな違いがあります。Microsoft Word 2007以降では、
Office Open XML形式が標準となりましたが、以前のDOC形式のファイルも生成できます。
アプリケーションによるサポート
DOCファイル形式はMicrosoft Word固有のフォーマットではあるものの、
OpenOffice.org Writer、IBM Lotus Symphony、Apple
Pages、
AbiWordなどの他のワードプロセッサでも読み書きが可能です。しかし、完全に互換性があるわけではなく、書式が崩れるなどの問題が生じる場合もあります。
Unix系のシステムでは、wvライブラリを使用してDOC形式をプレーンテキストに変換できます。このライブラリは
AbiWordでも利用されています。
仕様
DOC形式の仕様は、長年にわたり非公開でした。そのため、DOCファイルの読み書きをサポートするワードプロセッサでも、情報の扱いが不完全で書式が損なわれることがありました。Office 97のバイナリファイル形式は、1997年に制限付きで公開されましたが、1999年にはダウンロードが中止されました。その後、2006年からはRANDライセンスで一部公開されましたが、2008年2月には終了しました。
サン・マイクロシステムズや
OpenOffice.orgは、
リバースエンジニアリングによってDOCファイルの解析を試みました。
2008年6月に、
マイクロソフトはOpen Specification Promiseに基づき、DOC形式の仕様を公開しましたが、全ての機能を網羅しているわけではありません。現在でも、
リバースエンジニアリングによる解析が必要な部分が存在します。
まとめ
DOCファイルフォーマットは、当初は一般的な文書ファイルを指す言葉でしたが、Microsoft Wordの普及とともに、その専用のファイル形式としての地位を確立しました。バイナリ形式であるため、他の形式に比べて多くの情報を保持できますが、互換性に課題が残ります。仕様の一部は公開されているものの、完全に解析するには
リバースエンジニアリングが必要です。現在では、
Office Open XML形式が主流になっていますが、DOC形式も依然として広く利用されています。