DOC (ファイルフォーマット)

DOCファイルフォーマットとは



DOCファイルフォーマットは、本来「ドキュメント」の略であり、文書ファイルを意味する言葉でした。しかし、今日ではMicrosoft Wordのファイルフォーマットとして広く認識されています。拡張子「.doc」は、かつてMS-DOS時代にはテキスト形式の説明書などにも用いられていましたが、Microsoft Wordの普及とともに、その専用フォーマットとしての地位を確立しました。

概要



Microsoft WordのDOCファイルフォーマットは、バイナリ形式で構成されており、Microsoft Word 97を基盤としています。このため、それ以前のバージョンとは互換性がありません。2003年までは標準のファイル形式として使用されていましたが、2007年以降はOffice Open XML Document(.docx)が標準となりました。しかし、現在でも多くのワープロソフトでDOC形式が利用されており、その互換性が保たれています。

Microsoft Word バイナリファイル形式



DOCファイルは、RTFやHTML形式に比べて、書式情報、スクリプト、Undo情報などを豊富に保持できるのが特徴です。ただし、他のアプリケーションでの再現性には課題が残ります。また、DOCファイルの形式はMicrosoft Wordのバージョンによって異なり、特にWord 97以前の形式と、Word 97から2003年の形式との間には大きな違いがあります。Microsoft Word 2007以降では、Office Open XML形式が標準となりましたが、以前のDOC形式のファイルも生成できます。

アプリケーションによるサポート



DOCファイル形式はMicrosoft Word固有のフォーマットではあるものの、OpenOffice.org Writer、IBM Lotus Symphony、Apple PagesAbiWordなどの他のワードプロセッサでも読み書きが可能です。しかし、完全に互換性があるわけではなく、書式が崩れるなどの問題が生じる場合もあります。Unix系のシステムでは、wvライブラリを使用してDOC形式をプレーンテキストに変換できます。このライブラリはAbiWordでも利用されています。

仕様



DOC形式の仕様は、長年にわたり非公開でした。そのため、DOCファイルの読み書きをサポートするワードプロセッサでも、情報の扱いが不完全で書式が損なわれることがありました。Office 97のバイナリファイル形式は、1997年に制限付きで公開されましたが、1999年にはダウンロードが中止されました。その後、2006年からはRANDライセンスで一部公開されましたが、2008年2月には終了しました。サン・マイクロシステムズOpenOffice.orgは、リバースエンジニアリングによってDOCファイルの解析を試みました。

2008年6月に、マイクロソフトはOpen Specification Promiseに基づき、DOC形式の仕様を公開しましたが、全ての機能を網羅しているわけではありません。現在でも、リバースエンジニアリングによる解析が必要な部分が存在します。

まとめ



DOCファイルフォーマットは、当初は一般的な文書ファイルを指す言葉でしたが、Microsoft Wordの普及とともに、その専用のファイル形式としての地位を確立しました。バイナリ形式であるため、他の形式に比べて多くの情報を保持できますが、互換性に課題が残ります。仕様の一部は公開されているものの、完全に解析するにはリバースエンジニアリングが必要です。現在では、Office Open XML形式が主流になっていますが、DOC形式も依然として広く利用されています。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。