Webarchiveは、Apple社が開発したウェブブラウザである
Safariに特有のファイル形式です。この形式は、ウェブページを表示するために必要なすべての情報、例えばHTML構造、スタイルシート(CSS)、画像ファイル、
JavaScriptコードなどを一つのファイルに集約して保存することを目的としています。これにより、インターネットに接続されていないオフラインの状態でも、ウェブページを元のレイアウトや機能に近い形で閲覧することが可能となります。
特徴と内部構造
Webarchiveファイルの大きな特徴は、ウェブページ全体を一つのパッケージとして扱える点です。通常のウェブページ保存では、HTMLファイル本体と、画像やスタイルシートなどの付属ファイルが別々に保存されることが一般的ですが、Webarchive形式ではこれらが単一のファイル内に格納されます。このファイル形式の内部構造は、Apple製品で広く用いられるplist形式(Property List)を基盤としています。plist形式は、構造化されたデータをキーと値のペアで表現するもので、Webarchiveファイルはこの構造を利用してウェブページの各要素を効率的に管理しています。
対応環境の広がり
Webarchive形式は当初macOS版の
Safariで導入され、ウェブページを簡単に保存する標準的な方法として普及しました。Windows版の
Safariでも、バージョン4のベータ版からこの形式のサポートが開始されました。モバイル環境においても、AppleのiOSデバイスでは、バージョン13以降の
SafariでWebarchiveファイルの作成機能が搭載され、さらにファイルAppなど他のアプリケーションからもファイルの閲覧が可能になるなど、対応が広がっています。これにより、iPhoneやiPadでも手軽にウェブページをアーカイブとして保存し、後からオフラインで確認できるようになりました。
他の環境での利用と互換性
Webarchive形式は
Safari固有のものであるため、
Safari以外のブラウザやオペレーティングシステムで直接開くには、いくつかの方法が必要になります。WindowsやmacOS環境では、WebArchive FolderizerやWebArchive Extractorといった無償で提供されているツールを使用することで、Webarchiveファイルを一般的なHTMLファイルと付属ファイル群の形式に変換し、他のブラウザでも閲覧可能にすることができます。また、macOSの標準機能であるtextutilコマンド(OS X 10.4 Tigerで追加)を使うことでも、Webarchiveファイルからテキスト部分やHTML構造を抽出するといった操作が可能です。
最も互換性の高いウェブページ保存方法としては、Webarchive形式に頼らず、多くのブラウザがサポートする「HTMLファイルと関連ファイル群をフォルダにまとめて保存する」方式があります。これは、HTMLファイル本体と、画像やスタイルシートなどを格納した専用フォルダで構成される形式で、異なる環境間でのファイルの受け渡しや長期保存に適しています。
類似・競合するフォーマット
Webarchive形式と同様に、ウェブページ全体を一つのファイルにまとめて保存する形式は他にも存在します。代表的なものとしては、
MHTML(MIME HTML)形式があります。
MHTMLは
Internet Explorerや一部の他のブラウザでサポートされている形式で、ウェブページをMIMEエンコードして単一ファイルに格納します。また、Linuxなどで使われるブラウザKonquerorでは、WAR形式という独自のフォーマットが用いられています。WAR形式は、tarとgzipまたはbzip2といった標準的な圧縮・アーカイブツールを組み合わせて作られています。これらの形式は目的は似ていますが、内部構造や対応ブラウザが異なるため、互換性には注意が必要です。
Webarchiveは
Safariユーザーにとって便利なウェブページ保存手段ですが、広く互換性を求められる場合には、他の形式への変換や、より一般的な保存方法の選択も検討することが重要です。