タグクラウド

タグクラウド(ワードクラウド)とは



タグクラウド(tag cloud)、ワードクラウド(word cloud)とは、テキストデータに含まれる単語の重要度を視覚的に表現したものです。キーワードメタデータ(タグ)を視覚化したり、自由形式のテキストを解析する際に用いられます。

通常、単語がタグとして表示され、各タグの重要度はフォントサイズや色で示されます。これにより、最も重要な単語を素早く認識し、その相対的な重要度を把握できます。

歴史



タグクラウドは、視覚デザインにおける「重み付きリスト」の一種であり、地理的な地図で都市の相対的な大きさを表現するために使われていたものが原点です。初期の印刷例としては、1995年のダグラス・クープランドの小説「Microserfs」にキーワードの重み付きリストが掲載されています。

「タグクラウド」という言葉と特定の視覚形式は、21世紀初頭にWeb 2.0のWebサイトやブログで広まりました。初期のWebサイトでは、キーワードメタデータの頻度分布を視覚化するために使用され、コンテンツやナビゲーションの補助として重要な役割を果たしました。

2004年には、写真共有サイトFlickrで最初のタグクラウドが実装されました。Flickrの共同設立者であるスチュワート・バターフィールドが、Jim Flanaganの「Search Referral Zeitgeist」というWebサイトのリファラー視覚化を参考に作成しました。その後、Del.icio.usやTechnoratiなどのサイトでもタグクラウドが普及しました。

しかし、タグクラウドの過剰な使用やWebナビゲーションツールとしての有用性に対する疑問から、これらの初期採用者の間で利用が減少し、FlickrはWeb開発コミュニティに対して「タグクラウドについてごめんなさい」と謝罪しました。

その後、ソフトウェア開発の分野で、テキストデータの基本的な視覚化手法としてタグクラウドの幅広い応用が見出され、パラレルタグクラウド、SparkClouds、プレフィックスタグクラウドなどの拡張版も提案されています。

タグクラウドのタイプ



タグクラウドには、主に3つのタイプがあります。それぞれ外観ではなく、その意味によって区別されます。

1. 頻度:各アイテムにタグが適用された回数を表示します。
2. グローバル:すべてのアイテムとユーザーにわたって頻度を集計したタグクラウドを表示します。
3. 分類:カテゴリが含まれ、サイズがサブカテゴリの数を示すタグクラウドを表示します。

最初のタイプでは、タグが単一のアイテムに適用された回数を表示します。これは、民主的に「投票」されたアイテムに関するメタデータを表示するのに役立ちます。2番目のタイプでは、タグが適用されたアイテムの数を表示し、各タグの人気度を示します。

さらに、頻度ではなく、背景コーパスと比較した単語と単語の共起の重要性をサイズで示すこともできます。このアプローチは単独で使用されることはありませんが、ドキュメントの頻度を予想される分布と比較することに依存します。

3番目のタイプでは、タグはコンテンツアイテムの分類方法として使用され、タグクラウド内の大きなタグは、そのカテゴリのコンテンツアイテムの量を示します。

タグクラウドの代わりに、タグの共起を利用してタグクラスターを構築するアプローチもあります。

タグクラウドの応用



タグクラウドは、キーワードクラウドとして検索エンジンマーケティング(SEM)の用語として使用されることもあります。また、近年ではWebページの検索エンジン最適化や、情報システム内でのコンテンツナビゲーション支援として注目されています。

タグクラウドをナビゲーションツールとして使用すると、検索エンジンスパイダーがWebサイトのリソースをクロールしやすくなり、サイトの検索エンジンのランキングを向上させる可能性があります。また、ユーザーインターフェースの観点からは、検索結果を要約するために使用されたり、特定の情報システム内でコンテンツをより迅速に検索できるようサポートします。

外観



タグクラウドは通常、インラインHTML要素で表現され、タグはアルファベット順、ランダムな順序、重みなどでソートできます。フォントサイズ、フォントの色、強度、太さなどの視覚的プロパティも調整可能です。

一般的なレイアウトは、アルファベット順に並べられた長方形のタグ配置であり、行ごとに順次配置されます。最適なレイアウトは、ユーザーの目標に基づいて決定する必要があります。タグを意味的にクラスタリングし、類似のタグを互いに近くに表示したり、単語を配置するためにtSNEなどの埋め込み手法を使用したりすることもあります。

タグの共起を強調するためにエッジを追加したり、相互作用を視覚化したりすることも可能です。また、ヒューリスティックを使用してタグクラウドのサイズを縮小することもできます。

タグクラウドの視覚的分類は、タグの順序規則、クラウド全体の形状、タグの境界、タグの回転、タグの垂直方向の配置などの要素に基づいて行われます。Web上のタグクラウドは、美観のモデリングと制御、タグの2次元レイアウトの構築などの課題に対応する必要があります。これらはすべて、ブラウザプラットフォームで短時間で実行する必要があります。

Webで使用されるタグクラウドは、ロボットで読み取り可能にするために、グラフィックスではなくHTMLである必要があり、ブラウザで利用可能なフォントを使用してクライアント側で構築する必要があります。

その他のクラウド



データクラウド:フォントサイズや色を使用して数値を示すデータ表示法です。人口や株価などのデータを表示するために使用されます。

テキストクラウド:特定のテキスト内の単語の頻度を視覚化したものです。政治演説の話題の内容を視覚化するために広く使用されています。

コロケートクラウド:テキストクラウドの原理を拡張したもので、特定の単語の使用状況を調べます。検索ワードと組み合わせて使用されることが多い単語が含まれており、その頻度と強度が表示されます。

知覚



ユーザビリティ研究によると、

大きいタグは小さいタグよりもユーザーの注意を引きやすい。
ユーザーはタグクラウドを読むのではなく、スキャンする傾向がある。
クラウドの中央にあるタグは、境界線に近いタグよりもユーザーの注目を集めやすい。
左上の象限は、他の象限よりもユーザーの注意を引く傾向がある(西部の読書習慣による)。
タグクラウドは、特定のタグを検索する際には必ずしも最適ではない。

さらに、フォントサイズの代わりにバーや円などの追加の形状を使用すると、数値を読み取る際の精度が向上することがわかっています。

作成



タグクラウド内のタグのフォントサイズは、通常、その出現頻度によって決定されます。頻度が小さい場合は、最小サイズから最大フォントサイズまで直接指定できます。値が大きい場合は、スケーリングが必要です。線形正規化では、重みを1のサイズスケールにマッピングし、重みの範囲を指定します。

タグクラウドの実装には、一般的な単語、数字、句読点などの役に立たないタグのテキスト解析とフィルタリングが含まれます。また、一部のオンラインプレゼンテーションプログラムを使用して、ユーザー入力でタグクラウドを生成することもできます。

広告やユーモラスな結果を得るために、人為的またはランダムに重み付けされたタグクラウドを作成するWebサイトもあります。

関連項目



コンコーダンス
フォークソノミー
データ可視化
キーワード
tf-idf
* タギング (コンピュータ)

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。