Help:MediaSearch

This page is a translated version of the page Help:MediaSearch and the translation is 100% complete.

MediaSearch とはコモンズに導入された新規の検索用フロントエンドおよびバックエンドで、ウェブの画像検索エンジンのレイアウト同様、陳列棚のように画像を表示します。 MediaSearch に関するご意見ご感想は コモンズのトークページに投稿してください。

特別:メディア検索を使い特定の画像が見つかる機会を最大化するには:

  • 題名を付けるときは内容を説明する適切な文字列にする
  • 適切なキャプションを、可能な限り多言語で付け、ファイルの内容を説明する
  • 解説は詳細にして、ファイルの主題とその他の実質的な価値のある情報を盛り込む
  • ファイルに関連性のあるカテゴリを付ける
  • 画面を見て読み取れる描写された題材の文をこまかく加える

以下はどんなデータが使えるか、ファイル検索にどのように役立つか、まとめました。画像検索では主に2種類のデータを採用しています。

  1. 全文
  2. 文と構造化データ

全文検索

仕組み

これは昔から使われてきた文字による検索です。解説文が検索語を含む場合はそのファイルがヒットします。

検索順位には2つの要素が影響します。

  • 用語の使用頻度
  • 用語の位置
用語の頻度

検索アルゴリズムは検索結果の関連度の判定に検索用語の使用頻度を基準にします。

ある文書で検索語の使用頻度が高いほど、関連度がより高いとみなされます(例:ある文書が他の文書よりも多く「Mona Lisa」に言及しているならば、関連度は高そう)。

すべての文書で検索語の使用頻度が高いほど、関連度がより低いとみなされます(例:「does」のようなよく使われる単語は多くの文書に現れるのでスコアには貢献しない)。

英語版ウィキペディアでウィキテキストとして「Mona Lisa」で検索すると、「Louvre museum」の記事(ルーブル美術館、7回ヒット)よりも「Mona Lisa」の記事(184回ヒット)のほうがおそらくは結果として優れていると発見する手がかりになります。

ところが、長文の記事ではなく、短い解説文があるコモンズの場合、検索語のヒット率は関連性の比較に必ずしも有効ではないという問題点があります。特定の検索語は1、2回しか使われず、ほかに比較の決め手となる要素もほとんどありません。そのため順位判定には用語の位置も採用しました。

用語の位置

ファイルに関する情報を入力する方法は複数あります。それぞれが最終的な関連性スコアに貢献しますがやり方が異なります。

Wikitext の解説文はこれまでファイルの情報を表すのに最も重要だと考えられてきましたが、あまりに多くの情報がありすぎて検索の関連性の点で重要な用語が目立たなくなることがよくあります。あるいは、情報量が少なすぎて、関連性の決定にはさほど寄与していないこともよくあります。

例えば作者、メディアファイルが作成された場所や日付、所蔵博物館、公開ライセンスなどは重要なものである一方で、しばしば人々が検索する用語ではありません。さらに、解説文の重要な部分は「文脈的な」情報であり、主題には直接関係していないことがよくあります。

解説文にはファイルを見つけるのに非常に重要な情報が多く含まれている一方で、ファイルは解説文にある用語だけに基づいて具体的に何を意味するのかを把握することは難しいかもしれません。解説は長い場合があります (さらに複数の言語を含むこともあり、検索用語に無関係な情報も含みます) 。 言い換えれば、解説文で関連性を判断することは難しいのです。

内容を簡潔に記述する追加データ (タイトル、キャプション、カテゴリなど)は極めて特定の情報に焦点を当てることが多いため、メディアファイルの中で何が重要か判断するのに役立ちます。つまり このデータは関連性を決定することを容易にするのです。このため用語の位置が重要なのです。

例: 「Mona Lisa」を検索する際、解説文にだけ「Mona Lisa」を含むファイルは、その用語がタイトルかつ/またはキャプション、かつ/または Mona Lisa のカテゴリ(のひとつ)にも追加されている場合よりも、通常は検索結果において低ランクに位置づけられます。

ただし、ウィキテキストのフィールドを2つに分けて情報を複製すると、出現頻度に基づく関連性スコアが低下する意図せざる結果が生じることもあります。したがって、関連するタイトル、詳細な解説文、キャプション (理想的には複数の言語で) と適切なカテゴリを追加することで、同じ情報を複数の場所で繰り返さずに、ファイルを正確に記述してください。

注意事項

上の全文検索アルゴリズムは とても良いものですが、問題もあります。特に私たちの文脈では:

言語

伝統的なテキストベースの検索では、ユーザが検索している言語以外の言語では結果を表示したくないのが普通です(ユーザが他の言語を理解しないという前提) 。Commonsでは違います。なぜなら人々は実際には解説を探しているのではなく、ファイルが欲しいからです。

そのためもしユーザが「cars」の画像を探すなら、理想的な検索は、オランダ語の「auto」やフランス語の「voiture」といった他の言語でも一致したファイルも見つけて返すでしょう。しかしそれぞれの画像の解説やキャプションに言語ごとの翻訳が無ければ、テキストベースの検索は他の言語での結果を見つけられないでしょう。

さらなる問題として、同じ単語が複数の言語で同じに見えても、その意味が違うことがあります。例えば「gift」の英語とドイツ語、あるいは「chat」の英語とフランス語など。こうした言語間の差異は意味が異なるためにテキストベースの検索ではかなり異なった結果が返ってくるでしょう。

同義語

同様に、テキストベース検索で「bat」を検索するときは、学名の「Chiroptera」で言及されている場合には画像を見つけられません。これは頭文字、例えば「New York City」に対する「NYC」でも同様のことが言えます。

単語の一致であり、概念ではない

同様に、解説文には、ウィキテキストをスキャンするだけでは簡単に取得できない、より暗黙の情報が含まれている可能性があります。

「British shorthair」は「cat」で「Volvo V40」は「car」ですが、解説文でも明示的に「cat」あるいは「car」と書かれていない限り伝統的なテキストベースの検索では、こうした用語では見つからないでしょう。

文と構造化データ

Wikidata statements には伝統的なテキストベースの検索の上述のような注意点の多くを解決できる可能性があります。多言語で、別名を持ち、あらゆる種類の関連する概念にリンクしています。

仕組み

ファイルページに「構造化データ」タブが追加されたおかげで、そのファイルの題材が何かという文を含めることで、ファイルにウィキデータのエンティティを付属させることが可能になりました。

検索用語 (例えば「anaconda」)が与えられると、関連するエンティティをウィキデータでも検索します。このケースでの検索結果の上位の一部は以下の通り:

  • Anaconda (Q483539): モンタナ州
  • Eunectes (Q188622): ヘビの属
  • 「Anaconda」 (Q17485058):ニッキー・ミナージの歌

全文検索に加えて、検索はエンティティの題材文(単一でも複数でも)も対象にします。さらに芸術作品に用いられる「以下のデジタル複製」文も含まれます。

これには返される結果を飛躍的に拡張する可能性があります。なぜならエンティティはすでに同義語(Wikidata aliasesを通じて)と言語差異(複数言語でのlabelsと別名を通じて)をカバーしているからです。ファイルは項目ごとに題材文ひとつでタグ付けされているだけで良く、検索はその文、別名、翻訳を見つけることができるでしょう。

翻訳や別名が後にこれらのエンティティに追加されると、それらのエンティティにタグ付けされたファイルは自動的に利用され、これらの用語でも発見できるようになります。そのためCommonsの題材文に追加されたエンティティをさらに多くのウィキデータ上にある別名やラベル、および他の情報で豊かにし続けることが重要です。

メモ: 検索ランキングでは必ずしも全てのエンティティが等しく考慮されるわけではありません。「iris」を検索する時、ユーザは植物の属(Q156901)、あるいは目の一部(Q178748)を想定しているかもしれませんが、おそらく英国の作家であり哲学者の(Q217495)のことではないでしょう。

検索用語に対する類似性、およびエンティティの重要性/人気に基づいて、メディア検索は何らかのエンティティを使って他の検索よりもマルチメディアを増加させます。

注意事項

ウィキデータのエンティティは、追加の関連マルチメディアを発見するのに役立つ優れた信号です:

  • ノイズが少なくなります(例えば解説文では「アイリス」が写真家の名前であり、ファイルの主題ではないような偽陽性文字が多く含まれます) 。
  • 個々のファイル解説よりも多くの情報 (別名と翻訳) を含んでいます。
  • 単一の中心部(Wikidata)で情報を豊かにできる

しかし、相対的なランキングの指標としては不十分。

  • 複数の題材文があるファイルでは、どの文が最も重要あるいは関連が深いかを知ることは難しい
  • ウィキデータには様々なレベルの詳細を持つエンティティがある
相対的なランキング

複数の題材文があるファイルでは どの文が最も重要あるいは関連深いかを知ることは難しいのです。

両者とも同じように重要なのか?それとも、どちらかが明らかな主題で、もう一方はより関連性が低い背景の詳細なのか?もしそうなら、どちらが?あるファイルの一部の題材文が、別の題材文よりも優位なのでしょうか?

Pale Blue Dot」の写真で考えてみましょう:地球は画像セットの中で1ピクセル以下ですが、画像の中では顕著な特徴となっています。

文には基本的に2つの状態しかありません:ファイルの中に何かがあるか、ないかです。そのファイル内の何かがどのように関連しているのかについては、詳細は書かれていません

これらの問題の一部を解決するために、文に「重要としてマークする」機能が提供されていますが、現在は一貫しては使用されていません。さらに「当てはまる部分」修飾子の使用はランキングを改善するのに役立ちますが、これらの修飾子は、ウィキデータに先例があるにもかかわらず、現在 Commonsではほとんど使われていません。 例えば、モナリサに関するウィキデータ項目には、題材の要素が前方にあるのか背景なのかを指定する「当てはまる部分」修飾子があります。これはCommonsで使用された場合、検索ランキングアルゴリズムに追加の信号を提供できます。

題材文は、追加の関連的な結果を表すのに非常に有用ですが、 ランキングの信号として使うのは難しいです。テキストによる解説文は、これらの単純な文よりも、主題の相対的な重要性をよく伝えることがしばしばあります。

詳細さの程度

ウィキデータにはさまざまなエンティティが登録されていて精度のレベルも同じではありません。検索結果に「入れ子の概念」を組み込めるようにしたいと取り組んでいますが、特に全文検索と比較した場合に、エンティティの重みづけは慎重にしておきます。

一例として写真の説明をするなら橋 (Q12280)、吊橋(Q12570)、ゴールデンゲート・ブリッジ(Q44440)、観光名所(Q570116)を使えるのは事実として、ゴールデンゲート・ブリッジ(Q44440)そのものは、関連のさまざまなエンティティがこれらで説明してあるのです。

しかしながら、現実にはそう単純に解決しない事例が散見されます。

犬種のジャーマンシェパード(Q38280)はイヌの下位クラス(Q144)すなわちその上位クラスはペット(Q39201) - 理論上は「ペット」の写真を検索すると、ジャーマンシェパードをタグ付けした写真が検出されるはずです。

しかしながら、写真の中には、題名は「ジャーマンシェパード犬」なのに実は被写体は使役犬(Q1806324)であって愛玩犬ではない場合があり得ます。