Cross-wiki Search Result Improvements

This page is a translated version of the page Cross-wiki Search Result Improvements and the translation is 100% complete.

新規目標

ディスカバリー部門は検索をかけると同じ言語のウィキメディア姉妹プロジェクトの結果も表示できないか可能性を探ってきました一般的にクロスウィキcross-wiki とかウィキ間検索inter-wiki と呼ばれる機能 。)

一例としてフランス語版ウィキボヤージュを閲覧中に「milk 」を検索したとすると、フランス語版のウィキペディアに加えて 同ウィキメディア姉妹プロジェクト(ウィクショナリーfr.wiktionaryやウィキクオートfr.wikiquote)の検索結果も、あわせて表示されるということです。

このページを使ったディスカバリー部門の構想を大まかにご紹介し、実行可能な変更について、トークページでは寄稿者の皆さんに自由に議論をお願いできればと考えました。

構想は異なるものの、2016年にディスカバリー部門検索チームが実現した新機能と関連があります。 2016年の機能ではローカルの言語で検索結果が2件しかヒットしなかった場合、利用者が入力した言語以外のウィキペディアを検索するとどうなるか、あらかじめ限定した言語版の結果を表示するものでした。 このページの主題として言語推定機能ばかりでなく、それと共存する検索結果の新しい表示法 - 同じ言語の姉妹プロジェクトの結果を含める - を取り上げます。

設計思想

ウィキメディアのプロジェクトでは従来、検索に基本原則がありました。各プロジェクトの言語版ごとに独自の索引があり、検索に使っていました。 そのためすべてのウィキプロジェクトを対象にして 同時に 検索をかけ、関連のある結果を得ることは不可能だったのです。 ところがバックエンドから見ると(プロジェクトは異なっても)検索する言語は共通で、利用者は同じ言語の姉妹プロジェクトの情報にも興味があるのではないかと考えられたのです。

プロジェクトを横断して(同じ言語の)検索結果を示すと訪問者に提供する情報が増え、他のプロジェクトの認知度が高まり、さらにオンウィキで検索する訪問者にとっては、検索結果がゼロという場合が減ることも含め、ウィキメディアを検索する価値が高まります。

他のプロジェクトから検索結果を返すと、単に姉妹プロジェクトの認知度を高めるだけにとどまらず、興味をひかれる記事が増えるばかりか、もっと寄稿したいという意欲を誘う可能性があります。

なぜもっと早く取り組まなかったのか?

 
英語版ウィキペディアの現状の検索結果の例

すべての言語版を網羅する巨大な検索結果を表示してはどうでしょうか?

  • 理由のひとつは技術的な複雑さにあります。場合によりますが、検索により発生する索引件数が数百ギガバイトに達すると予想されるのです。 一例として英語版ウィキペディアの全記事のデータベース索引はおよそ200ギガバイトです。 もし単一の非常に大きなデータベース索引を出力するとなると、検索時間を短くすることに悪影響が出てしまいます。
  • もうひとつの理由として、検索結果が「単一言語」対応にしてあるのは、特定のトピックに関して「すべての」言語版を検索しても、あまり有益ではない可能性があるためです。 「フランスのパリ」と検索しておおよそ同じ内容の記事をフランス語、ドイツ語、日本語で示されても、あまり新しい情報に出会う助けにはなりそうもありません。

英語版のウィキプロジェクト群は膨大です。

  • 英語版ウィキペディアにある英語の記事の総索引は約200 GB
  • 英語版ウィキニュースは同じく約15 GB
  • 英語版ウィキソースは同じく約6 GB

これらを他の検索結果とかけ合わせると、既存のさまざまなワークフローに甚大な影響を与えかねません。

  • 影響の範囲はボット、寄稿者、研究者、閲読者その他にも及ぶと考えられます。

計画

第1四半期(2016年7-9月期)に技術部門は以下の主要な4段階で作業を続ける計画です。

その1

  • 同一言語のプロジェクト間で索引を統合する。 (タスク T139498)   部分的に完了
  • コミュニティに協力を要請 - このページ上の議論を含む。 (タスク T137312)   完了
  • ウィキメディア財団の検索部門と設計部門は、これら新しい検索結果の表示方法の見本を作成する。   完了

その2

次四半期末(2016年10-12月期)までに部門は検索満足度を調査する。実施項目は以下の通り。

  • 時期はウィキ間索引が想定した複数言語で用意できた段階 (タスク T121541)   完了
  • 時期はA/B試験により分析対象のデータ収集がリアルタイムに実施できた段階 (タスク T121546)  N 未完了
  • さらにフロントエンド用のUIのモックアップ をここで試験できるように整える。 Cross-wiki Search Result Improvements/Testing   完了
  • また並行して初期試験用にラボを創設する。 (タスク T151344)   完了

その3

今四半期中(2017年1-3月期)の目標。

  • この新機能のフロントエンド向けA/B試験を開始して分析、コミュニティからフィードバックを得る。 (タスク T145917)   進行中
  • この機能のバックエンドの改善と拡張の続行。   進行中
  • 初回A/B/C試験を実施したところ、決定的な結果は得られなかった。 (タスク T149806)   完了
  • 第2回A/B試験を実施予定。これに先立ってUIの微細なバグを修正、試験対象にウィキペディアの言語版4件を追加して合計8件とする。 (タスク T160004)   部分的に完了

その4

2017年4月–6月期

  • 第2回A/Bテストの結果の分析をまとめ、検索結果ページにおける姉妹プロジェクトのスニペット表示法を提示 (タスク T160008)   部分的に完了
  • 井戸端でメモの翻訳版を公表し、製品実装を発表。 (タスク T162276)   進行中
  • ブログで検索について投稿
  • すべての言語版のウィキペディアに実装

現行の検索の例

すでにコミュニティ主体で、同一言語の他のウィキメディアのプロジェクト群や記事をもっと発見するように解決策がいくつか提示されました。 見本を少し集めた例はこちら。

複数の言語版ウィキの検索結果の現状。

外部の検索用ガジェット:

  • mw:MediaWiki:Gadget-externalsearch.js
    • このガジェットはカスタムリストにある技術サイトを対象に検索し、結果の一覧は複数タブを使って表示するもので、詳細はWikimedia technical search で説明しています。
      • この特別な処理はこちらのスクリーンショットを参照してください(残念ながらブラウザによっては"google.com/cse"を検索するとスパムエラーが発生します。)

他のウィキ群の検索結果を表示するには?

検索結果の表示は今後の議論を待っているところで、草案は下記のようにいくつか提示でき、また設計の可能性は設計で述べています。既存の英語以外のウィキで採用された解決策に基づくと、新しい検索結果の見た目こんな感じ かもしれません。

解決策の決定にご協力ください

この機会にフィードバックをお願いします!

  • 技術と設計の実装を完成するには最低でも2四半期が必要です。
  • 担当部門ではコミュニティの皆さんに提示してテストをお願いできるよう、2016年末までに準備を整えるつもりです。

質問

担当部門には答えを求める課題が数多くあるため、以下の各点についてコミュニティの皆さんからフィードバックをお待ちしてます。

  1. これらの関連情報を含む拡張した検索結果を、どう表示すればよいでしょうか?
    1. 利用者が開いているウィキの検索結果を最初に 表示し、他のウィキの検索結果はもっと見る オプションで切り替えるとどうでしょうか?
    2. 利用者のローカルのウィキの検索結果と、その他の検索結果が混ざっていてもよいですか?
    3. その他のウィキの結果を表示するのは、検索結果ページのメインの領域ではなく脇(もしくは画面下部)が適していますか?
    4. 関連するその他の検索結果を非表示にする オプションは必要ですか?(実行は利用者単位と/またはプロジェクト単位かどうか)
      • これはキーワード検索の検索語あるいは訪問者向けのクリックボタンで操作
      • あるいはまた、例えば画像検索をコモンズではなくローカルのウィキに限定するlocal:キーワードに似た処理も可能。
    5. その他の検索結果の表示法は箇条書きリストか表形式か?
    6. 検索結果には関連するメタデータ(画像と/または短い解説)も表示しますか?
    7. 結果は本文と同じ文字数(例:848 バイト=104ワード換算)がよいか、作成日か変更日か?
    8. 結果の項目をクリックして、他のウィキプロジェクトにジャンプできると表示する方がいいですか?
    9. 他のウィキ群の結果は何件ずつ表示しますか - 1か2、3かそれ以上 ?
    10. 利用者が開いたウィキの検索結果を表示する方法に、制限を加えたほうがよいですか?
      • 現在は検索結果を最大1万件、ページ分けして表示しています。ところがテストの結果によると、実際に操作を行うのは上位3件に限定されています。
  2. この新しい検索結果をウィキメディアのすべてのプロジェクト群で有効にするべきでしょうか?
    1. 例えばウィキクォートを利用中に検索した時、ウィキボヤージュやウィキペディアあるいはウィキニュースの検索結果まで知りたいと思うでしょうか?
    2. あるいはウィキペディアを閲覧中だとして、結果はウィキペディアを除外して表示しますか?
  3. 姉妹プロジェクトの検索結果は便利で、さまざまなトピックへ視野を広げる助けになるでしょうか?
    1. 他のウィキからの検索結果が表示されると迷惑ですか?
    2. その逆で、利用者にもっと知識を発見しようと思わせるでしょうか?
    3. 結果表示において、姉妹プロジェクトの分をどれくらいの比重にしたらよいですか?
  4. 他のウィキプロジェクトの検索結果を示すと、編集者の貢献が増えますか?
    1. つまりドゥオモ広場を(ウィキクォート閲覧中に)検索してウィキボヤージュの記事が表示されなかったとしたら、新規ページを書いてみようと考えるでしょうか?
  5. 検索の対象にする言語版の数に上限は設定しますか?
    1. つまり検索実行は上位50言語に限定しますか?
    2. あるいは利用者が開いている言語版を除外して、クエリが成立すると検出した言語版のみ利用しますか?

関連項目: 検索結果からウィクショナリーのウィジェットやサムネイル版アイコンで類似するものを閲覧

Phabricator チケット:

議論のメモ:

コミュニティからのフィードバック及び 設計部門の推奨事項の検討が済み次第、まもなくA/B試験を実施予定です。 詳細はこちらのページを参照してください。

このページを書いた目的は、サンプルを示したテストページをご用意して利用者の皆さんに自主的にテストをしてもらうためで、対象者には、技術にそれほど詳しくない利用者も、ウィキペディアにアカウント登録していて少しはさわってみたことのある利用者も想定しています。