ウィキメディア・アプリ/チーム/Android/機械支援の記事まとめ/更新

This page is a translated version of the page Wikimedia Apps/Team/Android/Machine Assisted Article Descriptions/Updates and the translation is 53% complete.

更新情報

追加の変更

  • 一連の実験には共通の下地として機械学習モデルを採用しました(したがって実働モデルの再トレーニングなどは無用)。私たちの作業は利用者とモデルとの対話法の調整です。
  • このモデルは初回のオフライン評価の対象で(2023年1月-4月期)、同年5月-6月のパイロット版で利用者がモデルとやり取りする手順に複数の変更を加えました。特に、目にする出力の範囲(より信頼性が高いものに絞り込み)と、主題が存命中の人物の伝記であるかどうかに基づき、おすすめの説明を示す利用者層を調整しました。
  • そのパイロット版から寄せられたフィードバックにより、最後の改善点として記事の説明の候補に年数が含まれる場合に対処しました(それ自体、モデルがもたらす偽の感覚の原因の1つなので、記事の文中にその年に関する記述がある場合に限定して表示)。これは現在、正式に LiftWing(上記で共有したリンク)に展開してあり Android 利用者が目にするモデルに組み込んであります。
  • この時点で私たちにはモデルのレイテンシーを短縮して Android 利用者が説明文のおすすめをより迅速に確認できるようにする以外、モデルの更新計画はありません。ただしフィードバックを受けたエラーが対処可能と予測する場合は修正に取り組みたいと考えます。

2024年8月

  • 昨年1月に更新して公開済みの実験の結果を踏まえ、機能を実装しようと複数のウィキに働きかけを始めました。

2024年7月:API を LiftWing で公開

長らくお待たせしましたが、機械学習チームとの協働によりモデルを LiftWing に移す作業を進めています(Machine Learning team)。この8月にはクライアント側のコードを洗い直し、テスト状態の設定を解除し、2024年1月の更新で述べた改訂を加える予定です。その後は複数の言語コミュニティに問い合わせ、アプリの機能をその言語で展開するかどうか、順次、打ち合わせをしていく予定です。

この API を使ったアプリを作ろうとする開発者の皆さんは、 解説文書はこちら。

2024年1月:実験の結果

評価対象にした言語版:
  • アラビア語
  • チェコ語
  • ドイツ語
  • 英語
  • スペイン語
  • フランス語
  • グジャラティ語
  • ヒンディー語
  • イタリア語
  • 日本語
  • ロシア語
  • トルコ語

職員がモニターしたところ、コミュニティに評価者がいなかったその他の言語版:

  • フィンランド語
  • カザフ語
  • 朝鮮語
  • ミャンマー語
  • オランダ語
  • ルーマニア語
  • ベトナム語
機械採用版と人手で生成した編集の平均値、標準偏差に差はあったかどうか:
評価した編集 平均値 標準偏差
機械採用版の編集 4.1 5
人手で生成した編集 4.2 5
  • 注記:最高点は 5 に設定
このモデルは言語版同士で反響が異なったか?
言語版 機械採用版

編集の平均値

人手で生成した編集

編集の平均値

機械提案の平均値

採点が高めかどうか?

機能を有効にするよう勧める
ar* 2.8 2.1 いいえ
cs 4.5 該当しない はい
de 3.9 4.1 50件超の編集が必要
en 4.0 4.5 50件超の編集が必要
es 4.5 4.1 はい
fr 4.0 4.1 50件超の編集が必要
gu* 1.0 該当しない いいえ
hi 3.8 該当しない 50件超の編集が必要
it 4.2 4.4 50件超の編集が必要
ja 4.0 4.5 50件超の編集が必要
ru 4.7 4.3 はい
tr 3.8 3.4 はい
その他の言語コミュニティ 該当しない 該当しない 該当しない 申請により有効にできる
  • 注記:この機能を有効にする条件は、コミュニティとの事前の協議。

*印付き(訳注:半角アスタリスク記号)の言語コミュニティ類からは評価の提案があまりなく、評価値に影響を与えなかったと考えられる

機械提案の採用と改変、却下はそれぞれどういう割合だったか?
編集の種別 機械編集総計の%
採用、機械提案 23.49%
編集、機械提案 14.49%
却下、機械提案 62.02%
  • 注記:却下とは機械提案があったのに選ばれなかったという意味。機械提案は「機械による提案」と書かれたアフォーダンスの背後に置かれた。機械提案をまったく表示しなかった利用者は「却下」バケットに計数。却下の意思表示は、利用者が採用の代わりに記事の短い説明を入力したがったと伝えること。
機械承認記事で値が3以上の短い説明文はどんな分布を示したか?
百分率の配分
< 3 10.0%
>= 3 90.0%
編集者の経験歴を考慮した場合、機械承認の記事に付いた短い説明文の評価値はどう変化したか?
編集者の経験歴 編集評価の平均値 平均偏差
50回未満 3.6 4
50回以上 4.4 5
私たちの実験ではビーム 2 件を検証し、どちらがより正確でパフォーマンスが高いか調べました。利用者への提案文の配置は毎回入れ替え、偏りを避けました。結果は次のとおりです。
選択したビーム 編集評価の平均値 % 占有率
1 4.2 64.7%
2 4.0 35.3%
  • 注記:この機能を再び展開する場合は、表示はビーム1に限定する予定。
機械提案を編集 (変更) してから保存する頻度はどのくらいか?
編集のタイプ 変更の分布
機械提案を修正しない 61.85%
機械提案を修正済み 38.15%
利用者が機械提案を変更すると、精度にどう影響するか?
機械評価の編集 平均値
修正なし 4.2
修正済み 4.1
  • 注記:利用者が提案を変更しても精度には影響せず、利用者に推奨の変更をお願いする必要はないと考えますが、それでも機械提案の編集を促す UI は維持するべきです(ユーザーインターフェース)。
評価者からその編集は校正よりも差し戻しが適していると提案があった場合、機械提案と人手編集に頻度の差はありましたか?
評価した編集: 差し戻す%(百分率) 校正する%
編集者がおすすめを採用 2.3% 25.0%
提案を読んだ編集者が自分の提案を説明 5.7% 38.4%
人手で生成して訂正案が付かなかった 15.0% 25.8%
  • 注記:差し戻しとは、巡回者の判断により、編集があまりにも不正確なせいで細かな書き換えで改善する価値はない場合と定義しました。ここで言う書き換えとは、巡回者が利用者の投稿文を修正して改善するだけと定義しています。実験期間中、すべての言語プロジェクトで差し戻した 20 件は機械編集だけで統計的に有意でないため、実際の差し戻し率の比較対照はできず、その代わり差し戻し措置は採点者の推奨に基づいて実行しています。ウィキペディアの言語コミュニティのうち、記事の短い説明を載せているところは2言語版しかありません。つまり説明文のホスト元はウィキデータであるせいで、巡回の頻度はほとんどの言語コミュニティで低くなりがちです。
その報告機能を介して開発側に寄せられた洞察とは?

個別の利用者の 0.5% から機能に関する投稿がありました。以下に提供されたフィードバックの種類を分類します。

フィードバック/反応 % フィードバック占有率
情報が不足 43%
提案が不適切 21%
日付の誤り 14%
説明文が表示されない 7%
"不要なフック" 7%
綴りの間違い 7%
この機能は利用者定着に波及するのか?
定着期間 グループ 0

(調整なし)

グループ 1 と 2
1日間のリターン率: 35.4% 34.9%
3日間のリターン率平均: 29.5% 30.3%
7日間のリターン率平均: 22.6% 24.1%
14日間のリターン率平均: 14.7% 15.8%
  • 注記:機械支援による記事の短い説明を目にした利用者は、その機能に触れていない人と比較すると、再訪率がわずかに高くなりました。
次のステップ:

クラウド・サービスで実行した実験は、持続可能な解決ではありません。この機能には肯定的な指標が十分にあることから、希望するコミュニティに提供できます。アプリ・チームでは財団の機械学習チームと連携してこのモデルを Liftwing に移行する計画で、移行の完了と十分なパフォーマンス試験を終えた段階で再び言語コミュニティの皆さんに呼びかけて、機能を有効にする場所や、モデルにどのような改善を追加できるか決める予定です。現在、検討中の変更に次のものがあります。

  • 存命人物の伝記(以下BLP)の制限:実験では存命人物の伝記に説明を追加する利用者の条件として、編集履歴50回以上で機械支援の補佐を借りることとしました。特定の短い説明文をこれらの記事に提案したまま、ずっと変えない点には懸念があると認識しています。BLPに関して問題の証左は見つからなかったものの、これら記事には提案を表示しない点は妥当と判断しています。
  • 採用はビーム1に制限:提案についてビーム1は一貫してビーム2を上回りました。その結果、ビーム1の推奨1件のみ表示します。
  • 「導入とガイダンス」を変更する:実験中、機械提案の導入画面がありました。この機能を次回リリースするとき、機械提案のガイダンスを追加するよう検討します。コミュニティの皆さんから導入の改善点のフィードバックを募り、記事の短い説明を効果的に記述するには、開発側から利用者にどんなガイダンスを提供すると良いか、いずれお聞きできると助かります。

その他の明らかなエラーにお気付きの場合は、対処できるようにプロジェクトのトーク・ページに投稿をお願いします。例えば間違った日付表示は、明らかなエラーです。アプリの試験中にこのエラーに気づいたのでフィルターを追加し、推薦文には記事の本文に記されていない日付を含めないようにしました。あるいは当初のモデルでは別件にも気付き、曖昧さ回避ページを推奨していた点はクライアント側でフィルターをかけ、曖昧さ回避ページを除外し、この設定は維持する予定です。他にも(訳注:欧文で)最初の1文字を大文字にするなども一般的な修正点として実装の対象であり、その根拠はある程度のレベルで正解に近い解(ヒューリスティック)があるからです。

言語によってはモデルを実装する上でパフォーマンスが十分でなく、最も有効な対処策は記事の短い説明文をさらに追加して、モデルの再トレーニングに使えるデータを増やすことです。ただしモデルの再トレーニングは、現時点では日程や頻度は未定であり、コミュニティから要請があれば、研究チームおよび機械学習チームと協働して優先する道はあります(Research and Machine Learning team)。

July 2023: Early Insights from 32 Days of Data Analysis: Grading Scores and Editing Patterns

We can not complete our data analysis until all entries have been graded so that we have an accurate grading score. However we do have early insights we can share. These insights are based on 32 days of data:

  • 3968 Articles with Machine Edits were exposed to 375 editors.
    • Note: Exposed does not mean selected.
  • 2125 Machine edits were published by 256 editors
  • Editors with 50+ edits completed three times the amount of edits per unique compared to editors with less than 50 edits

May 2023: Experiment Deactivated & Volunteers Evaluate Article Short Descriptions

The experiment has officially been deactivated and we are now in a period of edits being graded.

ボランティアの皆さんが複数の言語版で記事のまとめ文を評価し始めており、人が書いた文と機械が補佐した文を対照しています。

私たちはボランティアの皆さん全員に心から感謝の気持ちを示そうと、プロジェクトページに専用セクションを設けて、努力を称えたいと考えました。お世話になりました。

We are still welcoming support from the following language Wikipedias for grading: Arabic, English, French, German, Italian, Japanese, Russian, Spanish, and Turkish languages.

If you are interested in joining us for this incredible project, please reach out to Amal Ramadan. We look forward to collaborating with passionate individuals like you!

April 2023: FAQ Page and Model Card

We released our experiment in the 25 mBART languages this month and it will run until mid-May. Prior to release we added a model card to our FAQ page to provide transparency into how the model works.

This is the onboarding process:

2023年1月:設計を更新

After determining that the suggestions could be embedded in the existing article short descriptions task the Android team made updates to our design.

If a user reports a suggestion, they will see the same dialog as we proposed in our August 2022 update as the what will be seen if someone clicks Not Sure.

This new design does mean we will allow users to publish their edits, as they would be able to without the machine generated suggestions. However, our team will patrol the edits that are made through this experiment to ensure we do not overwhelm volunteer patrollers. Additionally, new users will not receive suggestions for Biographies of Living Persons.

November 2022: API Development

The Research team put the model on toolforge and tested the performance of the API. Initial insights found that it took 5-10 seconds to generate suggestions, which also varied depending on how many suggestions were being shown. Performance improved as the number of suggestions generated decreased. Ways of addressing this problem was by preloading some suggestions, restricting the number of suggestions shown when integrated into article short descriptions, and altering user flows to ensure suggestions can be generated in the background.

2022年8月:偏見に対処する設計のコンセプトとガードレールの初期案

User story for Discovery

When I am using the Wikipedia Android app, am logged in, and discover a tooltip about a new edit feature, I want to be educated about the task, so I can consider trying it out. Open Question: When should this tooltip be seen in relation to other tooltips?

User story for education

When I want to try out the article short descriptions feature, I want to be educated about the task, so my expectations are set correctly.

User story for adding descriptions

When I use the article short descriptions feature, I want to see articles without a description, I want to be presented with two suitable descriptions and an option to add a description of my own, so I can select or add a description for multiple articles in a row.

偏見や害に対抗するガードレール

偏見や害に対抗するガードレール案を次のように開発しました。

  • 害:文の推奨に問題がある
    • ガードレール:使用禁止の単語を集めたブロックリスト
    • ガードレール:先入観がないか確認 – 例:性差別の言葉 + 職業に関する偏見がないか調べる
  • 害:推奨の質が低い
    • ガードレール:記事内の情報の最小量
    • ガードレール:知識格差とパフォーマンスを対比させて検証
  • 害:特定の種類の記事ばかり推奨すること
    • ガードレール:編集と主題ごとの分布を監視