Help:New filters for edit review/編集の質と意図の絞込み
![]() |
注意: このページを編集すると、編集内容が CC0 のもとで公開されることに同意したと見なされます。詳細はパブリック・ドメインのヘルプ ページを参照してください。 | ![]() |
編集の査読改善 (ERI: Edit Review Improvements) |
---|
機能 |
説明文書 |
技術的事項 |
新しい編集査読の絞り込みに増えた「貢献の品質」と「利用者の意図」の2種類のフィルターは、既存のものと機能が異なります。 これらのグループのフィルターは、それぞれ編集に問題が含まれる可能性や、編集者が善意で行動しているかどうかについての確率的な予測を提供します。
さらに、2024年に有効化される言語に依存しない差し戻しリスク モデルは、編集がリバート (差し戻し) される可能性についての予測を提供します。
これらの独自のツールがどのように機能するかを少し知っておくと、より効果的に利用できるようになります。
これらのフィルタは一部のウィキでのみ有効です。
基本は機械学習
品質と意図予測フィルターを演算するORESは機械学習プログラムで、人間がこれまでに判定した編集の膨大な蓄積に基づいて訓練されました。機械学習という処理能力の高い技術は、人間の代理で機械が特定の判断を再現します。
品質と意図フィルターは「破壊的」と「善意」を判定する ORES モデルに対応するウィキ限定で利用できます。ORES「破壊」モデルは編集の品質、「善意」モデルは同じく意図が対象です。
ORES を有効にするには、該当するウィキにおける編集をボランティアが判定しなければなりません。そのプロセスとユーザーのウィキで取り組む方法を別のページで説明しています。
言語に依存しない差し戻しリスクモデルは、すべての言語版ウィキペディアに対応し、ボランティアによる手動の訓練は不要です。
ツールの選び方
「品質」、「意図」、「差し戻しリスク」のフィルターを見ると、それらが他のフィルターとは異なる点に気付くかもしれません。他のグループのフィルターとは異なり、さまざまなオプションが異なる編集の特性を対象としているわけではありません。代わりに、それらの多くは同じ特性を対象としていますが、異なる精度レベルを提供しています。
精度が低いとわかっているツールを使いたいと思う理由なんてあるでしょうか? 実は精度にはそれなりのコストが伴います。
予測の正解率を上げるには (〈精度〉優先)
メニューのフィルターが「正確」であればあるほど、正しい予測が誤った予測を上回り、そのせいで偽陽性が減ります。(パターン認識の用語では、これらのフィルタは「 精度」が高くなります。)この精度はより狭く、より厳しくして達成します。検索するとき、フィルタ類はより確率の高い基準を設定します。その欠点は、目標値よりも少ない割合を返すことです。
- 例:問題がある可能性が高い フィルタは、品質フィルタで最も高精度です。パフォーマンスはウィキごとに差がありますが、英語版ウィキペディアの場合は正しい予測は90%超に達します。トレードオフがあり、特定のセットにこのフィルターをかけても、問題編集全件のうち約10%しか検出できない点で—その理由は、検出が難しい問題をスルーしてしまうからです。このフィルターが問題を検出すると、しばしば明らかな破壊行為が含まれています。
ターゲットの数を増やすには (〈ヒット率〉優先)
ターゲットをなるべく幅広く、できれば全件を検出したいのなら、精度は下がるが対象の間口が広いフィルタを選んでください。確率の閾値を低めにして、探す対象をより多く検出します。ここではトレードオフとして、返してくる偽陽性が多めになります(技術用語では、これらフィルタはクエリが実際に見つける比率として定義される「リコール」の確率が高めです。)
- Example: The 問題があるかもしれない filter is the broadest Quality filter. Performance varies on different wikis, but on English Wikipedia it catches about 82% of problem edits. On the downside, this filter is right only about 15% of the time.
- 15% ではあまり役に立たないと感じるなら、問題のある編集の発生率は現実に100件に5件未満 —つまり5%なのです。となると、その3倍の15%はまぐれ当たりの域を大きく上回ります。それはもちろんのこと、巡回者の皆さんはサンプリングをまぐれでは実施しません。さまざまなツールや手がかりをどう使うとヒット率を上げられるか、熟練しています。問題があるかもしれないはとそういうテクニックと組み合わせると、優位性が大きくなります。
(上記で述べたように、ORES はウィキが変わればパフォーマンスが異なり、直前に論じたトレードオフの影響を他と比べて受けにくいウィキもあります。たとえばウィキペディアのポーランド語版だと、問題がある可能性 フィルタは問題のある編集を 91% 検出しますが、同じものが英語版では 34% 止まりです。そのせいでポーランド語版ウィキペディアには、より広範な 問題があるかもしれない は無用 —というよりも— 存在しません。)
精度もヒット率も求めるには (強調表示)
The filtering system is designed to let users get around the tradeoffs described above. You can do this by filtering broadly while Highlighting the information that matters most.
To use this strategy, it’s helpful to understand that the more accurate filters, like 問題がある可能性が高い, return results that are a subset of the less accurate filters, such as 問題があるかもしれない. In other words, all “Very likely” results are also included in the broader 問題があるかもしれない. (The diagram above illustrates this concept.)
- 例: 悪意の拾い出しを最大にして、最悪/深刻度大を強調表示:
- フィルターを起動して初期設定から、
- 問題があるかもしれない をチェックして品質の幅を最大に。
- このとき—フィルターボックスをチェックしないまま— 問題がある可能性 を押して黄色に指定し、問題がある可能性が高い は赤に指定。
- 品質の幅を最大に設定したため、拾い出す悪意の編集は多くなります (「ヒット率」優先)。しかし、視覚的に黄色、赤、オレンジ (= 赤と黄色を混ぜた色) を視覚的にスキャンすることで、いちばん深刻な問題が見つかりやすく、先に取りかかれるはずです。 (ヘルプは「フィルターを使わず強調表示する」を参照。)
良い編集の探し方 (編集者を褒めよう)
善意の行いは自然と目に入ってきますよね! 良い編集を探すのも簡単なのです。
The 善意である可能性が高い filter and the 良好である可能性が高い (Quality) filter give you new ways to find and encourage users who are working to improve the wikis. For example, you might use the 良好である可能性が高い filter in combination with the 新規利用者 filter to thank new users for their good work.
- サンプル: 初学者の善意に感謝を伝える
- ゴミ箱アイコンを押して検索条件をクリア。ページの編集と人間(ボットではない)にチェックを入れる。
- 良好である可能性が高いにチェックを入れ、品質を優先。
- 新規利用者と初学者にチェック、ユーザーの登録と経験を絞り込み (これで登録利用者の編集に限定)。
- 新規利用者の横のマーカーアイコンを押してグリーンを選択。
- 結果は新規利用者 (登録後4日未満で編集実績10件未満) と初学者 (活動歴30日未満、編集実績500件未満) に絞り込まれました。後者のみグリーンで示されて見分けがつきます。
良質で満ちている!
上記の「良質さ」フィルタは正確でかつ幅広く、つまり前の見出しで説明したトレードオフの対象ではありません(「精度」と「リコール率」の高さ“precision” と “recall” を兼ね備えるから)。これらフィルタの正確さは約99%の確率で、探す対象の90%以上が見つかります。どうやれば、そんなこと、どうすれば実現できるの?
安心できる答えとして、良質は悪質よりも一般的だから、「良質な」フィルタならとてもよく機能します。つまり良質で善意による編集とは、それらの対極のものよりもずっとはるかに豊富であり — したがって見つけやすいのです。こう聞いて驚く人もいるかもしれませんが、例えば英語版ウィキペディアでは、問題があるのは編集20件に1件で、意図的な破壊行為とはそれら問題のある編集のおよそ半数止まりです。[1]
フィルターの一覧
品質と意図(インテント)の両フィルタを導入したウィキでは予測の品質が向上し(Quality and Intent Filters)、一部のフィルタが欠落している可能性があります。ウィキにおける ORES のパフォーマンスが優れているほど、必要なフィルタ・レベルは減ります。
投稿品質の推定
- 良好である可能性が高い
- 高い精度で、ほとんどすべての問題のない編集を見つけます。
- 問題があるかもしれない
- 不備または害がある編集のほとんどを見つけますが、精度は低くなります。
- 問題がある可能性
- 高精度で、ほとんどの問題のある編集を見つけます。
- 中程度の精度で、問題のある編集の中程度の分量を見つけます。
- 問題がある可能性が高い
- 非常に高い精度で、明らかな欠陥や害がある編集を見つけます。
利用者の意図の推定
- 善意である可能性が高い
- 高い精度で、ほとんどすべての善意による編集を見つけます。
- 悪意であるかもしれない
- ほとんどの悪意のある編集を見つけますが、精度は低くなります。
- 悪意である可能性
- 中程度の精度で、悪意のある編集の中程度の分量を見つけます。
差し戻しのリスク
言語に依存しないリスク回復モデルを適用します(Language-agnostic revert risk)。
注記
- ↑ これらの数字は、英語版ウィキペディアにおいて ORES モデルを「有害な」と「善意による」に関して訓練した研究に基づいています。つまり無作為に抽出したテスト編集の大規模セットをボランティアが採点した場合に、その人たちが見つけるものという意味です。