モデレーターツール/オートモデレーター

グループ:	Moderator Tools
チームのメンバー:	Claudia Lo (design researcher), Jason Sherman (software engineer), Susana Cardenas Molinar (software engineer), Dennis Mburugu (engineering manager), Aishwarya Vardhana (designer), Krishna Chaitanya Velaga (analyst)
リーダー:	Sam Walton (product manager)

This page is a translated version of the page Moderator Tools/Automoderator and the translation is 97% complete.

自動モデレーター

測定計画

テスト

Moderator Tools チームは、ウィキメディアのプロジェクト群向けに「オートモデレータ」(automoderator) という自動化ツール構築のプロジェクトを検討しています。これを使うモデレータ係は不適切な編集の予防・差し戻しにおいて、機械学習のモデルに基づいた作業自動化を設定できるようになります。簡単に言えば、ClueBot NG、SeroBOT、Dexbot、Salebot などの荒らし対策ボットと同じような機能を持つソフトウェアを構築し、これを全言語のコミュニティで利用可能にしようと考えています。 A MediaWiki extension is now under development - Extension:AutoModerator .

着想：明らかな荒らしを自動で防止したり差し戻しができれば、モデレータ（仲裁係）はより有意義なことに時間を使えるのではないか。

私たちは2023年中にこのアイデアを調査し、2024年中に開発作業を始める構想です。

直近の更新(2024年2月): Designs have been posted for the initial version of the landing and configuration pages. Thoughts and suggestions welcome!

更新履歴

2024年2月: 試験過程から初期の結果を公表しました。
2023年10月: 当チームの測定計画に対するご意見フィードバックを募集中で、それに基づいてこのプロジェクトの成功をどのデータで測ればよいか決めようとしており、試験用データを公開してAutomoderator の判断基準に関する皆さんのご意見ご提案の準備を整えました。
2023年8月: 最近ウィキマニアでは、このプロジェクトや、モデレーターに焦点を当てたその他のプロジェクトを紹介しました。ここにセッションの録画があります。

動機

ウィキマニアで登壇（13:50）

ウィキメディアのプロジェクト群には、明確に元に戻す必要がある編集が多数あります。これらの編集は、ページを以前の状態に戻すことで明確に取り消されるべきです。巡回者や管理者は、これらの編集を手動でレビューし、差し戻すために多くの時間を費やさなければなりません。これにより、多くの大規模なウィキで、アクティブなモデレーターの数に比べて対応が必要な作業量が圧倒的であるという感覚が生じています。私たちはこれらの負担を軽減し、モデレーターの時間を他のタスクに割り当てることを目指しています。

Indonesian Wikipedia community call (11:50)

Reddit、Twitch、Discord などの多くのオンラインコミュニティウェブサイトは、「自動モデレーション」機能を提供しており、コミュニティのモデレーターが特定のアルゴリズムに基づいた自動モデレーション操作を設定できます。ウィキペディアでは、AbuseFilter が特定の規則ベースの機能を提供していますが、例えば、モデレーターが罵り言葉のすべての綴りバリエーションに対して正規表現を入力する必要がある場合などは、手間のかかる作業となり、イライラする場合もあります。それはまた、複雑で壊れやすいものであるため、多くのコミュニティが使用を避けています。荒らし対策用のボットを走らせるコミュニティは少なくとも12件存在しますが、管理をコミュニティが担当するので、ローカルの技術力が求められる点、往々にして設定が不透明な点があります。また前述のボット類が基準にする ORES 損害モデルは、かなりの期間にわたってトレーニングせずに進んでおり、また対応言語数も多くありません。

目標

悪質な編集を巡回者のキューに入れないことでモデレートするべきものの量を減らします。
モデレーターに自動モデレートが信頼できる誤反応なしのツールであるという信用を与えます。
誤反応にあった編集者が、エラーを解消して編集を戻す方法を確立します。

他に勘案すべき目標はありますか？

設計の調査

オートモデレータのシステム設計原理を示すPDF形式文書

オートモデレータ・プロジェクトに関する机上調査

オートモデレータの設計研究を徹底的に進め、設定ツール用に強力な基盤を確立取り組みの中心として直感的で使いやすいインタフェースが構成できるように重点となる設計原理を制定。

既存の技術や最善手法を洗い出し、この過程を机上調査と呼びます。コンテンツを自動で調整する分野をめぐって、現在の傾向、潜在的な落とし穴、複数の成功モデルについて貴重な洞察ができました。優先事項としては、人-機械の学習交流に関する倫理的な影響を理解すること、責任あるデザインの実践によりユーザーが確実にポジティブで理解可能な体験をすることに焦点を当てました。デザイン原則を深めて透明性、利用者のエンパワーメント、倫理的配慮を優先していきました。

モデル

このプロジェクトは、ウィキメディア財団リサーチチームによって開発された、新しい差し戻し危険性モデルを活用します。このモデルには2つバージョンがあります：

47言語をサポートした多言語モデル
言語に依存しないモデル

これらのモデルは、全ての版について編集の差し戻しが必要な確率を示すスコアを計算します。私たちは、コミュニティがこのスコアの閾値を設定できるようにし、それを超えた編集は自動で阻止・差し戻しされるという仕組みを思い描いています。

現状でモデルはウィキペディアのみ対応しますが、トレーニングはウィキメディアの他のプロジェクト群でも可能です。さらに、現在はメイン（記事）名前空間のみでトレーニングしています。導入後は、コミュニティから誤検知が報告されるため、継続的にモデルを再トレーニングできます。

このプロジェクトを進める前に、最近の編集に対してモデルをテストする機会を提供する予定です。そこで、荒らしと戦う人にモデルがどれだけ正確か、そして私たちの提案する方法での利用に信頼が置けるかどうか、理解してもらおうと考えています。

これらのモデルに何か懸念がありますか？
あなたやあなたのコミュニティが許容できる誤動作の割合は最大で何パーセントでしょうか？

考えられる解決策

オートモデレータ・ソフトウェアの判断過程を示す図

コミュニティの設定インターフェースの実例的なスケッチ

私たちは、コミュニティのモデレーターが自動の阻止・差し戻しを設定できるようなツールを構想しています。編集の差し戻しの方が実装の可能性が高いです。編集の阻止には、編集の保存時間に影響を及ぼさないような高いパフォーマンスが求められます。前述に加えて、どんな編集を防止したか、実はその措置が望ましくなかったものは何か、特に誤検知（偽陽性）に関するオーバーサイト（見直し）が減ります。ツールを動かすか止めるか設定し、モデルの厳格性の選択、利用したローカル対応のユーザー名と編集要約を吟味したりなど、調整役には決定権が必要です。

サンプルとして編集を巻き戻した時の Automoderator の見た目。

検知の閾値を下げてしまうと差し戻しの編集は増えますが、偽陽性率を高めに設定すると、差し戻す編集件数は減っても信頼性はより高まります。

このプロジェクトの正確な形式はまだ検討段階であり、リスクの閾値に達した編集を除去したり差し戻すという基本の先に、検討中の機能アイデアとして以下にいくつか示しておきます。

テスト

コミュニティが自動モデレータの厳格さを選択できる場合、事前に閾値をテストする方法を提供する必要があります。これは不正利用フィルターの試験機能に似ており、最近の編集をツールを通して確認し、特定の閾値でどの編集が差し戻されるかを知ることができます。

このような試験機能はあなたにとってどの程度重要ですか？特に便利だと思う試験機能はありますか？

コミュニティ単位の設定

このプロジェクトの中核には導入の担当者を対象に、オートモデレータの設定と、所属するコミュニティのニーズに対応したカスタマイズに使うオプションの構成を明示することがあります。特定の閾値に達した編集を全て単純に差し戻す代わりに、可能性の一例として特定の利用者グループを対象外にしたり、あるいは特定のページを除外するフィルタの提供も考えられます。

このソフトウェアを使う前に、どんな設定オプションがあると良いと思いますか？

誤検知報告

機械学習モデルは完璧ではないため、誤検知の数はゼロではないと予想されます。ここで考慮すべきことが最低でも2つあります：利用者が誤って差し戻された編集をマーク・復帰するための工程、そしてコミュニティが時が経つにつれモデルに対してフィードバックを送り再トレーニングするための仕組みの用意。

このモデルは、多くの荒らしが該当する所である、新規・未登録利用者の編集に対して敏感です。このツールが善意の新規利用者の経験に悪い影響を与えてほしくないため、私たちは彼らに編集が差し戻され、そしてそれは復帰できると知らせる明確な経路を用意する必要があります。しかし、荒らしにツールの作動を取り消す容易な経路を提供しないよう、バランスをとる必要があります。

これらのモデルは大量のデータを使ってトレーニングを重ねていますが、編集者から誤検知（偽陽性）の報告を受け取としてモデルの再トレーニングのための有用なデータセットに提供することができます。経験豊富な編集者から誤検知データ（偽陽性）をモデルに送り返す方法、それにより時間の経過とともにモデルの改善を可能にする方法がまだ決まっていません。

誤検知を受けた編集者に、荒らしに悪用されないように明確な情報と対処を提供するにはどうすればいいでしょうか？
誤検知についてどのような懸念がありますか？

設計

Automoderator に関する現状の計画には、次の UI コンポーネント2件（成分）が関与します。

扉のページ。

扉のページには Automoderator に関する情報、ボットの決定に異議を申し立てる方法、ボットを構成するリンクが含まれます。

設定ページ。
設定ページを変更。
設定ページの変更を保存。

The configuration page, which will be generated by Community Configuration . MVP では管理者は Automoderator を有効・無効に切り替え、しきい値を設定し（どのように動作するか）、既定の編集概要と利用者名をカスタマイズします。今後もフィードバックに対応しようと、構成オプションを追加する予定です。ページを保存後、利用者が Automoderator を有効にしてあるとすぐに作動を始めます。

他の未解決の質問

あなたのコミュニティが荒らし対策のボットを使っているならば、そこからどのような経験が得られましたか？それが機能しなくなった場合、どのように感じますか？
あなたのコミュニティはこれを採用すると思いますか？他のワークフロー・ツールとどのように組み合わせますか？
上に書かれていない考慮すべき点はありますか？