Perkakas Moderasi/Moderasi secara otomatis/Uji coba

This page is a translated version of the page Moderator Tools/Automoderator/Testing and the translation is 43% complete.
Outdated translations are marked like this.

Agar peralatan ini semakin andal, maka kami mengumpulkan beberapa suntingan yang dikumpulkan di spreadsheet untuk Anda tentukan apakah layak untuk dibalikkan atau dibiarkan saja.

Diagram demonstrating the Automoderator software decision process.

Akurasi dari peralatan ini berdasarkan gabungan dari skor model pembelajaran mesin dan pengaturan internal. Terlepas model ini akan semakin baik seiring berjalannya waktu, kami juga berusaha untuk meningkatkan akurasi dengan cara masukan dari kontributor. Misalnya, ketika kontributor mengembalikan suntingannya sendiri maka terkadang akan dianggap sebagai vandalisme oleh peralatan ini. Untuk mencegah hal tersebut kembali terulang, kami mengumpulkan beberapa kejadian serupa dan meminta masukan dari kontributor perihal suntingan tersebut.

Sebagai catatan bahwa ini tidak merefleksikan hasil akhir dari peralatan "moderasi secara otomatis" untuk ke depannya. Peralatan ini akan berkembang sesuai dengan masukan dari komunitas.

Cara untuk berpartisipasi

 
Screenshot of the spreadsheet, with example responses filled in.
  • Jika Anda memiliki akun Google:
    1. Use the Google Sheet link below and make a copy of it
      • You can do this by clicking File > Make a Copy ... after opening the link.
    2. Setelah Anda mendapatkan salinan berkas tersebut, silakan klik tombol Bagikan yang ada di bagian atas, lalu berikan akses ke swalton wikimedia.org (pastikan centang pilihan "Beritahu"). Hal ini bertujuan agar kami dapat mengumpulkan masukan dari Anda lebih mudah.
      • Alternatively, you can change 'General access' to 'Anyone with the link' and share a link with us directly or on-wiki.
  • Alternatively, use the .ods file link to download the file to your computer.
    • Setelah Anda memberikan penilaian terhadap suntingan yang ada, silakan kirimkan kembali sheet tersebut ke swalton wikimedia.org. Hal ini bertujuan agar kami dapat mengumpulkan masukan dari Anda lebih mudah.

Jika Anda menggunakan spreadsheet ...

  1. Ikuti instruksi yang ada di sheet untuk memilih suntingan yang ada, lakukan sebanyak 30 kali, dan temukan apa yang akan peralatan ini lakukan terhadap setiap suntingan tersebut.
    • Feel free to explore the full data in the 'Edit data & scores' tab.
    • If you want to review another dataset please make a new copy of the sheet to avoid conflicting data.
  2. Bergabung di halaman pembicaraan.

Atau, Anda dapat melihat bagian 'Edit data & scores' dan melihat data tersebut secara langsung.


Apabila Anda ingin menerjemahkan sheet ini, silakan kirimkan salinan yang berisi terjemahannya ke swalton wikimedia.org.

If you want us to add data from another Wikipedia please let us know and we would be happy to do so.

Tentang moderasi secara otomatis

Model dari peralatan ini ditujukan secara khusus untuk ruang nama utama Wikipedia. Untuk lebih detailnya dapat dilihat di bawah:

Konfigurasi internal

Untuk saat ini, versi terkini dari spreadsheet tidak dapat melihat tindakan sebagai berikut:

  • Suntingan yang dibuat oleh pengurus
  • Edits made by bots
  • Edits which are self-reverts
  • New page creations

Sheet di atas mengandung suntingan yang memenuhi kriteria tersebut, tetapi peralatan ini tidak dapat mengembalikan suntingannya. Hal ini akan kami perbaiki seiring dengan masukan dari kontributor secara berkelanjutan.

Tingkatan kewaspadaan

Dalam uji coba ini, Perkakas Moderasi memiliki lima tingkatan 'kewaspadaan' yang menentukan seberapa besar kemungkinan alat ini akan mengembalikan suatu suntingan.

  • Pada tingkatan tertinggi, peralatan ini akan mengembalikan suntingan dengan yakin. Hal ini berarti sedikit suntingan yang akan dibalikkan, tetapi dengan akurasi tinggi.
  • Pada tingkatan rendah, peralatan ini memilih untuk tidak langsung mengembalikan suatu suntingan. Hal ini berarti banyak suntingan yang akan dibalikkan, tetapi dengan akurasi rendah.

Tingkatan tersebut dalam uji coba kali ini sudah ditentukan oleh Tim Perkakas Moderasi berdasarkan model yang sudah kami observasi sebelumnya. Sebagai gambaran berapa banyak suntingan yang dikembalikan berdasarkan tingkatan, Anda dapat melihatnya pada tabel berikut:

Suntingan harian Pengembalian suntingan harian Rerata pengembalian oleh peralatan
Sangat tinggi

>0,99

Tinggi

>0,985

Sedang

>0,98

Rendah

>0,975

Sangat rendah

>0,97

Wikipedia bahasa Inggris 140.000 14.600 152 350 680 1.077 1.509
Wikipedia bahasa Prancis 23.200 1.400 24 40 66 98 136
Wikipedia bahasa Jerman 23.000 1.670 14 25 43 65 89
Wikipedia bahasa Spanyol 18.500 3.100 57 118 215 327 445
Wikipedia bahasa Rusia 16.500 2.000 34 57 88 128 175
Wikipedia bahasa Jepang 14.500 1.000 27 37 48 61 79
Wikipedia bahasa Tionghoa 13.600 890 9 16 25 37 53
Wikipedia bahasa Italia 13.400 1.600 40 61 99 151 211
Wikipedia bahasa Polandia 5.900 530 10 16 25 35 45
Wikipedia bahasa Portugis 5.700 440 2 7 14 21 30
Wikipedia bahasa Ibrani 5.400 710 16 22 30 38 48
Wikipedia bahasa Persia 5.200 900 13 26 44 67 92
Wikipedia bahasa Korea 4.300 430 12 17 23 30 39
Wikipedia bahasa Indonesia 3.900 340 7 11 18 29 42
Wikipedia bahasa Turki 3.800 510 4 7 12 17 24
Wikipedia bahasa Arab 3.600 670 8 12 18 24 31
Wikipedia bahasa Ceska 2.800 250 5 8 11 15 20
Wikipedia bahasa Rumania 1.300 110 2 2 4 6 9
Wikipedia bahasa Kroasia 500 50 1 2 2 3 4
... ... ... ... ... ... ... ...
All Wikipedia projects 538 984 1.683 2.533 3.483

Data selengkapnya dapat dilihat di sini.

Score an individual edit

 
Importing this user script will give you a 'Get revert risk score' button in your Tools menu.

We have created a simple user script to retrieve a Revert Risk score for an individual edit. Simply import User:JSherman (WMF)/revertrisk.js into your commons.js with mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );.

You should then find a 'Get revert risk score' in the Tools menu in your sidebar. Note that this will only display the model score, and does not take into account Automoderator's internal configurations as detailed above. See the table above for the scores above which we are investigating Automoderator's false positive rate.

Initial results

Quantitative

22 testing spreadsheets were shared back with us, totalling more than 600 reviewed edits from 6 Wikimedia projects. We have aggregated the data to analyse how accurate Automoderator would be at different caution levels:

Not cautious (0.97) Low caution (0.975) Somewhat cautious (0.98) Cautious (0.985) Very cautious (0.99)
75% 82% 93% 95% 100%

In our Moderator Tools/Automoderator/Measurement plan we said that we wanted the most permissive option Automoderator could be set at to have an accuracy of 90%. The ‘Not cautious’ and ‘Low caution’ levels are clearly below this, which isn’t surprising as we didn’t have clear data from which to select these initial thresholds. We will be removing the ‘Not cautious’ threshold, as a 25% error rate is clearly too low for any communities. We will retain ‘Low caution’ for now, and monitor how its accuracy changes as model and Automoderator improvements occur leading up to deployment. We want to err on the side of Automoderator not removing bad edits, so this is a priority for us to continue reviewing.

When we have real world accuracy data from Automoderator's pilot deployment we can investigate this further and consider changing the available thresholds further.

Qualitative

On the testing talk page and elsewhere we also received qualitative thoughts from patrollers.

Overall feedback about Automoderator’s accuracy was positive, with editors feeling comfortable at various thresholds, including some on the lower end of the scale.

Some editors raised concerns about the volume of edits Automoderator would actually revert being relatively low. This is something that we’ll continue to discuss with communities. From our analysis (T341857#9054727) we found that Automoderator would be operating at a somewhat similar capacity to existing anti-vandalism bots developed by volunteers, but we’ll continue to investigate ways to increase Automoderator’s coverage while minimising false positives.

Next steps

Based on the results above, we feel confident in the model’s accuracy and plan to continue our work on Automoderator. We will now start technical work on the software, while exploring designs for the user interface. We expect that the next update we share will contain configuration wireframes for feedback.

In the meantime please feel free to continue testing Automoderator via the process above - more data and insights will continue to have a positive impact on this project.