Perkakas Moderasi/Moderasi secara otomatis/Uji coba
Agar peralatan ini semakin andal, maka kami mengumpulkan beberapa suntingan yang dikumpulkan di spreadsheet untuk Anda tentukan apakah layak untuk dibalikkan atau dibiarkan saja.
Akurasi dari peralatan ini berdasarkan gabungan dari skor model pembelajaran mesin dan pengaturan internal. Terlepas model ini akan semakin baik seiring berjalannya waktu, kami juga berusaha untuk meningkatkan akurasi dengan cara masukan dari kontributor. Misalnya, ketika kontributor mengembalikan suntingannya sendiri maka terkadang akan dianggap sebagai vandalisme oleh peralatan ini. Untuk mencegah hal tersebut kembali terulang, kami mengumpulkan beberapa kejadian serupa dan meminta masukan dari kontributor perihal suntingan tersebut.
Sebagai catatan bahwa ini tidak merefleksikan hasil akhir dari peralatan "moderasi secara otomatis" untuk ke depannya. Peralatan ini akan berkembang sesuai dengan masukan dari komunitas.
Cara untuk berpartisipasi
- Jika Anda memiliki akun Google:
- Use the Google Sheet link below and make a copy of it
- You can do this by clicking File > Make a Copy ... after opening the link.
- Setelah Anda mendapatkan salinan berkas tersebut, silakan klik tombol Bagikan yang ada di bagian atas, lalu berikan akses ke swalton wikimedia.org (pastikan centang pilihan "Beritahu"). Hal ini bertujuan agar kami dapat mengumpulkan masukan dari Anda lebih mudah.
- Alternatively, you can change 'General access' to 'Anyone with the link' and share a link with us directly or on-wiki.
- Use the Google Sheet link below and make a copy of it
- Alternatively, use the .ods file link to download the file to your computer.
- Setelah Anda memberikan penilaian terhadap suntingan yang ada, silakan kirimkan kembali sheet tersebut ke swalton wikimedia.org. Hal ini bertujuan agar kami dapat mengumpulkan masukan dari Anda lebih mudah.
Jika Anda menggunakan spreadsheet ...
- Ikuti instruksi yang ada di sheet untuk memilih suntingan yang ada, lakukan sebanyak 30 kali, dan temukan apa yang akan peralatan ini lakukan terhadap setiap suntingan tersebut.
- Feel free to explore the full data in the 'Edit data & scores' tab.
- If you want to review another dataset please make a new copy of the sheet to avoid conflicting data.
- Bergabung di halaman pembicaraan.
Atau, Anda dapat melihat bagian 'Edit data & scores' dan melihat data tersebut secara langsung.
Apabila Anda ingin menerjemahkan sheet ini, silakan kirimkan salinan yang berisi terjemahannya ke swalton wikimedia.org.
If you want us to add data from another Wikipedia please let us know and we would be happy to do so.
Tentang moderasi secara otomatis
Model dari peralatan ini ditujukan secara khusus untuk ruang nama utama Wikipedia. Untuk lebih detailnya dapat dilihat di bawah:
Konfigurasi internal
Untuk saat ini, versi terkini dari spreadsheet tidak dapat melihat tindakan sebagai berikut:
- Suntingan yang dibuat oleh pengurus
- Edits made by bots
- Edits which are self-reverts
- New page creations
Sheet di atas mengandung suntingan yang memenuhi kriteria tersebut, tetapi peralatan ini tidak dapat mengembalikan suntingannya. Hal ini akan kami perbaiki seiring dengan masukan dari kontributor secara berkelanjutan.
Tingkatan kewaspadaan
Dalam uji coba ini, Perkakas Moderasi memiliki lima tingkatan 'kewaspadaan' yang menentukan seberapa besar kemungkinan alat ini akan mengembalikan suatu suntingan.
- Pada tingkatan tertinggi, peralatan ini akan mengembalikan suntingan dengan yakin. Hal ini berarti sedikit suntingan yang akan dibalikkan, tetapi dengan akurasi tinggi.
- Pada tingkatan rendah, peralatan ini memilih untuk tidak langsung mengembalikan suatu suntingan. Hal ini berarti banyak suntingan yang akan dibalikkan, tetapi dengan akurasi rendah.
Tingkatan tersebut dalam uji coba kali ini sudah ditentukan oleh Tim Perkakas Moderasi berdasarkan model yang sudah kami observasi sebelumnya. Sebagai gambaran berapa banyak suntingan yang dikembalikan berdasarkan tingkatan, Anda dapat melihatnya pada tabel berikut:
Suntingan harian | Pengembalian suntingan harian | Rerata pengembalian oleh peralatan | |||||
---|---|---|---|---|---|---|---|
Sangat tinggi
>0,99 |
Tinggi
>0,985 |
Sedang
>0,98 |
Rendah
>0,975 |
Sangat rendah
>0,97 | |||
Wikipedia bahasa Inggris | 140.000 | 14.600 | 152 | 350 | 680 | 1.077 | 1.509 |
Wikipedia bahasa Prancis | 23.200 | 1.400 | 24 | 40 | 66 | 98 | 136 |
Wikipedia bahasa Jerman | 23.000 | 1.670 | 14 | 25 | 43 | 65 | 89 |
Wikipedia bahasa Spanyol | 18.500 | 3.100 | 57 | 118 | 215 | 327 | 445 |
Wikipedia bahasa Rusia | 16.500 | 2.000 | 34 | 57 | 88 | 128 | 175 |
Wikipedia bahasa Jepang | 14.500 | 1.000 | 27 | 37 | 48 | 61 | 79 |
Wikipedia bahasa Tionghoa | 13.600 | 890 | 9 | 16 | 25 | 37 | 53 |
Wikipedia bahasa Italia | 13.400 | 1.600 | 40 | 61 | 99 | 151 | 211 |
Wikipedia bahasa Polandia | 5.900 | 530 | 10 | 16 | 25 | 35 | 45 |
Wikipedia bahasa Portugis | 5.700 | 440 | 2 | 7 | 14 | 21 | 30 |
Wikipedia bahasa Ibrani | 5.400 | 710 | 16 | 22 | 30 | 38 | 48 |
Wikipedia bahasa Persia | 5.200 | 900 | 13 | 26 | 44 | 67 | 92 |
Wikipedia bahasa Korea | 4.300 | 430 | 12 | 17 | 23 | 30 | 39 |
Wikipedia bahasa Indonesia | 3.900 | 340 | 7 | 11 | 18 | 29 | 42 |
Wikipedia bahasa Turki | 3.800 | 510 | 4 | 7 | 12 | 17 | 24 |
Wikipedia bahasa Arab | 3.600 | 670 | 8 | 12 | 18 | 24 | 31 |
Wikipedia bahasa Ceska | 2.800 | 250 | 5 | 8 | 11 | 15 | 20 |
Wikipedia bahasa Rumania | 1.300 | 110 | 2 | 2 | 4 | 6 | 9 |
Wikipedia bahasa Kroasia | 500 | 50 | 1 | 2 | 2 | 3 | 4 |
... | ... | ... | ... | ... | ... | ... | ... |
All Wikipedia projects | 538 | 984 | 1.683 | 2.533 | 3.483 |
Data selengkapnya dapat dilihat di sini.
Score an individual edit
We have created a simple user script to retrieve a Revert Risk score for an individual edit.
Simply import User:JSherman (WMF)/revertrisk.js into your commons.js with mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );
.
You should then find a 'Get revert risk score' in the Tools menu in your sidebar. Note that this will only display the model score, and does not take into account Automoderator's internal configurations as detailed above. See the table above for the scores above which we are investigating Automoderator's false positive rate.
Initial results
Quantitative
22 testing spreadsheets were shared back with us, totalling more than 600 reviewed edits from 6 Wikimedia projects. We have aggregated the data to analyse how accurate Automoderator would be at different caution levels:
Not cautious (0.97) | Low caution (0.975) | Somewhat cautious (0.98) | Cautious (0.985) | Very cautious (0.99) |
---|---|---|---|---|
75% | 82% | 93% | 95% | 100% |
In our Moderator Tools/Automoderator/Measurement plan we said that we wanted the most permissive option Automoderator could be set at to have an accuracy of 90%. The ‘Not cautious’ and ‘Low caution’ levels are clearly below this, which isn’t surprising as we didn’t have clear data from which to select these initial thresholds. We will be removing the ‘Not cautious’ threshold, as a 25% error rate is clearly too low for any communities. We will retain ‘Low caution’ for now, and monitor how its accuracy changes as model and Automoderator improvements occur leading up to deployment. We want to err on the side of Automoderator not removing bad edits, so this is a priority for us to continue reviewing.
When we have real world accuracy data from Automoderator's pilot deployment we can investigate this further and consider changing the available thresholds further.
Qualitative
On the testing talk page and elsewhere we also received qualitative thoughts from patrollers.
Overall feedback about Automoderator’s accuracy was positive, with editors feeling comfortable at various thresholds, including some on the lower end of the scale.
Some editors raised concerns about the volume of edits Automoderator would actually revert being relatively low. This is something that we’ll continue to discuss with communities. From our analysis (T341857#9054727) we found that Automoderator would be operating at a somewhat similar capacity to existing anti-vandalism bots developed by volunteers, but we’ll continue to investigate ways to increase Automoderator’s coverage while minimising false positives.
Next steps
Based on the results above, we feel confident in the model’s accuracy and plan to continue our work on Automoderator. We will now start technical work on the software, while exploring designs for the user interface. We expect that the next update we share will contain configuration wireframes for feedback.
In the meantime please feel free to continue testing Automoderator via the process above - more data and insights will continue to have a positive impact on this project.