Moderator Tools/Automoderator/Tests

This page is a translated version of the page Moderator Tools/Automoderator/Testing and the translation is 100% complete.

Pour aider les communautés à tester et à évaluer l'exactitude de Automoderator , nous mettons à disposition une feuille de calcul de test avec les données des modifications passées indiquant si Automoderator les aurait annulées ou pas.

Diagramme décrivant le processus de décision logiciel de Automoderator.

Les décisions de l'automodérateur résultent d'un mélange entre le score du modèle d'apprentissage automatique et les paramètres internes. Bien que le modèle s'améliore avec le temps grâce au réapprentissage, nous cherchons aussi à améliorer sa précision en définissant quelques règles internes supplémentaires. Par exemple, nous avons observé que Automoderator identifiait parfois mal les utilisateurs qui annulaient leurs propres modifications comme étant du vandalisme. Pour améliorer, nous cherchons des exemples similaires et apprécions votre aide pour identifier ces cas.

Notez que ce test ne reflète pas nécessairement la forme finale de Automoderator - nous utiliserons les résultats de ce test pour l'améliorer !

Comment tester Automoderator

 
Feuille de calcul avec exemple rempli de réponses.
  • Si vous avez un compte Google :
    1. Utilisez le lien Google Sheet ci-dessous et copiez-le
      • Vous pouvez faire cela en cliquant sur Fichier > Faire une copie ... après avoir ouvert le lien.
    2. Une fois votre copie chargée, cliquez sur Partager dans le coin supérieur, puis donnez un accès à avardhana wikimedia.org (laissez Notifier coché), afin que nous puissions agréger vos réponses et recueillir les données sur la justesse de l'automodérateur.
      • Vous pouvez aussi modifier 'General access' en 'Anyone with the link' et partager un lien avec nous ou sur le wiki.
  • Alternativement, utilisez le lien .ods pour télécharger le fichier sur votre ordinateur.
    • Après avoir ajouté vos décisions, veuillez nous renvoyer la feuille à avardhana wikimedia.org, afin que nous puissions regrouper vos réponses et collecter les données sur la justesse de Automoderator.

Une fois la feuille de calcul accédée...

  1. Suivez les instructions de la feuille pour sélectionner un ensemble de données aléatoire, relisez 30 modifications, puis découvrez quelles décisions Automoderator aurait prises pour chaque modification.
    • N'hésitez pas à explorer les données complètes dans l'onglet "Modifier les données et les scores".
    • Si vous souhaitez revoir un autre ensemble de données, veuillez faire une nouvelle copie de la fiche pour éviter les données conflictuelles.
  2. Rejoindre la discussion sur la page de discussion.

Alternativement, vous pouvez simplement vous plonger dans les onglets des projets individuels et commencer à analyser directement les données.


Nous souhaitons la bienvenue aux traductions de cette feuille - si vous souhaitez soumettre une traduction, veuillez en faire une copie, traduire les chaînes de l'onglet String translation et les renvoyer à swalton wikimedia.org.

Si vous voulez que nous ajoutions les données d'une autre Wikipedia, faites-le nous savoir et nous serons heureux de le faire.

A propos de Automoderator

Le modèle de l'automodérateur est formé exclusivement avec les pages de l'espace de noms Main: de Wikipédia, limitant son ensemble de données aux modifications apportées aux articles de Wikipédia. Vous trouverez plus de détails ci-dessous.

Configuration interne

Dans la version actuelle de la feuille de calcul, en plus du score du modèle, Automoderator ne prend pas d'action sur :

  • les modifications effectuées par les administrateurs
  • les modifications réalisées par des robots
  • les modifications qui sont des auto-annulations
  • les créations de nouvelles pages

Les ensembles de données contiennent des modifications répondant à ces critères, mais Automoderator ne devrait jamais dire qu'il les annulera. Ce comportement et la liste ci-dessus seront mis à jour au fur et à mesure que les tests progresseront si nous ajoutons de nouvelles exclusions ou configurations.

Niveaux de prudence

Dans ce test, l'automodérateur dispose de cinq niveaux de prudence définissant le seuil de probabilité d'annulation au-dessus desquels l'automoderateur va annuler une modification.

  • Au niveau haut, Automoderator devra être très sûr pour annuler une modification. Cela signifie qu'il annulera en général moins de modifications mais avec une plus grande précision.
  • Au niveau bas, Automoderator sera moins strict avec son niveau de prudence. Il annulera davantage de modifications, mais avec moins de précision.

Les niveaux de prudence dans ce test ont été fixés par l'équipe Moderator Tools en fonction de nos observations de la précision et de la couverture des modèles. Pour illustrer le nombre d'annulations attendues à différents niveaux de prudence, voir ci-dessous :

Modifications quotidiennes Annulations quotidiennes des modifications Moyenne quotidienne des annulations par Automoderator
Très prudent

>0,99

Prudent

>0,985

Assez prudent

>0,98

Prudence faible

>0,975

Pas prudent

>0,97

Wikipédia en anglais 140 000 14 600 152 350 680 1 077 1 509
Wikipédia en français 23 200 1 400 24 40 66 98 136
Wikipédia en allemand 23 000 1 670 14 25 43 65 89
Wikipédia en espagnol 18 500 3 100 57 118 215 327 445
Wikipédia en russe 16 500 2 000 34 57 88 128 175
Wikipédia en japonais 14 500 1 000 27 37 48 61 79
Wikipédia en chinois 13 600 890 9 16 25 37 53
Wikipédia en italien 13 400 1 600 40 61 99 151 211
Wikipédia en polonais 5 900 530 10 16 25 35 45
Wikipédia en portugais 5 700 440 2 7 14 21 30
Wikipédia en hébreu 5 400 710 16 22 30 38 48
Wikipédia en persan 5 200 900 13 26 44 67 92
Wikipédia en coréen 4 300 430 12 17 23 30 39
Wikipédia en indonésien 3 900 340 7 11 18 29 42
Wikipédia en turc 3 800 510 4 7 12 17 24
Wikipédia en arabe 3 600 670 8 12 18 24 31
Wikipédia en tchèque 2 800 250 5 8 11 15 20
Wikipédia en roumain 1 300 110 2 2 4 6 9
Wikipédia en croate 500 50 1 2 2 3 4
... ... ... ... ... ... ... ...
Tous les projets Wikipedia 538 984 1 683 2 533 3 483

Ces données peuvent être consultées pour d'autres projets Wikimedia.

Score d'une modification individuelle

 
L'importation de ce script utilisateur vous donnera un bouton Get revert risk score pour obtenir le score du risque d'annulation dans votre menu outils.

Nous avons créé un script utilisateur simple pour récupérer un score de risque d'annulation pour une modification individuelle. Importer simplement User:JSherman (WMF)/revertrisk.js dans votre commons.js avec mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );.

Vous devriez alors trouver une entrée Get revert risk score dans le menu Outils de votre barre latérale. Notez que cela n'affichera que le score du modèle et ne tient pas compte des configurations internes de l'automodérateur telles qu'elles sont détaillées ci-dessus. Voir le tableau ci-dessus pour les scores au-dessus desquels nous étudions le taux de faux positifs de Automoderator.

Résultats initiaux

Résultats quantitatifs

22 feuilles de calcul de test nous ont été partagées, totalisant plus de 600 modifications révisées sur 6 projets Wikimedia. Nous avons agrégé les données pour analyser la précision de l'automodérateur à différents niveaux de prudence :

Pas prudent (0.97) Prudence faible (0.975) Assez prudent (0.98) Prudent (0.985) Très prudent (0.99)
75% 82% 93% 95% 100%

Dans Moderator Tools/Automoderator/Plan de mesure nous avons dit que nous voulions que l'option la plus permissive avec laquelle Automoderator peut être initialisé afin d'avoir une précision de 90%. Les niveaux non prudent et de faible prudence sont nettement inférieurs à cela, ce qui n'est pas surprenant car nous n'avions pas de données claires à partir desquelles choisir ces seuils initiaux. Nous supprimerons le seuil Pas prudent car un taux d'erreur de 25% est clairement trop bas pour les communautés. Nous conserverons pour l'instant Prudence faible et surveillerons comment sa précision évolue au fil des améliorations du modèle et de l'automodérateur conduisanr au déploiement. Nous voulons nous tromper du côté de l'automodérateur qui ne supprime pas les mauvaises modifications, donc c'est une priorité pour nous de continuer à examiner.

Lorsque nous aurons les données de précision avec le monde réel à partir du déploiement pilote de l'Automoderator, nous pourrons enquêter davantage sur cela et envisager de modifier davantage les seuils disponibles.

Résultats qualitatifs

Sur la page de discussion et d'ailleurs nous avons aussi reçu des idées qualitatives de la part des patrouilleurs.

Les commentaires généraux sur la précision de l'automodérateur furent positifs, les éditeurs se sentant à l'aise à divers seuils, y compris certains à l'extrémité inférieure de l'échelle.

Certains éditeurs ont exprimé des inquiétudes quant au volume relativement faible des modifications que Automoderator pourrait réellement annuler. C'est un sujet dont nous continuerons à discuter avec les communautés. À partir de notre analyse (T341857#9054727), nous avons constaté que Automoderator fonctionnerait à une capacité quelque peu similaire à celle des robots anti-vandalisme existants développés par les bénévoles, mais nous continuerons à rechercher des moyens d'augmenter la couverture de Automoderator tout en minimisant les faux positifs.

Prochaines étapes

Sur la base des résultats ci-dessus, nous avons confiance dans la précision du modèle et nous prévoyons de poursuivre notre travail sur Automoderator. Nous allons maintenant commencer le travail technique sur le logiciel et envisager les architectures de l'interface utilisateur. Nous espérons que lors de la prochaine mise à jour que nous partagerons, nous aurons les trames de la configuration pour vos commentaires.

En attendant, n'hésitez pas à continuer à tester Automoderator via le processus ci-dessus - plus il y aura de données et de connaissances, plus l'impact sera positif sur ce projet.