Moderator Tools/Automoderator/Plan de mesure

This page is a translated version of the page Moderator Tools/Automoderator/Measurement plan and the translation is 100% complete.

Ceci est un résumé du projet actuel du plan de mesure de Automoderator, qui décrit comment nous évaluerons si le projet a réussit à atteindre ses objectifs et comprendre l'impact qu'il a sur les projets Wikimedia.

La page est divisée en trois hypothèses que nous avons sur Automoderator. Chaque hypothèse a deux points de données principaux (les nombres qui nous intéressent le plus) suivis d'un tableau qui détaille nos sujets de recherche actuels et les méthodes d'évaluation ou les métriques utilisées pour les tester. Les sujets de recherche sont alimentés à la fois par nos discussions internes sur le projet et les conversations que nous avons eues avec les contributeurs (comme ici sur MediaWiki).

Ce document n'est pas figé ni finalisé et pourra encore évoluer au fur et à mesure que nous en apprendrons plus. Malheureusement nous ne garantissons pas que cette page restera actuelle après les premières discussions que nous aurons eues à son propos. Il est possible que certaines questions ne trouvent pas de réponse au vu des données disponibles, ou qui pourraient amener d'autres questions par la suite. Nous visons à partager tout changement majeur dans les mises à jour du projet.

Dites nous ce que vous pensez réellement de ce plan sur la page de discussion du projet - est-ce que cela englobe les principaux points de données que nous devrions suivre ? Manque-t-il des choses ou avez-vous des choses à faire ajouter ? Quelles données vous permettrons de dire que ce projet a réussi ?

QN = mesures quantitatives (données)

QL = mesures qualitatives (telles que les sondages, les commentaires non structurés)

Hypothèse n°1

Hypothèse : Automoderator augmentera la couverture des patrouilleurs en réduisant la surcharge générale due aux relectures et aux annulations des modifications récentes, et en leur permettant effectivement de se consacrer à d'autres activités.

Données de premier ordre :

  1. Automoderator a une efficacité moyenne de 90%.
  2. L'activité d'édition d'un modérateur a augmenté de 10% dans les flux de travail hors patrouille (par exemple, les contributions au contenu ou autres processus de modération).
Sujets de recherche et méthodes d'évaluation
Sujets de recherche Méthode d'évaluation ou métrique(s) Notes
Est-ce que Automoderator est efficace vis à vis du vandalisme sur les wikis ?
  • Quelle est l'efficacité de Automoderator pour lutter contre le vandalisme sur les wikis ?
  • Jusqu'à quel point Automoderator minimise-t-il l'exposition du lecteur au contenu vandalisé ?
[QN] Alors que les seuils de succès peuvent changer en fonction de la communauté, l'équipe assimilera à un succès :
  • Automoderator annule X% de l'ensemble du vandalisme actuel
  • Automoderator a une efficacité moyenne de 90% quand il s'agit d'annuler le vandalisme
Nous ne savons pas encore ce qu'est un niveau raisonnable de couverture pour Automoderator, alors nous définirons X au fur et à mesure que nous avancerons dans le projet.

Chaque communauté pourra personnaliser le niveau de précision et de couverture pour sa communauté, de sorte que 90% serait un chiffre de base s'appliquant à l'option la plus permissive disponible.

[QN] Pendant combien de temps les articles vandalisés restent-ils avant d'être annulés et combien de visiteurs les ont vus alors ?
  • Temps moyen pour annuler le vandalisme
  • Les pages vues reçues par des pages vandalisées avant leur annulation
Les données de Pageview ne sont pas actuellement disponibles sur la base d'une révision, mais c'est une chose que nous pouvons commencer à collecter (T346350).
Automodérateur réduit-il la charge de travail des patrouilleurs humains dans la lutte contre le vandalisme ? [QN] Proportion des modifications annulées par Automoderator, par les patrouilleurs humains et par ceux qui utilisent des outils d'assistance, sur une période de 1, 8, 24, et 48 heures après la modification. patrouilleurs humains assistés par des outils représente les patrouilleurs qui utilisent des outils tels que Huggle ou SWViewer.
[QN/QL] Est-ce que le nombre de tâches concernant les différentes modérations de contenu est en diminution ?
  • Nouvelles pages à patrouiller
  • patrouillage des modifications récentes / FlaggedRevisions
  • Autres ?
Nous supposons que les patrouilleurs pourraient passer leur temps supplémentaire sur d'autres sujets.

Nous devrions peut-être commencer par une recherche qualitative ici pour comprendre quelles tâches en attente nous pouvons ou devrions suivre.

Est-ce que Automoderator permet aux patrouilleurs de passer leur temps sur d'autres activités qui les intéressent ?
  • Y a-t-il un changement significatif dans la répartition entre les zones d'activité sur le wiki par les patrouilleurs après l'Automodérateur ?
[QN] Distribution des contributions et des actions (pré et post déploiement) par les patrouilleurs au travers de :

Liste des tentatives de contribution

  • Modifications
    • Espace de noms de cobtenu
      • Contributions au contenu
      • Contributions autres qu'au contenu (catégories, balisage de modèles etc.)
    • Espaces de noms autres que de contenu
      • Activité de la page de discussion (+ pompe du village)
      • Autres modifications
    • % de modifications annulées parmi les contributions d'un éditeur
    • Taille moyenne des diff des modifications (espaces de noms de contenu)
  • Actions journalisées
  • patrouillage des modifications récentes (modifications relues et acceptées + celles annulées; seulement sur certains wikis)
  • Patrouillage de nouvelle page (le cas échéant)

Les patrouilleurs des wikis pilotes seront interrogés pour
  • identifier les domaines de contribution où nous sommes engagés
  • comprendre ce que les patrouilleurs voudraient faire si on réduisait la charge représentée par le contrôle des modifications
    • cela sera utilisé en comparaison des conclusions que nous tirerons des données ultérieurement.
Il existe plusieurs manières d'envisager ce sujet, donc nous devrions donc peut-être parler aux patrouilleurs pour comprendre les activités à considérer.
[QL] Perception des patrouilleurs sur la manière dont ils contribuent au post-deploiement du wiki.

Changements qualitatifs dans les flux de travail par rapport au déploiement pré-automodérateur. En fait, font-ils du travail de non-patrouilleur ou simplement du travail de patrouillage plus spécialisé que l'automodérateur ne peut pas gérer ?

Hypothèse n°2

Hypothèse : Les communautés sont enthousiastes à l'idée d'utiliser et d'adopter Automoderator car elles pensent que cela est efficace pour contrer le vandalisme.

Données de premier ordre :

  1. L'automodérateur sera activé sur deux projets Wikimedia à la fin de l'exercice 23 / 24 (juin 2024).
  2. 5% des patrouilleurs utilisent les outils et des processus Automoderator sur les projets où il est activé.
Sujets de recherche et méthodes d'évaluation
Sujets de recherche Méthode d'évaluation ou métrique(s) Notes
Les communautés sont-elles enthousiastes à l'idée d'utiliser Automoderator ? [QL] Quel est le sentiment particulièrement envers Automoderator et (ou) plus généralement les outils de modération automatique, à la fois parmis les éditeurs qui sont des administrateurs, et ceux qui ne le sont pas.

[QL] Existence de documentation utilisateur pour Automoderator (comme des indications ou des règles d'utilisation)

[QL] Prise en charge de Automoderator par les groupes spécialisés sur les compteurs de vandalisme (particulièrement ceux inter-wikis) - les stewards, les administrateurs système globaux, SWMT

[QN] Activité de traduction concernant les chaînes de caractères (TranslateWiki) et la documentation (MediaWiki).

[QN] Les communautés ont-elles activé Automoderator et l'ont-elles gardé actif ? et pendant combien de temps ?
  • Quel est le pourcentage de temps pendant lequel Automoderator reste activé sur un wiki ?
  • S'il est désactivé, combien de temps faut-il pour qu'il redevienne opérationnel ?
    • Quand il est désactivé, y-a-t-il des discussions (par exemple sur la page de discussion) pour en ajuster le seuil ?
  • Si Automoderator est désactivé, quelle en est la raison ?
    • Nous pourrions ajouter une intervention là où nous demandons pourquoi et attendre la réponse.
Les communautés adoptent-elles activement Automoderator sachant qu'il représente une part importante de leur flux de travail ?   Note : peut changer en fonction de l'architecture ou de la forme finale que prendra Automoderator

[QN] Quelle est la proportion des rapports de faux positifs du journal qui ont été relus et reste encore à relire ?

  Note : peut changer en fonction de l'architecture ou de la forme finale que prendra Automoderator

[QN] Quelle est l'utilisation des outils d'exploration ou de visualisation du modèle ?

  • Nombre d'utilisateurs individuels qui ont accédé à l'outil
  • Temps moyen passé par session
  Note : peut être développé en fonction de l'architecture ou de la forme finale que prendra Automoderator

[QN] A quelle fréquence la configuration de Automoderator est-elle réajustée ?

  • Et par combien d'administrateurs différents ?
Cela ne peut être révélateur que lorsque l'automodérateur est activé et configuré initialement. Après cela, nous ne pouvons pas nous attendre à des niveaux élevés d'activité.
Les communautés sont-elles en mesure de comprendre l'impact de Automoderator sur la santé de leur communauté ? [QL] tests UX de la page de configuration de Automoderator et tableaux d'affichage (selon le cas) Sur nos premiers wikis pilotes, nous aurons peut-être besoin d'avoir simplement une page json ou similaire, avant que Community Configuration soit prête à offrir une meilleure expérience de l'interface utilisateur.

Hypothèse n°3

Hypothèse : Lorsque des modifications de bonne foi sont annulées par Automoderator, les contributeurs concernés peuvent rapporter les faux positifs, et les actions de restauration ne perturbent pas leur parcours, car il est clair que Automoderator est un outil automatique qui ne les juge pas personnellement.

  Note : comme les expériences et les parcours des éditeurs varient considérablement en fonction de leur équipement, les métriques suivantes, là où elles s'appliquent, doivent être réparties selon la plateforme et l'équipement.

Données de premier ordre :

  1. 90% des rapports de faux positifs reçoivent une réponse ou une action d'un autre éditeur.
Sujets de recherche et méthodes d'évaluation
Sujets de recherche Méthode d'évaluation ou métrique(s) Notes
Les rédacteurs de bonne foi sont-ils conscients des annulations effectuées par Automoderator et sont-ils en mesure de signaler quand ils croient que c'est un faux positif ? [QL/QN] Quel est le sentiment des nouveaux utilisateurs de bonne foi quand leurs modifications ont été annulées par Automoderator ?
  • Savent-ils ce qu'est un automodérateur ?
  • Savent-ils que leur modification a été annulée ?
  • Ont-ils connaissance du flux de travail du rapport ?
  • Ont-ils réussi à remplir un rapport ?
Il peut s'agir d'un sondage, d'entrevues ou d'une utilisation de QuickSurveys.
Les utilisateurs qui ont l'intention de soumettre un rapport de faux positif sont-ils en mesure de le soumettre avec succès ? [QN] Quelle est la proportion des utilisateurs qui ont commencé le processus de remplissage du rapport et qui l'ont terminé ?
  • Où déclare-t-on les utilisateurs qui n'ont pas pu terminer le processus ?
  • Quelle est la moyenne pour la fréquence des rapports des faux positifs obtenue auprès des robots anti-vandalisme existants ?
  • Qui fait ces processus de rapport - la personne dont la modification a été annulée, quelqu'un avec les droits patrouilleur, ou une autre personne ?

[QL] flux des rapports des tests UX concernant les faux positifs.

Quel est l'effet de Automoderator sur le parcours de contribution des nouveaux éditeurs ?
  • Est-ce dommageable ou pas ?
[QN] essais A/B : Automoderator choisit aléatoirement une action d'annulation ou pas pour un nouvel utilisateur donné (à détailler ultérieurement). Le groupe de traitement sera composé de nouveaux arrivants sur lesquels Automoderator prend une action d'annulation, et le groupe de contrôle sera composé d'autres nouveaux arrivants sur lesquels Automoderator aurait dû prendre une action d'annulation (sur la base du score du risque d'annulation) mais ne l'a pas fait dans le cadre de l'expérience, mais pour lesquels des mesures ont été prises plus tard par des modérateurs humains.

[QL] Quicksurveys ou un outil similaire de sondage rapide peut être réalisable.

  • Est-ce que les contributeurs dont les modifications sont annulées par Automoderator comprennent ce qu'est le vandalisme ?
  • Sont-il d'accord avec la décision concernant leur modification ?
  • Quel effet cela a-t-il sur leur motivation pour contribuer ?
Conserver et surveiller les nouveaux éditeurs est difficile, mais nous avons beaucoup d'expérience à ce sujet à la Fondation Wikimedia dans l'équipe de croissance. Nous allons les rencontrer pour en savoir plus sur les options que nous avons pour évaluer cette question de recherche.

Garde-fous

En plus de ce plan de mesures qui concerne les objectifs, nous envisageons aussi de définir des métriques garde-fous qui nous permettrons de nous assurer que Automoderator n'a pas d'impact négatif. Par exemple est-ce qu'il existe une poignée de nouveaux contributeurs qui s'arrêtent parce que les annulations de Automoderator deviennent trop frustrantes, ou d'un autre côté, est-ce que les patrouilleurs deviennent trop complaisants en s'en remettant totalement à Automoderator ? Ces barrières n'ont pas encore été documentées, mais nous les partagerons ici quand elles le seront.

Si vous avez des idées sur ce qui semblerait boîteux dans ce projet, et sur les points de données que nous pourrions surveiller pour vérifier les scénarios, veuillez nous le dire.

Métriques de la phase pilote

Bien que le plan de mesure puisse être utile pour comprendre et évaluer l'impact du projet à long terme, nous avons identifié certaines métriques sûres sur lesquelles nous devons nous concentrer pour la phase pilote. Le but de ces tests est de fournir un aperçu de l'activité de l'automodérateur à l'équipe et aussi à la communauté, et de surveiller pour s'assurer que rien n'est anormal. Si vous avez des suggestions pour des métriques supplémentaires que nous devrions suivre pendant la phase pilote, veuillez laisser votre message sur la page de discussion.

Indicateur pour Métrique(s) Dimensions
Volume Nombre de modifications annulées par Automoderator (en valeur absolue et en pourcentage sur toutes les annulations) Utilisateurs anonymes, nouveaux venus[1], autres utilisateurs que les nouveaux[2]
Efficacité (faux positifs) Pourcentage des annulations Automoderator restaurées
Efficacité (faux négatifs) Proportion des annulations non réalisées par Automoderator alors qu'il était actif -
Efficacité Temps moyen pris par Automoderator pour annuler une modification -
- Temps moyen pris pour rétablir les annulations faites par Automoderator -
Garde-fous Après le déploiement, proportion des modifications annulées par l'opérateur Automodérateur, humain et humain assisté par des outils (le cas échéant)

Notes

  1. Utilisateurs ayant fait moins de 50 modifications et dont l'âge du compte est inférieur à 30 jours.
  2. Tous les utilisateurs enregistrés à l'exception des nouveaux venus.