Moderator Tools/Automoderator/Measurement plan/nl

This page is a translated version of the page Moderator Tools/Automoderator/Measurement plan and the translation is 100% complete.

Dit is een samenvatting van het huidige ontwerp van het Automoderator-meetplan, waarin wordt uiteengezet hoe we zullen evalueren of het project succesvol is in het bereiken van zijn doelen, en om te begrijpen welke impact het heeft op Wikimedia-projecten.

De pagina is verdeeld in drie hypothesen die we hebben over Automoderator. Elke hypothese heeft twee top-level datapunten (de belangrijkste getallen die ons interesseren) gevolgd door een tabel met details van onze huidige onderzoeksvragen en de evaluatiemethoden of metingen die we zullen gebruiken om ze te testen. De onderzoeksvragen zijn gebaseerd op zowel onze interne discussies over het project, als op gesprekken die we hebben gehad met redacteuren (bijv. hier op MediaWiki).

Dit document is niet vast of definitief en zal veranderen naarmate we meer weten. Helaas kunnen we niet garanderen dat deze pagina up-to-date blijft na de eerste discussies in de gemeenschap die we erover hebben. We kunnen merken dat sommige vragen niet met de beschikbare gegevens kunnen worden beantwoord, of kunnen nieuwe vragen identificeren die we later zullen hebben. We willen alle belangrijke wijzigingen in de projectupdates met u delen.

We willen echt weten wat u van dit plan vindt op de Project Overleg Pagina - Legt dit de belangrijkste gegevenspunten vast waarvan u denkt dat we ze moeten volgen? Ontbreekt er iets of heeft u ideeën die we kunnen verwerken? Welke gegevens zouden u helpen beslissen of dit project succesvol was?

QN = Kwantitatieve maatstaf (data)

QL = Kwalitatieve meting (bijv. enquêtes, ongestructureerde feedback)

Hypothese #1

Hypothese: Automoderator zal het bereik van patrouilles vergroten door hun algehele werklast bij het beoordelen en terugdraaien van recente wijzigingen te verminderen, en hen effectief in staat te stellen meer tijd aan andere activiteiten te besteden.

Topniveau gegevens:

  1. Automoderator heeft een basisnauwkeurigheid van 90%.
  2. De bewerkingsactiviteit van de moderator neemt met 10% toe in werkstromen die niet in het kader van de patrouille worden uitgevoerd (bijv. contentcontributies of andere moderatieprocessen).
Onderzoeksvragen en evaluatiemethoden
Onderzoeksvragen Evaluatiemethode/metriek Opmerkingen
Is Automoderator effectief bij het bestrijden van vandalisme op wiki's?
  • Wat is de efficiëntie van Automoderator bij het bestrijden van vandalisme op wiki's?
  • In welke mate vermindert Automoderator de blootstelling van de lezer aan verminkte inhoud?
[QN] Hoewel de drempels voor succes kunnen variëren op basis van de gemeenschap, beschouwt het team het volgende als successen:
  • Automoderator draait X% van al het werkelijke vandalisme terug
  • Automoderator heeft een basisnauwkeurigheid van 90% bij het terugdraaien van vandalisme
We weten nog niet wat een redelijk niveau van dekking is voor Automoderator, dus we zullen X definiëren naarmate we doorgaan met het project. Elke gemeenschap zal de nauwkeurigheid en het dekkingsniveau voor haar gemeenschap kunnen aanpassen, zodat 90% een basiscijfer is die van toepassing is op de meest toelaatbare optie die beschikbaar is.
[QN] Hoe lang blijft vandalisme in artikelen staan voordat het wordt teruggedraaid, en hoeveel lezers zien dat vandalisme.
  • Gemiddelde tijd voor het terugdraaien van vandalisme
  • Pageviews van door vandalisme getroffen pagina's voor het terugdraaien
Pageview-gegevens zijn nu niet beschikbaar per versie van een pagina, maar dit is iets wat we kunnen beginnen te verzamelen (T346350).
Vermindert Automoderator de werklast van menselijke patrouilleurs bij het bestrijden van vandalisme? [QN] Percentage bewerkingen dat is teruggedraaid door Automoderator, menselijke patrouilles en door gereedschap ondersteunde menselijke patrouilles gedurende de tijdsperioden van 1 uur, 8 uur, 24 uur en 48 uur, nadat een bewerking heeft plaatsgevonden. "Patrouilleurs met hulpmiddelen": patrouilleurs die hulpmiddelen als Huggle en SWViewer gebruiken.
[QN/QL] Neemt het volume van verschillende achterstanden bij het modereren van inhoud af?
  • Nieuwe pagina's om te patrouilleren
  • RC patrouille / FlaggedRevises
  • Nog meer?
We denken dat patrollers hun extra tijd op andere plaatsen kunnen doorbrengen. Het is mogelijk dat we hier met een aantal kwalitatieve onderzoeken moeten beginnen om te begrijpen welke achterstandsbepalingen we kunnen/moeten volgen.
Helpt Automoderator patrollers hun tijd te besteden aan andere activiteiten die hen interesseren?
  • Is er een significante verschuiving in de verdeling tussen de activiteiten op wiki door patrollers na de Automoderator?
[QN] Verdeling van bijdragen/acties (voor en na de inzet) door patrollers over:

Voorlopige lijst van bijdragen

  • Bewerkingen
    • Content namespace
      • Content bijdragen
      • Niet content bijdragen (categorieën, taggen van sjablonen, enz.)
    • Niet content namespaces
      • Overlegpagina activiteit (+ Kroeg)
      • Andere bewerkingen
    • % bewerkingen die worden teruggedraaid tussen de bijdragen van een editor
    • Gemiddeld verschil in de 'grootte' van bewerkingen (content namespaces)
  • Logacties
  • RC patrouille (zowel positieve beoordelingen als terugdraaiingen; alleen op sommige wiki's)
  • Nieuwe pagina patrouille (indien van toepassing)

Aan de patrollers van de pilot wiki's zal worden gevraagd om
  • Identificeer de gebieden waar zij nu aan bijdragen werken
  • Begrijpen wat de patrollers zouden willen doen als de totale belasting van de recente wijzigingen controleren verminderd is
    • Dit wordt gebruikt voor vergelijking met de inzichten die we later uit gegevens krijgen.
Er zijn een breed scala aan mogelijke manieren om dit te bekijken, dus we moeten misschien met patrollers praten om te begrijpen welke activiteiten we moeten overwegen.
[QL] Perceptie van patrollers in hoe ze bijdragen aan de wiki na de implementatie.

Kwalitatieve veranderingen in workflows in vergelijking met pre-Automoderator-implementatie. Zoals in - doen ze eigenlijk niet-patrouillewerk of gewoon meer gespecialiseerd patrouillewerk dat Automoderator niet aankan?

Hypothese #2

Hypothese: Gemeenschappen zijn enthousiast om Automoderator te gebruiken en ermee in contact te komen omdat ze erop vertrouwen dat het effectief is in het tegengaan van vandalisme.

Topniveau gegevens:

  1. Automoderator is ingeschakeld op twee Wikimedia-projecten tegen het einde van het boekjaar 23/24 (juni 2024).
  2. 5% van de patrollers maakt gebruik van Automoderator-hulpmiddelen en -processen bij projecten waar dat mogelijk is.
Onderzoeksvragen en evaluatiemethoden
Onderzoeksvragen Evaluatiemethode/metriek Opmerkingen
Zijn de gemeenschappen enthousiast om Automoderator te gebruiken? [QL] Sentiment ten opzichte van Automoderator specifiek en/of geautomatiseerde moderatiehulpmiddelen in het algemeen, zowel onder beheerders als niet-beheerders.

[QL] Aanwezigheid van aangepaste documentatie voor Automoderator (bijv. richtlijnen of richtlijnen voor gebruik)

[QL] Acceptatie van Automoderator door gespecialiseerde anti-vandalisme groepen (vooral crosswiki groepen) - stewards, global sysops, SWMT

[QN] Tekst (TranslateWiki) en documentatie (MediaWiki) vertaalactiviteit.

[QN] Schakelen gemeenschappen Automoderator in en houden ze het ingeschakeld? Zo ja, hoe lang?
  • Wat is het percentage van de tijd dat de Automoderator is ingeschakeld op een wiki?
  • Als het is uitgeschakeld, hoe lang duurt het dan voordat het wordt ingeschakeld?
    • Is er een wijziging in de discussieactiviteit (bijvoorbeeld de overlegpagina) om de drempel aan te passen tijdens de uitschakelperiode?
  • Als Automoderator is uitgeschakeld, waarom?
    • We zouden een interventie kunnen toevoegen waarin we vragen waarom en snel om een reactie vragen.
Zijn de gemeenschappen actief betrokken bij Automoderator omdat ze geloven dat het een belangrijk onderdeel van hun werkstromen is? Opmerking: kan veranderen op basis van het eindontwerp/vorm

[QN] Welk deel van de fout-positieve rapportlogboeken wordt beoordeeld en moet nog worden beoordeeld?

Opmerking: kan veranderen op basis van het uiteindelijke ontwerp/vorm

[QN] Wat is het gebruik van modelverkennings-/visualisatiehulpmiddelen?

  • Aantal unieke gebruikers die toegang hebben tot het hulpmiddel
  • Gemiddeld bestede tijd per sessie
Opmerking: kan worden uitgebreid op basis van het eindontwerp/vorm

[QN] Hoe vaak wordt de configuratie van Automoderator aangepast?

  • En door hoeveel verschillende beheerders?
Dit kan alleen relevant zijn wanneer Automoderator aanvankelijk is ingeschakeld en geconfigureerd. Na dit moment kunnen we niet meer veel activiteit verwachten.
Kunnen gemeenschappen de impact van Automoderator op de gezondheid van hun gemeenschap begrijpen? [QL] UX-testen van Automoderator-configuratiepagina en dashboards (indien relevant) Op onze eerste pilot wiki's moeten we misschien gewoon een json of een soortgelijke pagina hebben, voordat Community Configuration klaar is om een betere front-end-ervaring te bieden.

Hypothese #3

Hypothese: Wanneer bewerkingen te goeder trouw worden teruggedraaid door Automoderator, kunnen de bewerkers in kwestie valse positieven rapporteren, en de terugdraaiacties zijn niet schadelijk voor de beleving van de bewerkers, omdat het duidelijk is dat Automoderator een geautomatiseerd hulpmiddel is die geen oordeel velt over hen individueel.

Opmerking: Aangezien de ervaringen van de redacteuren sterk variëren op basis van het apparaat, moeten de volgende metingen, indien relevant, worden verdeeld per platform en apparaat.

Topniveau gegevens:

  1. 90% van de valse positieve rapporten krijgt een reactie of actie van een andere redacteur.
Onderzoeksvragen en evaluatiemethoden
Onderzoeksvragen Evaluatiemethode/metriek Opmerkingen
Zijn redacteuren van goede trouw op de hoogte van de omdraaiingen van Automoderator en in staat te melden als ze geloven dat het een vals positief is? [QL/QN] Wat is de perceptie van nieuwkomers te goeder trouw wanneer hun bewerking is teruggedraaid door Automoderator?
  • Weten ze wat Automoderator is?
  • Weten ze dat hun bewerking is teruggedraaid?
  • Zijn zij op de hoogte van het proces van het rapporteren?
  • Zijn ze er in geslaagd een rapport in te dienen?
Dit kan een enquête, interviews of gebruik QuickSurveys zijn.
Kunnen gebruikers die van plan zijn een fout-positieve melding in te dienen, er een indienen? [QN] Welk deel van de gebruikers die zijn begonnen met het indienen van het rapport, heeft het voltooid?
  • Waar vindt het afhaken van gebruikers plaats voor gebruikers die het proces niet hebben voltooid?
  • Wat is een "basislijn" voor de frequentie van fout-positieve meldingen op basis van bestaande anti-vandalisme bots?
  • Wie dient deze meldingsprocessen in - de persoon wiens bewerking ongedaan is gemaakt, iemand met patrouillerechten of iemand anders?

[QL] UX-testen van de vals-positieve rapportagestroom.

Wat is het effect van Automoderator op het bijdragen door nieuwe redacteuren?
  • Is het schadelijk of niet?
[QN] A/B-experiment: Automoderator zal willekeurig kiezen tussen het wel of niet uitvoeren van een terugdraaiactie op een bewerking van een nieuwkomer (details moeten nog worden gedefinieerd). De testgroep zal bestaan uit nieuwkomers op wie Automoderator een terugdraaiactie uitvoert, en de controlegroep zal bestaan uit nieuwkomers op wie Automoderator een terugdraaiactie had moeten ondernemen (op basis van de revert risicoscore) maar dat niet heeft gedaan, als onderdeel van het experiment, maar waar later actie op werd ondernomen door menselijke moderators.

[QL] Quicksurveys of een vergelijkbare korte enquête hulpmiddel kan haalbaar zijn.

  • Begrijpen bewerkers van wie de bewerkingen door Automoderator worden teruggedraaid wat vandalisme is?
  • Zijn ze het eens met de beoordeling van hun bewerking?
  • Welke impact heeft dit op hun bewerkingsmotivatie?
Het behouden en enquêteren van nieuwe bewerkers is moeilijk, maar we hebben hier veel ervaring mee bij de Wikimedia Foundation in het Growth-team. We gaan met hen om tafel om meer te weten te komen over de mogelijkheden die we hebben om deze onderzoeksvraag te evalueren.

Vangnetten

Naast dit doelgerichte meetplan zijn we ook van plan om 'vangnetten' te definiëren - metingen die we zullen controleren om ervoor te zorgen dat we negatieve effecten van Automoderator vermijden. Blijven er bijvoorbeeld minder nieuwe bewerkers hangen omdat het terugdraaien van Automoderators frustrerend is, of worden patrouilles te zelfgenoegzaam omdat ze "te veel" vertrouwen stellen in Automoderator? Deze vangnetten zijn nog niet gedocumenteerd, maar we delen die documentatie dan hier.

Als u ideeën heeft over wat er mis kan gaan met dit project en over gegevenspunten die we zouden kunnen monitoren om deze scenario's te verifiëren, laat het ons dan weten.

Metingen pilotfase

Hoewel het meetplan nuttig kan zijn om de impact van het project op de lange termijn te begrijpen en te evalueren, hebben we enkele maatstaven geïdentificeerd waarop we ons moeten concentreren voor de pilotfase. Het doel hiervan is om een overzicht te geven van de activiteit van Automoderator aan het team en ook aan de community, en om ervoor te zorgen dat er niets abnormaals is. Als u suggesties heeft voor andere metingen die we zouden moeten volgen tijdens de pilotfase, laat dan een bericht achter op de overlegpagina.

Indicator voor Meting(en) Dimensies
Volume Aantal bewerkingen die ongedaan zijn gemaakt door Automoderator (absoluut & percentage van alle ongedaan makingen) Anonieme gebruikers, nieuwkomers[1], niet nieuwkomers[2]
Nauwkeurigheid (fout-positieven) Percentage van het ongedaan maken van het ongedaan maken door Automoderator
Nauwkeurigheid (fout-negatieven) Verhouding van het ongedaan maken die niet door de Automoderator zijn gedaan (terwijl het ingeschakeld was) -
Efficiëntie Gemiddelde tijd voor Automoderator om een bewerking ongedaan te maken -
- Gemiddelde tijd voor het ongedaan maken van bewerkingen die Automoderator ongedaan heeft gemaakt -
Guardrail Na implementatie, percentage bewerkingen dat door de uitvoerder ongedaan is gemaakt Automoderator, mensen en met hulpmiddel geholpen mens (indien van toepassing)

Notes

  1. Gebruikers hebben minder dan 50 bewerkingen gedaan hebben en het account is minder dan 30 dagen oud.
  2. Alle geregistreerde gebruikers, behalve nieuwkomers.