Wikimedia Apps/Team/Android/Machine Assisted Article Descriptions/Updates/cs
Novinky
Další změny
- Pro všechny experimenty jsme využili stejný strojově učený jazykový model (bez dalšího retrénování). Změny jsme dělali pouze v interakci uživatelů s modelem.
- Na základě offline hodnocení (leden až duben 2023) jsme pro piloting (květen až červen 2023) zavedli několik změn ve způsobu, jakým uživatelé s modelem interagují. Jednalo se zejména o to, jaké výstupy mohli vidět (jen ty s vyšší důvěrou) a úpravu toho, kdo mohl návrhy vidět, pokud se jednalo o biografii žijící či nežijící osoby.
- Na základě pilotní fáze byla provedena jedna poslední úprava pro navrhované popisy, které obsahovaly rok – zobrazovali jsme ho jen v případě, kdy rok odpovídal období popisovaném článku, snažili jsme se tak zabránit halucinacím. Tato změna je nyní součásí nasazeného modelu LiftWing (viz odkaz výše), který nyní vidí uživatelé Androidu.
- V tuto chvíli neplánujeme žádné další změny, kromě snahy o redukci latence modelu, aby uživatelé Androidu viděli návrhy rychleji. Pokud se k nám dostane zpěná vazba zahrnující chyby které budeme moci opravit, pokusíme se o to.
Srpen 2024
- Na základě výsledků experimentu z ledna jsme se začali ozývat různým wiki ohledně implementace funkce.
Červenec 2024: Zpřístupnění API přes Liftwing
Děkujeme za trpělivost při spolupráci na migraci modelu na Liftwing s týmem Machine Learning. V srpnu vyčistíme kód na straně klienta, odstraníme testovací podmínky a přidáme vylepšení uvedená v aktualizaci z ledna 2024. V následujících měsících oslovíme různé jazykové komunity, abychom jim tuto funkci v aplikaci zpřístupnili.
Pokud jste vývojář a chcete vytvořit udělátko pomocí rozhraní API, můžete si přečíst dokumentaci zde.
Leden 2024: Výsledky experimentu
Jazyky zahrnuté v hodnocení
- arabština
- čeština
- němčina
- angličtina
- španělština
- francouzština
- gudžarátština
- hindština
- italština
- japonština
- ruština
- turečtina
Další jazyky monitorované členy týmu, které neměly komunitní hodnotitele:
- finština
- kazaština
- korejština
- barmština
- nizozemština
- rumunština
- vietnamština
Byl rozdíl mezi strojově přijatými a lidmi vytvořenými průměrnými a mediánovými známkami:
Zhodnocené úpravy | Průměrná známka | Mediánové hodnocení |
Strojově přijaté editace | 4.1 | 5 |
Úpravy vytvořené člověkem | 4.2 | 5 |
- Poznámka: 5 bylo maximální hodnocení
Jak si modul vedl v porovnání mezi jazyky?
Jazyk | Strojově přijaté
Průměrná známka |
Člověkem vytvořené
Editace průměrné hodnocení |
Strojový průměr
Vyšší hodnocení? |
Doporučení, jestli má být funkce zavedena |
ar* | 2.8 | 2.1 | TRUE | Ne |
cs | 4.5 | N/A | Ano | |
de | 3.9 | 4.1 | FALSE | Požadavek 50+ editací |
en | 4.0 | 4.5 | FALSE | Požadavek 50+ editací |
es | 4.5 | 4.1 | TRUE | Ano |
fr | 4.0 | 4.1 | FALSE | Požadavek 50+ editací |
gu* | 1.0 | N/A | Ne | |
hi | 3.8 | N/A | Požadavek 50+ editací | |
it | 4.2 | 4.4 | FALSE | Požadavek 50+ editací |
ja | 4.0 | 4.5 | FALSE | Požadavek 50+ editací |
ru | 4.7 | 4.3 | TRUE | Ano |
tr | 3.8 | 3.4 | TRUE | Ano |
Další jazykové komunity | N/A | N/A | N/A | Možnost zavedení na žádost |
- Poznámka: Funkci nezavedeme bez prvotní konzultace s komunitou.
* Označuje jazykové komunity, kde nebylo mnoho návrhů na hodnocení, které by podle nás měly dopad na skóre
Jak často byly strojově navržené editace přijaty, modifikovány nebo zamítnuty?
Typ editace | % z celkových navržených editací |
Navržená editace přijata | 23.49% |
Navržená editace modifikována | 14.49% |
Navržená editace zamítnuta | 62.02% |
- Poznámka: Odmítnutí znamená, že naržená editace nebyla vybrána i přes její dostupnost. Navržené editace byly skryté v nabídce nadepsané "Strojově navržené editace". Uživatelé, co si nezobrazili navržené editace vůbec, nebyli započítani mezi ty, co editaci odmítli. Odmítnutí znamená, že uživatel namísto využití strojového návrhu popisek napsal sám.
Jaká byla distribuce strojově navržených krátkých popisků se skóre 3 nebo vyšší?
Skóre | Procentní distribuce |
< 3 | 10.0% |
>= 3 | 90.0% |
Jak se měnilo skóre přijatých strojově vytvořených popisů v závislosti na zkušenosti editora?
Zkušenost editora | Průměr | Medián |
Pod 50 editací | 3.6 | 4 |
Nad 50 editací | 4.4 | 5 |
Výzkum proběhl pro lepší přesnost ve dvou verzích. Aby se předešlo ovlivnění, umístění navržené editace se vždy změnilo. Výsledky jsou:
Zvolená verze | Průměrná zkušenost editora | % distribuce |
1 | 4.2 | 64.7% |
2 | 4.0 | 35.3% |
- Poznámka: Při spuštění této funkce bude zobrazena pouze verze 1.
Jak často jsou strojově generované příspěvky editovány?
Typ editace | Distribuce modifikace |
Strojově vytvořená editace neupravena | 61.85% |
Strojově vytvořená editace upravena | 38.15% |
Jak editace návrhu upravilo jeho přesnost?
Skóre strojově generovaných editací | Průměrné skóre |
Needitováno | 4.2 |
Editováno | 4.1 |
- Poznámka: Vzhledem k tomu, že edtiace návrhu neměla vliv na jeho přesnost, není nutné aby je přispěvatelé editovali. Chceme ale i tak udržet rozhraní, které editaci návrhu umožňuje.
Jak často hodnotitel uvedl, že by editaci zeditoval nebo revertoval na základě toho, jestli byla strojově navržena, nebo vytvořena člověkem?
Hodnocené editace: | % editací by revertoval | % editací by přepsal |
Návrhy schválené editory | 2.3% | 25.0% |
Editor viděl navrženou editaci, ale napsal místo ní svou vlastní | 5.7% | 38.4% |
Editor nebyl navržené editaci vystaven | 15.0% | 25.8% |
- Poznámka: Revert jsme definovali tak, že patroláři by nedávalo smysl editaci upravovat. Přepsání jsme definovali jako situaci, kdy patrolář vylepší zveřejněnou editaci. V průběhu experimentu bylo ve všech projektech vráceno pouze 20 strojových úprav, což nebylo statisticky významné, takže jsme nemohli porovnat skutečné revertování, ale vycházeli jsme z doporučení hodnotitelů. Pouze dvě jazykové komunity mají své krátké popisy článků živě na Wikipedii, což znamená, že patrolování je u většiny jazykových komunit méně časté díky tomu, že popisy jsou umístěny na Wikidatech.
Co jsme zjistili pomocí funkce reportování?
0,5 % unikátních uživatelů nahlásilo nějakou chybu. Zde jsou výsledky:
Feedback | % distribuce |
Neodstatek informací | 43% |
Nevhodný návrh | 21% |
Nevhodná data | 14% |
Nevidím návrhy | 7% |
"Zbytečný háček" | 7% |
Špatný pravopis | 7% |
Má tato funkce vliv na retenci?
Retenční perioda | Skupina 0
(Bez zásahu) |
Skupina 1 a 2 |
1denní průměrná návratnost: | 35.4% | 34.9% |
3denní průměrná návratnost: | 29.5% | 30.3% |
7denní průměrná návratnost: | 22.6% | 24.1% |
14denní průměrná návratnost: | 14.7% | 15.8% |
- Poznámka: Uživatelé, kteří byli vystaveni strojově asistovaným krátkým popisům článků, měli nepatrně vyšší míru návratnosti ve srovnání s uživateli, kteří této funkci vystaveni nebyli.
Další kroky:
Experiment byl spuštěn na cloudových službách, což není udržitelné řešení. Existuje dostatek pozitivních ukazatelů pro zpřístupnění této funkce komunitám, které si ji přejí. Tým aplikací bude ve spolupráci s naším oddělením strojového učení pracovat na migraci modelu do systému Liftwing, po migraci a dostatečném otestování jeho výkonnosti znovu oslovíme naše jazykové komunity, abychom určili, kde funkci povolit a jaká další vylepšení lze v modelu provést. Úpravy, které jsou v současné době v popředí zájmu, zahrnují:
- Omezit biografie žijících osob (BLP): Během experimentu jsme umožnili uživatelům s více než 50 úpravami přidávat popisy do biografií žijících osob s pomocí strojové asistence. Uznáváme, že existují obavy z trvalého navrhování krátkých popisů článků u těchto článků. Přestože jsme nezaznamenali důkazy o problémech týkajících se Biografií žijících osob, jsme rádi, že se návrhy na BLP nezobrazují.
- Používejte pouze paprsek 1: Paprsek 1 trvale překonával paprsek 2, pokud jde o návrhy. V důsledku toho budeme zobrazovat pouze jedno doporučení, a to ze svazku 1.
- Úprava vstupních a orientačních pokynů: Během experimentu jsme měli obrazovku onboardingu o strojových návrzích. Při opětovném spuštění funkce bychom přidali zpět pokyny týkající se strojových návrhů. Bylo by užitečné vyslechnout si zpětnou vazbu od komunity ohledně toho, jaké pokyny by chtěli, abychom uživatelům poskytli ohledně psaní efektivních krátkých popisů článků, abychom mohli zlepšit onboarding.
Pokud se vyskytnou jiné zjevné chyby, zanechte prosím zprávu na naší diskusní stránce projektu, abychom se jimi mohli zabývat. Příkladem zjevné chyby je zobrazování nesprávných dat. Této chyby jsme si všimli během testování aplikace a přidali jsme filtr, který zabraňuje popisům doporučení, které obsahují data, jež nejsou sama uvedena v textu článku. Také jsme si všimli, že disambiguační stránky byly doporučovány podle původního modelu, a odfiltrovali jsme disambiguační stránky na straně klienta, což je změna, kterou plánujeme zachovat. Další věci, jako je psaní velkých písmen na začátku, by také byly obecnou opravou, kterou bychom mohli provést, protože existuje jasná heuristika, kterou bychom mohli použít k její implementaci.
U jazyků, kde model nefunguje dostatečně dobře, aby mohl být nasazen, je nejužitečnější přidat více krátkých popisů článků v daném jazyce, aby měl model při přeškolování k dispozici více dat. V tuto chvíli však není stanoveno datum ani frekvence, kdy bude model přeškolován, ale můžeme spolupracovat s týmem pro výzkum a strojové učení, aby to mělo prioritu, jakmile o to komunity požádají.
Červenec 2023: První poznatky z 32denní analýzy dat: Známkování a vzorce úprav
Analýzu dat nemůžeme dokončit, dokud nebudou všechny příspěvky oznámkovány, abychom měli přesné skóre známkování. Máme však první poznatky, o které se můžeme podělit. Tyto poznatky vycházejí z 32 dnů dat:
- 3968 článků se strojovými úpravami bylo vystaveno 375 editorům.
- Poznámka: Vystavené neznamená vybrané.
- 2125 strojových úprav bylo zveřejněno 256 editory
- Editoři s více než 50 editacemi provedli třikrát více editací na jeden unikát ve srovnání s editory s méně než 50 editacemi.
Květen 2023: Experiment deaktivován a dobrovolníci vyhodnocují krátké popisy článků
Experiment byl oficiálně deaktivován a nyní se nacházíme v období, kdy jsou úpravy hodnoceny.
Dobrovolníci v několika jazykových Wiki začali hodnotit krátké popisy článků vytvořené lidmi i strojově.
Všem dobrovolníkům vyjadřujeme upřímnou vděčnost a uznání a na stránku projektu jsme přidali oddělenou sekci na počest jejich úsilí. Děkujeme vám za vaši podporu!
Stále vítáme podporu následujících jazykových wikipedií pro třídění: V současné době jsou k dispozici Wikipedie v angličtině, arabštině, francouzštině, italštině, němčině, japonštině, ruštině, španělštině a turečtině.
Pokud máte zájem se k nám připojit v rámci tohoto úžasného projektu, obraťte se na Amal Ramadan. Těšíme se na spolupráci s nadšenými jedinci, jako jste vy!
Duben 2023: Často kladené dotazy a vzorová stránka
Tento měsíc jsme zveřejnili náš experiment v 25 jazycích mBART, který bude probíhat do poloviny května. Před vydáním jsme přidali kartu modelu do naší FAQ stránky, abychom poskytli přehled o tom, jak model funguje.
-
Suggested edits home
-
Suggested edits feed
-
Suggested edits onboarding
-
Active text field
-
Dialog Box
-
What happens after tapping suggestions
-
Manual text addition
-
The preview
-
Tapping the report flag
-
Confirmation
-
Gender bias support text
This is the onboarding process:
-
Article Descriptions Onboarding
-
Keep it short
-
Machine Suggestions
-
Tooltip
January 2023: Updated Designs
After determining that the suggestions could be embedded in the existing article short descriptions task the Android team made updates to our design.
-
Tooltip to as onboarding of feature
-
Once the tooltip is dismissed the keyboard becomes active
-
Dialog appears with suggestions when users tap "show suggested descriptions"
-
Tapping a suggestion populates text field and publish button becomes active
If a user reports a suggestion, they will see the same dialog as we proposed in our August 2022 update as the what will be seen if someone clicks Not Sure.
This new design does mean we will allow users to publish their edits, as they would be able to without the machine generated suggestions. However, our team will patrol the edits that are made through this experiment to ensure we do not overwhelm volunteer patrollers. Additionally, new users will not receive suggestions for Biographies of Living Persons.
November 2022: API Development
The Research team put the model on toolforge and tested the performance of the API. Initial insights found that it took 5-10 seconds to generate suggestions, which also varied depending on how many suggestions were being shown. Performance improved as the number of suggestions generated decreased. Ways of addressing this problem was by preloading some suggestions, restricting the number of suggestions shown when integrated into article short descriptions, and altering user flows to ensure suggestions can be generated in the background.
August 2022: Initial Design Concepts and Guardrails for Bias
User story for Discovery
When I am using the Wikipedia Android app, am logged in, and discover a tooltip about a new edit feature, I want to be educated about the task, so I can consider trying it out. Open Question: When should this tooltip be seen in relation to other tooltips?
User story for education
When I want to try out the article short descriptions feature, I want to be educated about the task, so my expectations are set correctly.
User story for adding descriptions
When I use the article short descriptions feature, I want to see articles without a description, I want to be presented with two suitable descriptions and an option to add a description of my own, so I can select or add a description for multiple articles in a row.
-
Concept for selecting a suggested article description
-
Design concept for a user deciding the description should be an alternative to what is listed
-
Design concept for a user editing a suggestion before hitting publish
-
Design concept for what users see when pressing other
-
Screen displaying options for if a user says they are not sure what the correct article description should be
Guardrails for bias and harm
The team generated possible guardrails for bias and harm:
- Harm: problematic text recommendations
- Guardrail: blocklist of words never to use
- Guardrail: check for stereotypes – e.g., gendered language + occupations
- Harm: poor quality of recommendations
- Guardrail: minimum amount of information in article
- Guardrail: verify performance by knowledge gap
- Harm: recommendations only for some types of articles
- Guardrail: monitor edit distribution by topic