Hjelp:Innhalds#omsetting/#Omsetting/#Omsettingkvalitet
![]() |
Merk: Når du endrar denne sida godtek du at bidraget ditt vert utgjeve som CC0. Sjå hjelpesidene for bidrag som er i det fri for meir informasjon. | ![]() |
När du skaper ei #omsetting er det viktig å undersøkja innhaldet innan du publiserer det. Du må sjå til at innhaldet som blir produsert ikkje avvik frå den opphavlege tydinga og kontrollera at det høyrest naturleg på språket som det blir omsett til. Den startande #maskinomsetting som tillhandahålls hjelper til å påskynda #omsettingprosessen med eit #nyttbar utgangspunkt, men verktøyet oppmuntrar brukar til å undersøkja og redigera det opphavlege innhaldet betydeleg.
Ulike mekanismar garanterer at omsetjar redigerer dei første #omsetting på passe måte.
- Omsettingredigererein sporar korleis veldig han opphavlege #omsetting blir endra av brukaren og definerer ulike grenser for å #enten førebyggja #forlagsvirksomhet eller åtvara brukar for å oppmuntra dei at vidare undersøkja innhaldet.
Det dette måten gjer muleg verktøyet for brukar til å ta vera på ein initial #maskinomsetting, samtidig som han førebyggjer at lågkvalitativa resultat blir skapt. Fleire detaljar blir presentert nedan om korleis desse begränsningar fungerer, korleis dei kan bli justert for behova hos kvart språk og korleis ein måler kvalitén på innhaldet som blir produsert med verktøyet.
Begrensningar for å oppmuntra gransking av #omsetting
Innhalds#omsetting måler prosentinnhaldet endringar som brukar gjer av han opphavlege automatiske #omsetting. På så måte veit systemet kor mange ord som har vorte lagt til, vorte teke bort eller vorte endra frå den opphavlege #omsetting. Målingar blir gjort på to ulike ulike nivå: for kvar paragraf og for heile #omsetting. Ulike Begrensningar blir brukt på kvart nivå, som detaljert #nedenfor.
Begrensningar for heile #omsetting
Publikasjon blir blokkert dersom 1% eller meir av heile dokumentet består av umodifisert, maskinvertalt innhold. Denne grensa forhindrar maskinversjon og klar vandalisme. Det hindrar òg brukarane i å berre legge til innhald utan å redigera maskinoversettinga. Som tidlegare har vorte nemnt kan denne begrensning bli justert for kvart språk.
Begrensningar for kvar paragraf
Prosentinnhaldet brukarforandringar blir målt òg for kvar paragraf. Ein paragraf blir rekna som problematisk når han inneheld meir enn 85% av den startande #maskinomsetting (eller, om det inneheld meir enn 60% av uendra innhald når ein kopierer innhaldet frå kjeldedokumentet).
Forsettelsesredigøren viser ein advarsel for kvar paragraf som blir sett på som problematisk, og oppfordrer brukaren til å redigera vidare. I nokre tilfelle er brukarane i stand til å publisera, men den resulterande sida kan bli lagt til ein sporingskategorie av potensielt uvurdelege oversettingar for samfunnet å gjennomgå. I andre tilfelle kan brukarane ikkje få lov til å publisera noko.
Her følgjer nokre av dei faktorar som övervägs for å bestemma om brukar kan publisera eller ikkje (visse bli utvikla framleis)
- Talet på problematiske paragrafar. Brukar hindra frå å publisera #omsetting med 50 eller fleire problematiske paragrafar. Det er tillatt å publisera omsetningar med mindre enn 50 problemfelle, men omsetningar som har 10 til 49 problemfelle blir lagt til ein sporingsklasse av potensielt uvurdelege omsetningar for samfunnet å gjennomgå.
- Tidlegare sletta #omsetting. For å førebyggja returnerande problem identifiserer verktøyet brukar som publisert #omsetting som har vorte sletta dei seinaste 30. dagane, og bruker strengare begränsningar på deira etterfølgjeånd #omsetting. For brukarar i denne klassen blir oversettingar med 10 problematiske paragrafar eller meir hindra i å publisera, medan dei med 9 eller mindre problematiske paragraf blir tilsatt til ein sporingsklasse av potensielt uovergådda oversettingar for samfunnet å gjennomgå.
- User confirmation. A less strict threshold is considered for paragraphs that a user marks as resolved—taken as a signal that the user reviewed and confirmed the status of the translation.
For paragraphs where the unmodified content warning is shown, but the user marks it as resolved, a less strict threshold is applied (accepting 95% of Machine translation or 75% of source content). Dette vil gje ein måte å ta til høve tilfelle der den automatiske oversetninga var særleg god, men likevel unngå potensiell misbruk av funksjonen (det vil seia ikkje blindt etter ein brukerens bekrefting).
Contents not affected by the limits
Some content is not expected to be edited significantly, and thus is not considered when applying the limits described above. Dei svært korte avsnittetittel, sitasjonar eller lista over referanser er ekskluderte frå gjennomgåva. Otherwise, users could receive misleading warnings about translating content that should not be, such as book titles appearing in references or other proper nouns.
Limits on the mobile experience
For den mobile opplevelsen følgjer det første settet av grensene ein einklere tilnærming. For tida vert berre den totale prosentandelen av ikkje-modifiserte maskinoversettingar for heile oversettinga sett i betraktning. On mobile, the whole translation consist of just one section of the article.
Ein varsel blir særleg vist når prosentandelen av ikkje-modifiserte maskinoversettingar er over 85% for heile sektionen, og publisering blir forhindra når prosentandelsen av ikkje-modfiserte maskinversettingar er over 95%.
Feedback om korleis grensesystemet fungerer på mobilen kontekst ville vore svært nyttig for å avgjere korleis denne første tilnærminga kan utviklas.
Publication of fast unreviewed translations
Campaigns and contests can result in spikes of translations where some user unfamiliar with the community policies may focus on making many translations and not pay enough attention to review their contents. In order to emphasize quality over quantity, a mechanism has been defined to limit the publication of fast unreviewed translations.
After a user translates a large article, the next translation can only be started after some time has passed. The waiting period estimation considers 1 minute per paragraph up to 10 minutes. That is:
- For articles with 10 paragraphs or less, we want to make sure that users spent at least N minutes (one minute per paragraph) translating it.
- For articles with more than 10 paragraphs we want to make sure that users spent at least 10 minutes translating it.
This has been applied on mobile initially since it is a space with less activity, and after measuring the impact we'll consider expanding it to desktop too.
Adjusting the limits
Dei grensene som er skildra ovan, gir ei rekkje generelle mekanismer, men dei kan trenge å justeres avhengig av dei spesielle behovene til kvar wiki. På grunnlag av den første evaluasjonen kan mengden endringar som trengs for maskinoversettinga variere frå 10% til 70%, avhengig av språket. On some wikis, the default limits may be too strict, generating unnecessary noise or preventing perfectly valid translations from being published. På andre wikiar er grensene kanskje ikkje strenge nok, og det tillater publisering av omsetningar som ikkje er redigerte nok.
Ved å justera dei ulike tærsklene kan kvar wiki laga grensene til verktøyet etter sine spesielle behov. Feedback frå morsmålspråkarar er viktig for å laga grensene på rett måte. If the current limits don't seem to work well based on your experience in creating or reviewing translations, please share your feedback, and we can explore how to better adjust them.
When providing feedback about adjusting the thresholds, we recommend that you first create several example translations (make sure to check the publishing options if your test is not intended to be published as regular content). Når du prøver korleis grensene fungerer for språket ditt, er det nyttig å ha i hug dei neste:
- Check for both cases. Make sure to check how the limits work for both: translations where the content has not been edited enough, versus where it has been edited enough.
In this way, you can more easily find the right balance for the tool's limits feature. Om ein berre har ein type problem kan det føre til at tærsklene blir for langt i motsatt retning.
- Check different content. Content in our wikis is highly diverse, and machine translation may work much better for some cases compared to others.
For example, content that is full of numeric data or technical names may require less editing by users than content with more descriptive text. Sjå til at du tek tekst ved å omsetja ulike artikeltyper, med ulike lengder og ulike innhald.
- Prepare to iterate. Adjusting the thresholds is an iterative process.
It may require custom adjustments to the thresholds or that you improve your general approach. I alle fall kan det etter kvar endring vera naudsynt å gjera fleire test for å verifisere dei bedriftane som er blitt bedrift.
Adjusting the limits in collaboration with editors has proven to be effective. For example, initial results show that the Indonesian community was able to significantly reduce the number of problematic translations they were receiving by restricting the publication of translations with more than 70% of unmodified machine translation content. Slik tilpasning er gjort for wikiar i telugu og assamese språk. There is no automatic tool that is infallible, and these limits are not an exception.
The process of content review by the community is still essential, but these limits provide communities with a tool to reduce the number of translations they have to focus on, making the review process much more effective. Please share your feedback and we can explore how to better adjust them.
Tracking potentially unreviewed translations
A tracking category with the name "cx-unreviewed-translation-category" is provided for communities to easily find articles that have been published with some content exceeding the recommended limits.
You can find this category in the list of tracking categories on each wiki. Using it, you can track articles that passed the limits preventing publication, but that still had some paragraphs that were edited less than expected. For example the Indonesian Wikipedia's category includes articles that have less than 40% of machine translation overall, but which have some paragraphs with more than 80% of unmodified machine translation.
Measuring translation quality
Evaluating content quality automatically is not trivial. Deletion ratios provide a useful measure for estimating whether the content created was good enough for the community involved not to delete it. Based on the analysis of deletion ratios, articles that are created as translations are less likely to be deleted when compared with articles created from scratch. This suggests that it may not be practical to set the limits for participation through translating much higher than those set for other ways of article creation.
Find published translations
Content translation adds a contenttranslation edit tag to the published translations. This allows communities the ability to use Recent changes, and similar tools, to focus on pages created using the translation tool. In addition, data on published translations and the statistics for machine translation use are available for anyone to analyze.
Inspect a specific translation
Translation debugger er eit verktøy som tillater å inspeksjonere nokre metadata for ein viss oversett, inkludert prosentandelen av maskinoversettinga som blir brukt for heile dokumentet, og oversettingstjenesten som blir brukt til kvar paragraf. For spesifikke innhaldstyper som mallar, kan API for Content Translation Server [$ 1 kan spørjast for å sjå korleis mallar blir overført mellom språk].
Other limits based on user expertise
Nokre wiki har sett andre begrensningar i bruken av oversettingar basert på brukarrettene som ein måte å redusere skapinga av lågkvalitete oversettingar på.
For example, English Wikipedia requires users to be extended confirmed, which means they need to make 500 edits on English Wikipedia before they are allowed to publish a translation as an article.
Newer editors can still publish translated articles in the User:
or Draft:
namespaces, and then move the article to the mainspace.
Denne begrensinga vart opprettet før det var tilgjengeleg systemet med grenser som er skildra på denne sida, og det er ikkje den anbefalte tilnærmingen for å oppmuntra til å oppretta oversettingar av god kvalitet.
Før du legg til restriksjonar som ikkje tek med i betraktning det oppretta innhaldet, bør du tenkja på å gå gjennom prosessen med å justera grensene til umodifisert innhald som beskrevet ovan. Grensene kan bli gjort så strenge som trengs for å hindre lågkvalitative omsetningar, medan dei likevel kan publiserast av redaktørar som gjer gode omsetningar.