Help:Inhoud vertaling/Vertaling/Vertalingskwaliteit
Let op: Als u deze pagina bewerkt, gaat u akkoord met het vrijgeven van uw bijdragen onder de CC0. Zie Helppagina’s Publiek Domein voor meer informatie. |
Bij het creëren van een vertaling is het essentieel om eerst de inhoud te onderzoeken alvorens deze te publiceren. U moet er zeker van zijn dat de originele betekenis niet gewijzigd wordt in de vertaling en dat de vertaalde tekst leesbaar is. De initiële machinevertaling zorgt ervoor dat het vertalen sneller gaat door een bruikbaar begin te geven, maar het is wel de bedoeling dat de vertaler deze tekst kritisch bekijkt en het echt ziet als een beginpunt van de vertaling.
Er zijn wat mechanismes die ervoor zorgen dat de vertaler de initiële tekst goed aanpast. De vertaaleditor houdt bij hoeveel van de initiële vertaling is gewijzigd door de vertaler, en heeft bepaalde limieten voor het publiceren of het waarschuwen om de inhoud kritisch te beoordelen.
Op deze manier proberen we te zorgen dat de machinevertaling goed gebruikt wordt, als een beginpunt voor de vertaling. Hieronder staat aangegeven hoe deze limieten werken, hoe ze per taal aangepast kunnen worden en hoe de kwaliteit van de met het hulpmiddel aangemaakte vertalingen, beoordeeld kan worden.
Limiteren van het aanmoedigen tot het beoordelen van vertalingen
Hulpmiddel Content translation meet het percentage wijzigingen dat gebruikers aanbrengen in de initiële automatische vertaling. Op deze manier weet het systeem hoeveel woorden zijn toegevoegd, verwijderd of gewijzigd ten opzichte van de eerste vertaling. Metingen worden gedaan op twee verschillende niveaus: voor elke alinea en voor de hele vertaling. Op elk niveau worden verschillende limieten toegepast, zoals hieronder beschreven.
Limieten voor de hele vertaling
Publicatie wordt geblokkeerd als 95% of meer van het hele document bestaat uit ongewijzigde, machinaal vertaalde inhoud. Deze limiet voorkomt ruwe machinevertalingen en omzeilt duidelijk vandalisme. Het voorkomt ook dat gebruikers alleen inhoud toevoegen, zonder het machinevertalingsgedeelte te bewerken. Zoals hieronder beschreven, kan deze limiet per taal worden aangepast.
Limieten voor elke alinea
Het percentage gebruikerswijzigingen wordt ook gemeten voor elke alinea. Een alinea wordt als problematisch beschouwd wanneer deze meer dan 85% van de oorspronkelijke machinevertaling bevat (of, bij het kopiëren van de inhoud uit het brondocument, meer dan 60% ongewijzigde inhoud bevat).
De vertaaleditor toont een waarschuwing voor elke alinea die als problematisch wordt beschouwd, om verdere bewerkingen door de gebruiker aan te moedigen. In sommige gevallen kunnen gebruikers nog steeds publiceren, maar de resulterende pagina kan worden toegevoegd aan een categorie van mogelijk niet-beoordeelde vertalingen die de community kan beoordelen. In andere gevallen mogen gebruikers mogelijk helemaal niet publiceren.
Hieronder volgen enkele van de factoren die in aanmerking worden genomen om te bepalen of gebruikers al dan niet mogen publiceren (waarvan sommige nog in ontwikkeling zijn):
- Het aantal problematische alinea's. Gebruikers mogen geen vertalingen publiceren met 50 of meer problematische alinea's. Publicatie van vertalingen met minder dan 50 problematische alinea's is toegestaan, maar vertalingen met 10 tot 49 problematische alinea's worden toegevoegd aan een categorie van mogelijk niet-beoordeelde vertalingen die de gemeenschap kan beoordelen.
- Eerdere verwijderde vertalingen. Om terugkerende problemen te voorkomen, identificeert het hulpmiddel gebruikers van wie de gepubliceerde vertalingen in de afgelopen 30 dagen zijn verwijderd en legt ze veel strengere beperkingen op aan hun toekomstige vertaalinspanningen. Bij deze gebruikers kunnen vertalingen met 10 problematische alinea's of meer niet worden gepubliceerd, terwijl vertalingen met 9 of minder problematische alinea's worden toegevoegd aan een categorie van mogelijk niet-beoordeelde vertalingen die de gemeenschap kan beoordelen.
- Gebruikersbevestiging. Een minder strikte drempel wordt overwogen voor alinea's die een gebruiker als opgelost markeert, opgevat als een signaal dat de gebruiker de status van de vertaling heeft beoordeeld en bevestigd. Voor alinea's waarin de waarschuwing voor ongewijzigde inhoud wordt weergegeven, maar de gebruiker deze als opgelost markeert, wordt een minder strikte drempel toegepast (waarbij 95% van de machinevertaling of 75% van de broninhoud wordt geaccepteerd). Dit biedt een manier om tegemoet te komen aan gevallen waarin de automatische vertaling uitzonderlijk goed was, maar nog werkt om mogelijk misbruik van de functie te voorkomen (d.w.z. niet blindelings de bevestiging van een gebruiker te volgen).
Inhoud zonder limieten
Sommige inhoud zal naar verwachting niet significant worden bewerkt en wordt daarom niet in aanmerking genomen bij het toepassen van de hierboven beschreven limieten. Niet meegenomen in de meting worden zeer korte sectietitels, citaten en de lijst met referenties. Anders kunnen gebruikers misleidende waarschuwingen ontvangen over het vertalen van inhoud die dat niet zou moeten zijn, zoals boektitels die in referenties worden weergegeven of andere zelfstandige naamwoorden.
Beperkingen op mobiele ervaring
Voor de mobiele ervaring volgen de eerste limieten een eenvoudiger aanpak. Op dit moment wordt alleen het totale percentage onveranderde machinevertaling van de volledige vertaling in overweging genomen. Op mobiel bestaat de volledige vertaling uit slechts één sectie van het artikel.
Met name wordt er een waarschuwing aangegeven wanneer het percentage onveranderde machinevertalingen van de hele sectie meer dan 85% bedraagt en wordt de publicatie voorkomen wanneer het percentage van onveranderde machinevertalingen meer dan 95% bedraagt.
Feedback over de werking van het limietsysteem op de mobiele context zou zeer nuttig zijn om te bepalen hoe deze eerste aanpak moet worden ontwikkeld.
Publication of fast unreviewed translations
Campaigns and contests can result in spikes of translations where some user unfamiliar with the community policies may focus on making many translations and not pay enough attention to review their contents. In order to emphasize quality over quantity, a mechanism has been defined to limit the publication of fast unreviewed translations.
After a user translates a large article, the next translation can only be started after some time has passed. The waiting period estimation considers 1 minute per paragraph up to 10 minutes. That is:
- For articles with 10 paragraphs or less, we want to make sure that users spent translating it at least N minutes (one minute per paragraph)
- For articles with more than 10 paragraphs we want to make sure that users spent translating it at least 10 minutes.
This has been applied on mobile initially since it is a space with less activity, and after measuring the impact we'll consider expanding it to desktop too.
Limieten aanpassen
De hierboven beschreven limieten bieden een reeks algemene mechanismen, maar ze moeten mogelijk worden aangepast, afhankelijk van de specifieke behoeften van elke wiki. Op basis van de eerste evaluatie kan de hoeveelheid aanpassing die nodig is voor de initiële machinevertaling variëren van 10% tot 70%, afhankelijk van het talenpaar. Op sommige wiki's kunnen de standaardlimieten te streng zijn, waardoor onnodige ruis wordt gegenereerd of goede vertalingen niet kunnen worden gepubliceerd. Op andere wiki's zijn de limieten mogelijk niet streng genoeg, waardoor vertalingen die niet voldoende zijn bewerkt, kunnen worden gepubliceerd.
Door de verschillende drempels aan te passen, kan elke wiki de limieten van de tool aanpassen aan zijn specifieke behoeften. Feedback van de gebruikers voor wie het de moedertaal is, is essentieel om de opgelegde limieten goed aan te passen. Als de huidige limieten niet goed lijken te werken op basis van uw ervaring met het maken of beoordelen van vertalingen, kunt u feedback geven, en kunnen we onderzoeken hoe we de limieten kunnen aanpassen.
Wanneer u feedback geeft over het aanpassen van de drempels, raden we u aan eerst verschillende voorbeeldvertalingen te maken (zorg ervoor dat u de publicatieopties controleert als uw test niet bedoeld is om als reguliere inhoud te worden gepubliceerd). Bij het testen hoe de limieten voor uw taal werken, is het handig om rekening te houden met het volgende:
- Controleer voor beide gevallen. Zorg ervoor dat u controleert hoe de limieten voor beide werken: vertalingen waarbij de inhoud niet genoeg is bewerkt, versus waar deze voldoende is bewerkt. Op deze manier kunt u gemakkelijker de juiste balans vinden voor de limietfunctie van het hulpmiddel. Het controleren van slechts één type probleem kan ertoe leiden dat de drempels te ver in de tegenovergestelde richting worden verplaatst.
- Controleer verschillende inhoud. De inhoud van onze wiki's is zeer divers en machinevertaling kan in sommige gevallen veel beter werken dan in andere gevallen. Inhoud die bijvoorbeeld vol staat met numerieke gegevens of technische namen, hoeft door gebruikers mogelijk minder bewerkt te worden dan inhoud met meer beschrijvende tekst. Zorg ervoor dat u test met een verscheidenheid aan verschillende artikeltypen, van verschillende lengtes, met ongelijksoortige inhoud te vertalen.
- Bereid u voor om het te herhalen. Het aanpassen van de drempels is een iteratief proces. Het kan zijn dat aangepaste aanpassingen van de drempels vereist zijn of dat u uw algemene aanpak verbetert. In ieder geval kan na elke wijziging verdere tests nodig zijn om de aangebrachte verbeteringen te verifiëren.
Het aanpassen van de limieten in samenwerking met de vertalers is effectief gebleken. De eerste resultaten laten bijvoorbeeld zien dat de Indonesische gemeenschap in staat was om het aantal problematische vertalingen dat ze ontvingen aanzienlijk te verminderen door de publicatie van vertalingen met meer dan 70% van de ongewijzigde machinevertalingsinhoud te beperken. Soortgelijke aanpassingen zijn gemaakt voor Telugu en Assamese taalwiki's. Er is geen automatisch hulpmiddel dat onfeilbaar is, en deze limieten zijn geen uitzondering.
Het proces van inhoudsbeoordeling door de gemeenschap is nog steeds essentieel, maar deze beperkingen bieden gemeenschappen een hulpmiddel om het aantal vertalingen waarop ze zich moeten concentreren te verminderen, waardoor het beoordelingsproces veel effectiever wordt. Deel a.u.b. uw feedback en we kunnen het ook voor uw taal bekijken.
Mogelijk niet beoordeelde vertalingen volgen
Een categorie met de naam "cx-unreviewed-translation-category" is beschikbaar voor gemeenschappen om gemakkelijk artikelen te vinden die zijn gepubliceerd met bepaalde inhoud die de aanbevolen limieten overschrijden.
U kunt deze categorie vinden in de lijst met trackingcategorieën op elke wiki. Hiermee kunt u artikelen bijhouden die de limieten hebben overschreden die publicatie voorkomen, maar die nog steeds enkele alinea's hadden die minder waren bewerkt dan verwacht. Bijvoorbeeld de Indonesische Wikipedia categorie bevat artikelen die minder dan 40% van de machinevertaling, maar die sommige alinea's hebben met meer dan 80% ongewijzigde machinevertaling.
Kwaliteit van het vertalen meten
Het automatisch evalueren van de kwaliteit van de inhoud is niet triviaal. Verwijderingsratio's bieden een nuttige maatstaf om in te schatten of de gemaakte inhoud goed genoeg was voor de betrokken gemeenschap om deze niet te verwijderen. Op basis van de analyse van verwijderingsratio's zijn artikelen die als vertalingen worden gemaakt minder waarschijnlijk om te worden verwijderd in vergelijking met artikelen die helemaal opnieuw zijn gemaakt. Dit suggereert dat het misschien niet praktisch is om de grenzen voor deelname door middel van vertaling veel hoger te stellen dan die voor andere manieren van artikelcreatie.
Gepubliceerde vertalingen vinden
'Content translation' voegt een contenttranslation bewerkingstag toe aan de gepubliceerde vertalingen. Dit stelt gemeenschappen in staat om recente wijzigingen en vergelijkbare hulpmiddelen te gebruiken om zich te concentreren op pagina's die zijn gemaakt met behulp van dit hulpmiddel. Bovendien zijn gegevens over gepubliceerde vertalingen en de statistieken over het gebruik van machinevertalingen voor iedereen beschikbaar.
Een bepaalde vertaling controleren
De Translation debugger is een hulpmiddel waarmee bepaalde metagegevens voor een bepaalde vertaling kunnen worden ingezien, waaronder het percentage machinevertaling dat voor het hele document is gebruikt en de vertaalservice die voor elke alinea is gebruikt. Voor specifieke soorten inhoud zoals sjablonen kan de API van de Content Translation Server worden geraadpleegd om te controleren hoe sjablonen over verschillende talen worden overgedragen.
Andere limieten op basis van gebruikerservaringen
Sommige wiki's hebben andere beperkingen geïmplementeerd voor het vertalen op basis van de gebruikersrechten als een manier om het maken van vertalingen van lage kwaliteit te verminderen.
Bijvoorbeeld: De Engelse Wikipedia vereist dat gebruikers uitgebreid worden bevestigd, wat betekent dat ze eerst 500 bewerkingen op de Engelse Wikipedia moeten uitvoeren voordat ze een vertaling als artikel mogen publiceren.
Editors met minder bewerkingen kunnen nog steeds vertaalde artikelen publiceren in de namespacesUser:
en Draft:
en vervolgens het artikel verplaatsen naar de mainspace.
Deze beperking is gemaakt voordat het op deze pagina beschreven systeem van limieten beschikbaar was, het is niet de aanbevolen aanpak om het maken van vertalingen van goede kwaliteit aan te moedigen.
Voordat u beperkingen toevoegt die geen rekening houden met de gemaakte inhoud, kunt u overwegen het proces van het aanpassen van de limieten van ongewijzigde inhoud zoals hierboven beschreven, te doorlopen. De limieten kunnen zo strikt worden gemaakt als nodig is om vertalingen van lage kwaliteit te voorkomen, terwijl publicatie door redacteuren die goede vertalingen maken, nog steeds wordt toegestaan.