Content translation/Published translations/nl
Informatie over gepubliceerde vertalingen is over het algemeen nuttig voor ontwikkelaars van machinevertalingen en anderen voor verschillende doeleinden, zoals terminologie-extractie en cross-linguïstisch onderzoek. Content Translation heeft tot doel gegevens over vertalingen onder een open licentie te verstrekken. De hoeveelheid en details van de gegevens zullen in de loop van de tijd worden verbeterd. Op deze pagina wordt de huidige status vastgelegd.
Lijst van gepubliceerde bron- en doeltitels
Contentvertaling heeft een API om lijsten te krijgen van alle gepubliceerde vertalingen in verschillende talen.
- alle gepubliceerde vertalingen in alle talen. Voorbeeld
- alle gepubliceerde vertalingen tussen twee talen. Voorbeeld
Op dit moment retourneert de API-uitvoer de volgende details (geïllustreerd met een voorbeeld).
{
"translationId": "510",
"sourceTitle": "Tequendama Falls Museum",
"targetTitle": "Casa Museo Salto de Tequendama Biodiversidad y Cultura",
"sourceLanguage": "en",
"targetLanguage": "es",
"sourceURL": "//en.wikipedia.org/wiki/Tequendama Falls Museum",
"targetURL": "//es.wikipedia.org/wiki/Casa Museo Salto de Tequendama Biodiversidad y Cultura",
"publishedDate": "20151006230043",
"sourceRevisionId": "35676",
"targetRevisionId": "7689875",
"stats": {
"any": 0.93459552495697,
"human": 0.67469879518072,
"mt": 0.25989672977625,
"mtSectionsCount": 2
}
}
De statistische gegevens tonen het percentage van voltooiing van de vertaling. human geeft het percentage handmatige vertalingen aan. mt geeft het percentage machinevertaling aan. Alle bewerkingen in de uitvoer van machinevertalingen worden beschouwd als handmatige bewerkingen. De percentages worden berekend op sectieniveau. any geeft de totale translatie aan (de som). Content Translation vereist geen volledige vertaling van het bronartikel. Gebruikers kunnen zo veel of zo weinig secties vrij vertalen als ze willen. mtSectionsCount toont het totale aantal vertaalde secties. Deze statistieken worden ook gebruikt voor misbruikpreventie (lees meer over de percentageberekening op die pagina). human indicates manual translation percentage. mt indicates machine translation percentage. Any edits to machine translation output are considered as manual edits. The percentages are calculated at section level. any indicates the total translation (any=human+mt). Content Translation does not demand full translation of the source article. Users can freely translate as many or as few sections as they want. mtSectionsCount shows the total number of translated sections. These stats are also used for abuse prevention (read more about the percentage calculation in that page).
Parallelle corpora
Samen met de nieuwe artikelen die met behulp van vertalingen zijn gemaakt, zijn de bron- en vertaalde artikelen goede bronnen voor parallelle tekst. Content Translation verzamelt deze en maakt deze beschikbaar voor iedereen. Ontwikkelaars van machinevertalingen kunnen dit gebruiken om hun machinevertalingssystemen te trainen. Content Translation legt ook de uitlijning van secties in bron en vertaling vast, en in sommige gevallen zelfs op zin-granulariteit met behulp van HTML-opmaak in de secties. Inhoudsvertaling voert geen enkele vorm van automatische uitlijning uit en de verstrekte uitlijning is alleen de beste inspanning op basis van hoe de verbindingen bewaard zijn gebleven terwijl de vertaling plaatsvindt. Bij het automatisch uitlijnen van de zinnen is het goed om te onthouden dat de vertalingen niet per se 1:1 overeenkomen.
API
Om toegang te krijgen tot de parallelle tekst van een enkele vertaling, is er een aparte API. Ten eerste moet men de vertaal-id kennen. Dit kan worden verkregen via de API van cxpublishedtranslations
die hierboven is uitgelegd. Om de parallelle tekst op sectieniveau uit te lijnen, gebruikt u de API van contenttranslationcorpora
.
Voorbeeld: https://en.wikipedia.org/w/api.php?action=query&list=contenttranslationcorpora&translationid=108992
U kunt zien dat de uitvoer JSON-geformatteerd is en inhoud op sectieniveau bevat. Een sectie bestaat uit alinea's of koppen of figuren. Technisch gezien een element op blokniveau in HTML. Elke sectie bevat maximaal drie versies
source
: De bron inhoud.mt
: De machinaal vertaalde inhoud. Als de betrokken talencombinatie een automatische vertaalservice heeft en de vertaler deze heeft gebruikt, zal deze sectie in de uitvoer een ongewijzigde machinevertaling van de bronsectie hebben. Het zal leeg zijn als er geen machinevertaling is gebruikt.user
: De uiteindelijke vertaling door de gebruiker. Dit zal een verbeterde versie zijn door handmatige bewerkingen bovenop machinevertaling. Of zelfs een vertaling vanaf nul als dat die er niet is.
De inhoud van de sectie is standaard HTML. Maar als u liever een gewone tekstversie van elke sectie wilt krijgen, gebruik dan het argument striphtml
in de API.
Als u alleen bron- en gebruikersversies wilt krijgen, gebruikt u het argument types
. Standaard is de waarde source|mt|user
Let op: De uitvoer van deze API zal leeg zijn voor oude vertalingen (voor 2016-01-22). Dit komt omdat de API en de benodigde infrastructuur pas op die datum zijn geïntroduceerd. We hebben de parallelle tekst voor oude vertalingen niet vastgelegd. Maar als je een goede uitlijner heeft, kunt u nog steeds de echte artikelparen van Wikipedia gebruiken met behulp van de output van API cxpublishedtranslations
.
Dumps
Omdat het lastig is om één voor één toegang te krijgen tot vertalingen, bieden we de vertaaldumps aan. Ze kunnen worden gedownload. Dumps zijn beschikbaar in tmx, json-formaat. Voor grote vertaalparen zijn er aparte dumpbestanden aanwezig. Bijvoorbeeld, cx-corpora.ca2es.text.tmx.gz is de parallelle corpora dump voor vertalingen van het Catalaans naar het Spaans. Voor kleinere talencombinaties is een enkel bestand met alle talen beschikbaar. Ze worden genoemd als cx-corpora._2_.text.tmx.gz.
Merk op dat dumps (in tegenstelling tot API-gegevens) alleen vertalingen bevatten waarbij redacteuren enkele wijzigingen hebben aangebracht (d.w.z. de "menselijke" waarde is groter dan 0). De reden hiervoor is dat dumps gericht zijn op het vastleggen van de correcties die gebruikers hebben aangebracht in automatische vertaalsystemen om ze te verbeteren.
Externe repositories
Gegevens over gepubliceerde vertalingen zijn geïntegreerd in het OPUS-project. Het doel van het OPUS-project is om een open parallel corpus te creëren, door gratis online gegevens te converteren, uit te lijnen en te annoteren.
Analyse voorbeelden
Voor een voorbeeld van hoe u ID's van vertalingen kunt verzamelen uit de API cxpublishedtranslations
en deze kunt koppelen aan de parallelle corpora, zie: https://paws-public.wmflabs.org/paws-public/User:Isaac_(WMF)/content-translation-basics.ipynb