Traduction de contenu/Traductions publiées
Les informations sur les traductions publiées sont généralement utiles pour les développeurs d'outils de traductions automatiques et d'autres à des fins différentes telles que l'extraction de terminologie et la recherche interlinguistique. La traduction de contenu vise à fournir des données sur les traductions sous une licence ouverte. La quantité et les détails des données seront précisés au fil du temps. Cette page présente l'état actuel.
Liste de sources publiées et titres cibles
La traduction de contenu dispose d'une API pour obtenir une liste de toutes les traductions publiées dans différentes langues.
- Liste de toutes les traductions publiées dans toutes les langues. Exemple
- Liste de toutes les traductions publiées entre deux langues. Exemple
Actuellement, la sortie de l'API renvoie les détails suivants (illustrés par un exemple).
{
"translationId": "510",
"sourceTitle": "Tequendama Falls Museum",
"targetTitle": "Casa Museo Salto de Tequendama Biodiversidad y Cultura",
"sourceLanguage": "en",
"targetLanguage": "es",
"sourceURL": "//en.wikipedia.org/wiki/Tequendama Falls Museum",
"targetURL": "//es.wikipedia.org/wiki/Casa Museo Salto de Tequendama Biodiversidad y Cultura",
"publishedDate": "20151006230043",
"sourceRevisionId": "35676",
"targetRevisionId": "7689875",
"stats": {
"any": 0.93459552495697,
"human": 0.67469879518072,
"mt": 0.25989672977625,
"mtSectionsCount": 2
}
}
Les données statistiques indiquent le pourcentage d'achèvement de la traduction. human indique le pourcentage de traduction manuelle. mt indique le pourcentage de traduction automatique. Toutes les modifications apportées à la traduction automatique sont considérées comme des modifications manuelles. Les pourcentages sont calculés au niveau de la section. any indique la traduction totale (any=human+mt). La traduction de contenu n'exige pas la traduction intégrale de l'article source. Les utilisateurs peuvent traduire librement autant de sections qu'ils le souhaitent. mtSectionsCount indique le nombre total de sections traduites. Ces statistiques sont également utilisées pour prévention des abus (en savoir plus sur le calcul du pourcentage dans cette page).
Corpus parallèles
Outre les nouveaux articles créés grâce aux traductions, les articles sources et traduits sont de bonnes sources de Texte parallèle. La traduction de contenu recueille ces textes et les met à la disposition de tous. Les développeurs de traduction automatique peuvent les utiliser pour entraîner leurs systèmes de traduction automatique. L'outil de traduction capture également l'alignement des sections dans la source et la traduction, et dans certains cas, même à la granularité de la phrase en utilisant le balisage HTML dans les sections. L'outil n'effectue aucune sorte d'alignement automatique et l'alignement fourni n'est que le meilleur effort basé sur la façon dont les connexions ont été préservées pendant la traduction. Lors de l'alignement automatique des phrases, il est bon de se rappeler que les traductions ne correspondent pas nécessairement à 1:1.
API
To access the parallel text of a single translation, there is a separate API. First, one should know the translation id. This can be obtained from the cxpublishedtranslations
API explained above. To get the section level aligned parallel text, use contenttranslationcorpora
API.
Exemple : https://en.wikipedia.org/w/api.php?action=query&list=contenttranslationcorpora&translationid=108992
Vous pouvez voir que la sortie est formatée en JSON et contient des contenus au niveau de la section. Une section est un paragraphe, des titres ou des chiffres. Techniquement, un élément de niveau de bloc dans HTML. Chaque section contient jusqu'à trois versions
source
: Le contenu de la source.mt
: La machine traduit le contenu. Si la paire de langues impliquée dispose d'un service de traduction automatique et que le traducteur l'utilise, cette section de sortie aura une traduction automatiques non modifiée de la section source. Il sera vide si la traduction automatique n'a pas été utilisée.user
: La traduction finale par utilisateur. Il s'agira d'une version améliorée avec des modifications manuelles en plus de la traduction automatique. Ou même une traduction à partir de zéro s'il n'y a pas de MT.
Par défaut, le contenu de la section est HTML. Mais si vous préférez obtenir une version en texte brut de chaque section, utilisez l'argument striphtml
dans l'API.
Si vous souhaitez obtenir uniquement les versions source et utilisateur, utilisez l'argument types
. Par défaut, sa valeur est de source|mt|user
Note : La sortie de cette API sera vide pour les anciennes traductions (avant le 2016-01-22). Ceci est dû au fait que l'API et l'infrastructure requise n'ont été introduites qu'à cette date. Nous n'avons pas capturé le texte parallèle pour les anciennes traductions. Mais si vous avez un bon aligneur, vous pouvez toujours utiliser les paires d'articles réels de Wikipédia en utilisant le résultat de l'API cxpublishedtranslations
.
Dumps
Parce que l'accès aux traductions une par une n'est pas pratique, nous fournissons les dépôts de traduction dans les formats tmx et json. Ils peuvent être téléchargés ici. Les dumps sont disponibles en format tmx, json. Pour les grandes paires de traductions, des fichiers de dépôt séparés sont présents. Par exemple, cx-corpora.ca2es.text.tmx.gz est le fichier de dépôt parallèle des corpus pour les traductions en catalan vers l'espagnol. Pour les paires de langues plus petites, un seul fichier avec toutes les langues est fourni. Ils sont nommés 3 $.
Notez que les dépôts (contrairement aux données API) ne comprennent que des traductions dans lesquelles les éditeurs ont apporté des modifications (c'est-à-dire que la valeur "human" est supérieure à 0). La raison en est que les dumps sont axés sur la capture des corrections effectuées par les utilisateurs sur les systèmes de traduction automatique pour les améliorer.
Ressources externes
Les données sur les traductions publiées ont été intégrées au projet OPUS. L'objectif du projet OPUS est de créer un corpus parallèle ouvert, en convertissant, en alignant et en annotant des données en ligne gratuites.
Exemples d'utilisation
Pour un exemple de la façon de collecter les identifiants de traduction de l'API cxpublishedtranslations
et de les lier aux corpus parallèles, voir : https://paws-public.wmflabs.org/paws-public/User:Isaac_(WMF)/content-translation-basics.ipynb