Traduction de contenu/Traduction automatique/MinT
MinT (Machine in Translation) est un service de traduction basé sur des modèles de traduction automatique neuronale en source ouverte. Le service est hébergé dans l’infrastructure de la fondation Wikimedia et fera partie de la liste des systèmes de traduction automatique (MT) disponibles pour les utilisateurs de Traduction de contenu et d’autres projets Wikimedia. Les traductions fournies sont basées sur les modèles de traduction NLLB-200, OPUS, IndicTrans2 et Softcatalà qui ont été optimisés pour les performances à l’aide de la bibliothèque OpenNMT Ctranslate2 afin d’éviter le besoin d’accélérer la GPU. Pour les détails supplémentaires vous pouvez lire le code source, les spécifications de l'API, et une instance de test.
Caractéristiques principales
- Aucune information personnelle non publique des utilisateurs n’est envoyée à MinT. Le système MT sera accessible via une API. Le contenu de l’article (licence libre) est envoyé au serveur MinT et aucune communication directe n’a lieu entre l’utilisateur et les services externes et aucune information personnelle non publique des utilisateurs (adresse IP, nom d’utilisateur) n’est envoyée au service MinT. Le client contactant MinT est en source ouverte et vous pouvez le vérifier ici. Bien que le service MinT soit hébergé dans l’infrastructure Wikimedia, l’intégration suit le même schéma que les autres services externes (veuillez également consulter un schéma de cette configuration technique à la fin de la section).
- Toute information protégée par le droit d’auteur est renvoyée par MinT sous une licence gratuite. Lorsque MinT est utilisée, une version traduite du contenu de Wikipedia est obtenue. Le « droit d’auteur » d’un tel contenu généré par une machine est une question juridique ouverte. Dans la mesure où les traductions MinT sont protégées par le droit d’auteur, ces traductions sont disponibles sous la même licence gratuite que le contenu de Wikipedia en cours de traduction. Les utilisateurs peuvent le modifier et le publier dans le cadre de Wikipedia sans entrer en conflit avec les politiques existantes. Le contenu résultant traduit par MinT et les modifications de l’utilisateur seront disponibles sous la même licence que celle utilisée pour le reste des articles de Wikipedia.
- Profite à la communauté élargie des traducteurs open source. Les traductions obtenues auprès de MinT et les modifications des utilisateurs seront accessibles publiquement. Les traductions post-éditées présentent un intérêt particulier pour la communauté de recherche en traduction qui peut utiliser cette ressource pour créer de nouveaux services de traduction prenant en charge les langues pour lesquelles la traduction automatique open source n’est pas encore disponible. Cela aidera les développeurs à créer et à améliorer les systèmes de traduction automatique.
- Les utilisateurs peuvent le désactiver. La traduction automatique est un outil optionnel de la Traduction de contenu. Les utilisateurs ont la possibilité de le désactiver s’ils ne le trouvent pas utile pour une raison quelconque. Bien que de nombreux utilisateurs de Traduction de contenu ont demandé des services de traduction, chaque utilisateur décide finalement s’il souhaite les utiliser ou non.
Questions relatives à ce service
Nous avons abordé quelques questions immédiates sur MinT dans cette section. Ceci est également disponible dans la page FAQ sur la traduction de contenu.
Quelles langues sont gérées par MinT ? Est-il prévu d’en ajouter de nouvelles ?
MinT est conçue pour héberger plusieurs modèles de traduction ouverts. Le nombre de langues prises en charge en dépendra. La liste des systèmes de traduction automatique (MT) disponibles comprendra la liste la plus à jour.
En quoi l’utilisation de MinT diffère-t-elle de Apertium et des autres services de traduction automatisés ?
En tant qu’utilisateur de la Content Translation, vous ne sentirez aucune différence sur l’interface de traduction, car MinT affichera le contenu traduit de la même manière qu’Apertium ou que d’autres services le font actuellement pour les paires de langues prises en charge. Différents services offrent un niveau de qualité de traduction différent selon la langue et le contenu spécifique. Vous pouvez essayer de changer parmi les services disponibles celui qui fournit la meilleure traduction initiale pour un paragraphe donné.
Comment est réalisée la traduction si je choisis MinT ?
Lorsqu’un utilisateur commence à traduire un article, le contenu HTML de chaque section de l’article source est envoyé à MinT. Le service MinT traite la demande et utilise l’un des modèles de traduction disponibles en fonction de la langue et de la configuration prises en charge. Une version traduite est obtenue et affichée dans la colonne de traduction correspondante de Content Translation. Les liens et les références sont adaptés comme d’habitude et les utilisateurs peuvent modifier le contenu selon leurs besoins.
Ce processus se poursuit pour toutes les sections de l’article en cours de traduction. Pour de meilleures performances, les traductions des sections consécutives sont pré-extraites. L’utilisateur peut sauvegarder la traduction non publiée (pour la retravailler ultérieurement), réviser ou publier l’article de la manière habituelle. L’article est publié sur Wikipedia comme tout autre article normal avec l’attribution et les licences appropriées.
Est-ce que MinT est un logiciel libre ?
Le service MinT est une source ouverte et il intègre des modèles publiés en source ouverte :
- L’équipe de recherche sur l’IA de Meta a publié les modèles de traduction utilisés par NLLB-200 avec une licence en source ouverte et le jeu de données utilisé pour l’entraînement dans le cadre du projet No Language Left Behind (« Aucune langue laissée de côté »).
- Le projet OPUS fournit des modèles de traduction neuronale pré-entraînés sur les données OPUS avec une licence en source ouverte.
Ces modèles ont été optimisés pour les performances à l’aide de OpenNMT Ctranslate2 library qui est également une bibliothèque source ouverte.
La traduction de contenu a évolué à partir d’un besoin de longue date de combler l’écart dans la quantité de contenu entre les Wikipedia dans différentes langues. Comme tous les autres logiciels utilisés sur les sites Wikimedia, la Traduction de contenu est également en source ouverte. Dans ce cas particulier également, nous utilisons un client en source ouverte pour interagir avec le service externe et importer du contenu sous licence libre afin d’aider les utilisateurs à élargir nos connaissances gratuites. Pour utiliser MinT, nous n’ajoutons aucun logiciel propriétaire dans le code de traduction de contenu, ou sur les sites Web et les serveurs de Wikimedia.
Dois-je m'inquiéter au sujet de mes données personnelles quand j'utilise MinT ?
Quelque soit le service utilisé, vous pouvez être sûr que seul le contenu Wikipedia des articles existants est envoyé et que seul le contenu sous licence libre sera ajouté à la traduction. La communication avec ces services se fait côté serveur, ils sont donc isolés de l’appareil de l’utilisateur et ils n’ont pas accès aux informations personnelles non publiques des utilisateurs. Veuillez vous référer à ce diagramme pour plus de détails.
Que faire si MinT est le seul outil de traduction automatique disponible et que je ne veux pas l'utiliser ?
La traduction automatique (MT) est une fonctionnalité facultative de la Traduction de contenu que vous pouvez désactiver facilement à volonté. Si d’autres systèmes de traduction automatique sont ajoutés pour vos langues, vous pouvez choisir d’activer à nouveau MT et sélectionner le service MT de votre choix.
Le texte traduit avec MinT sera-t-il de libre d'utilisation dans Wikipedia ?
Oui. Le contenu reçu de MinT est par ailleurs librement disponible sur la plateforme de traduction Web. Pour une facilité d’utilisation, Traduction de contenu le reçoit via une API pour le rendre disponible de manière transparente sur l’interface de traduction. Ce contenu peut être modifié par les utilisateurs (si nécessaire) et utilisé dans les articles Wikipedia sous licences libres.
Est-ce que ce contenu peut être utilisé pour améliorer les systèmes de traduction automatique en général ?
Oui. Les traductions effectuées dans la Traduction de contenu sont enregistrées dans notre base de données. Ces informations seront mises à la disposition du public pour que quiconque les utilise comme exemples de traduction afin d’améliorer leurs services de traduction (des groupes de recherche universitaires, des projets open source aux entreprises commerciales, n’importe qui !). Le contenu est accessible via l’API de Traduction de contenu. Veuillez noter que seules les informations relatives au texte traduit sont accessibles au public. Cela comprend le texte source et traduit, les informations sur la langue source et cible et un identifiant pour le segment de texte.