Help:コンテンツ翻訳/翻訳する/一次的な機械翻訳

This page is a translated version of the page Help:Content translation/Translating/Initial machine translation and the translation is 98% complete.
PD 注意: このページを編集すると、編集内容が CC0 のもとで公開されることに同意したと見なされます。詳細はパブリック・ドメインのヘルプ ページを参照してください。 PD

翻訳に新しい段落を加えるには、ゼロから書き起こすか、手始めに機械翻訳にかけるかします。 機械翻訳が認められている場合、既定で訳文の初稿作り(一次翻訳)に使います。 異なる選択肢とそれぞれが使えるかどうか、また機械翻訳利用における注意点は下記の説明のとおりです。

一次翻訳の制限

ツール欄の「一次翻訳」オプションでは、段落単位で作業の出発点として最初にどのコンテンツを使うか選びます。 選択肢は以下のとおりです。

  • 機械翻訳サービス を使用する。原文の段落に対応する機械翻訳を一次翻訳に使うことができます。 これら選択できる機能の数も名称も(言語版により)ばらつきがあります。 「Apertiumを使用」または「Yandexを使用」などの選択肢はそれらのサービスが提供する言語に合わせて表示されます(詳細は下記の節をご参照ください。)
  • 翻訳原文を転写する。翻訳元から原語のままの段落が翻訳作業窓に転写されます。 本文は原語のままでも、要素には翻訳先のウィキに合わせて置換されるものがあります。 一例として、内部リンクはその言語版の記事に貼り替えられ、テンプレートは同等のものと置換されます。 それでも翻訳者には細部を完ぺきになるよう書き換える作業が残りますが、要素の入れ替えが済んだ部分はそのまま使えるから、楽な場合があります。
  • 空欄から書き始める。単純に文字入力だけしても作業が終わらない場合などは、空欄から書き始めるほうが利便性が高いと言えます。

それぞれのアプローチはどれを選んでも、段落ごとに別のアプローチに自由に切り替えができます。アプローチによって、適合するコンテンツの種類が異なるはずだからです。 アプローチを切り替えても、作業済みの段落の内容は保存されます。 この方法なら、いったん編集作業を始めた翻訳原文であっても、後から別のアプローチを適用することが可能です。前回の編集が失われる心配はなく、もし途中でやはり前回のアプローチに戻したいと考えたときは、保存された内容を使えます。 この流れでは選択肢が2つあります。

  • 翻訳をやり直すという選択肢は、既定で設けられたコンテンツに改変を加えた場合に選べるようになります。 自分で加えた改変を除去すると、当初のコンテンツを回復できます。
  • 既定に指定する という選択肢は、特定の段落でまだ既定に指定していないアプローチを使おうとしたときに表示されます。 選択すると、そのアプローチを次の段落で既定として翻訳に追加するように設定します。 これは複数の翻訳サービスの中で、どれか特定のものが他よりもだいたいはうまく働くと気づいた時などに、とても便利に使えます。

言語と機械翻訳の提供

コンテンツ翻訳機能は複数の機械翻訳サービスを統合しており、サービスごとに対応する言語の組み合わせが異なります。 サポートするサービスと、それぞれが提供する言語の一覧は下記のとおりです。

上記の言語一覧から設定コードにリンクがあり、ツールがその時点で作動する方法と一致しているかどうか、検証に使えるようにしてあります。 一覧には冒頭の字下げレベルに翻訳元の 言語コードを示し、続けて対訳版の言語コードを網羅してあります。

特定の言語ペアに関するサービスもAPIを使用して確認することが出来る。 In this example for the Spanish-Catalan pair, you can see that Apertium is the default service (first in the list) among the other services available.

言語を翻訳対象に加えるかどうかは、翻訳結果の吟味やコミュニティのフィードバックを待ち、ゆっくりと検討されます。 サービスでは提供している言語であっても、機械翻訳がまだ有効にされていない可能性があります。

既存の翻訳サービスを改善するには

コンテンツ翻訳ツールを使って翻訳を公開することで、皆さんは既存の翻訳サービス改善に手を貸していることになります。 機械翻訳の一次的な出力に加えた修正はすべて、API 経由およびデータ ダンプで公開され、既存の機械翻訳改善に活用する可能性が盛り込まれました。 それに加え、前述の機械翻訳サービスの中には、それぞれのプロジェクトに利用者が貢献する方法を特設しているものがあります。

MinT

The translations provided by MinT are based on translation models such as NLLB-200 and OpusMT. The training data compiled by the Opus project is resused by many translation models, and you can contribute to it in order to help improve the translation quality for your language.

OpusMT はオープンソースの中立的な機械翻訳システムとしてトレーニングされており、オンラインで提供され自由に使える多言語の文書を用いています。 この公開コーパスを使い、機能向上のために機械翻訳システムをトレーニングしています。そこでコーパスの拡張は、翻訳の質の向上を導き出します。 コンテンツ翻訳拡張機能を使って生成したコンテンツは、自動的に翻訳コーパスに取り込まれますが、さらにコーパスを拡張する貢献の方法があります。

  • 公開コーパスに取り込む新しい情報源(ソース)を提案してください。コーパスを拡張する新規のデータソースの推薦先は、Jörg Tiedemannさん宛にご連絡ください。
  • 翻訳した文書を直接、投稿する(現状ではプロトタイプとして運用。) 皆さんから翻訳コーパスにアップロードする翻訳済みの文書は、webページの翻訳など、さまざまなフォーマットで組み込むことができます。
  • ローカルな言語モデルを試してください OPUS-CAT (Windows版)
  • Contribute to other projects that contribute their translations to this open corpus such as Tatoeba, an on-line open community collecting translation for sentences in many languages.

OpusMT が基盤とする MarianNMT は、それ自体がオープンソースのプロジェクトして進んでいます。 技術的な知識があって機械学習に関心のある皆さんも、改善に協力をお願いします。

Apertium

Apertium(アパーティアム)はオープンソースの法則に基づく翻訳システムです。 プロジェクトに貢献する方法として、ご使用の言語版で言語規則のエンコードがあります。 この作業には言語学と高度な技術的な知識が求められるものの、Apertium チームからサポートを受けられますから、新規の言語ペアの場合も翻訳サポート拡充を手伝うことができます。

Google 翻訳

Google 翻訳はオープンソースのプロジェクトではありませんが、それでも利用者から翻訳サービスに貢献を寄せることができ、次のような方法があります。

翻訳サービスを追加して言語サポートを拡張するには

コンテンツ翻訳機能は、拡充していくプラットフォームとして設計してあります。 そこで新規のクライアントを開発して翻訳サービスを追加することが可能です。 翻訳サービスを統合する手順について、課題がいくつかあります。

  • 機械翻訳の出力と利用者が加筆した訂正は公開され、公開された翻訳のデータとして扱われるため、皆さんの翻訳サービスを作成もしくは改良する上で利用価値のあるリソースが得られます。
  • 統合された外部サービスには、公開情報として入手できるウィキのコンテンツのみ送信され、そのウィキごとのライセンス要件に適した対訳版が返ってきます。 どの翻訳サービスに対しても、個人情報が提供されることはありません。

言語単位で提供されるサポートはとても便利です。 もし皆さんが特定の言語にサポートが欠けていると気づいたり、もっと品質の良いオプションがあるとご存知でしたら、ぜひご指摘をお願いします。 上記その他のフィードバックの投稿はプロジェクトのトークページまたはチケットにお願いします。


機械翻訳の留意点

機械翻訳の出力結果をそのまま翻訳の最終原稿にしようとしても、完ぺきな翻訳はできません。 それでも、翻訳の最初の一歩として使い道はあると感じる利用者は大勢います。 下記に紹介するさまざまな視点から、訳出したコンテンツをよく確かめてください。

  • 翻訳原文の文意が拾えていることを確かめます。
  • 取りこぼした要素がないかどうか、特にぱっと見ただけでは(訳注:本文中に)情報が表示されないリンクや典拠、テンプレートに気を付けます。
  • 翻訳後のコンテンツをよく読み、単独のページとして読んだ場合に自然な言語表現になっているか、確かめます。

要素が複雑な場合の限界

予測と異なる翻訳が出力される場合があります。

  • サポートされたサービスには、単純な文しか処理できないものがあります。 具体的には書式設定、リンクや典拠からの出典などコンテンツの複雑な要素の指定は翻訳中に解消されるため、訳文でそれらがどこに当てはまるのか、コンテンツ翻訳機能が判断しなければなりません。 これらの要素を戻す作業は常に正確ではなく、挿入の位置が間違っていたり、文の正しくない部分に配置されることがあります。
  • 出典やテンプレートなど、複雑な要素は当てはまる構造が言語によって異なる場合があり、コンテンツをある言語から別の言語に引き移す作業を難しくしています。 それら要素の重要な情報が欠けていないか、内部の正確さをかならず査読してください。

機械翻訳の出力を査読するよう促す

自動的に翻訳の初稿を査読するように促す仕組みが複数あります。 これらのツールは、自動翻訳を使った初稿が必ず十分に査読を受けてから、その後に公開されるように確認します。