コンテンツ翻訳/機械翻訳/Youdao

This page is a translated version of the page Content translation/Machine Translation/Youdao and the translation is 96% complete.

2016年10月31日より機械翻訳システムYoudaoを導入、ウィキペディアのコンテンツ翻訳に利用できるようになりました。

Youdao は中国のインターネット サービス会社である網易 (NetEase) が提供しています。 同社とウィキメディア財団法務部門は協議の結果、ウィキペディアにおける権利帰属の方針や利用者のプライバシー、ブランドイメージを傷つけることなく Youdao の利用を認める契約に至りました。 契約条件のまとめを以下に示し、このサービスに関する皆さんのご質問をお待ちしています。 この件は中国語版ウィキペディアのコミュニティでも支持されました。

主な機能

  • Youdaoは一切の個人情報を収集しません。 機械翻訳システムへは誰でもアクセス可能なAPIキーを介してアクセスします(リンク先の内容は中国語表記)。 記事の内容(ライセンスフリー)はウィキメディアサーバからYoudao サーバに送ります。 利用者と外部サービス間に直接のやりとりは発生せず、ウィキペディアの内容に伴って一切の個人情報(IPアドレスや利用者名)はYoudaoのサーバに送りません。 Youdaoサーバに接続するクライアントサーバはオープンソースであり、こちらから確認できます。 一切のYoudaoのサービスもしくはコード派ウィキメディアの構成あるいはコンテンツ翻訳コードベースの一部となりません。
  • Youdaoからの情報は、引き続き自由なライセンスの下で提供されます。 Youdaoのサービスを使用する際には、彼らは自由なライセンスを保持したまま、ウィキペディアのコンテンツの翻訳版を提供します。 利用者は既存の方針との衝突なく、それを修正しウィキペディアの一部として公開できます。 Youdaoの翻訳と利用者の変更の成果物は、ウィキペディアの他の記事と同じライセンスの下で利用可能になります。
  • より広範なオープンソース翻訳コミュニティに利益をもたらします。 Youdao から得られた翻訳と利用者による修正は、一般に公開されます。 翻訳の後編集は、翻訳研究コミュニティにとって特に興味深いものであり、このリソースを活用して、オープンソースの機械翻訳がまだ利用できない言語をサポートする新しい翻訳サービスを作成できます。 これにより、開発者は機械翻訳システムを作成し、改善するのに役立ちます。
  • コンテンツ翻訳において自動翻訳はあくまでもツールの選択肢です。 利用者は、何らかの理由で有用でないと感じる場合、無効にできます。 利用者は個人設定で、このサービスを使用するか、他の利用可能なサービスを選択するか、または機械翻訳サービスを使用しないかを自分で決定できます。

 

既知の問題点

Youdao 機械翻訳サービスでは HTML など書式付きテキストは翻訳の対象外です。 平文の内容を翻訳して平文で出力します。 通常、コンテンツ翻訳では平文出力にマークアップを戻すところ、中国語訳には文から単語 (sentence to words) の重要なトークン化 (tokenization) が適用されないためマークアップ復元は行いません。 したがって編集者は翻訳を平文で受け取り、一切のリンクや参考文献などは翻訳作業の一環として手作業で加える必要があります。

Youdao との契約の概要

Youdaoの義務

  • API キーを無料でウィキメディア財団にライセンス付けして、ウィキメディアのサイトでボランティアが記事を翻訳できるようにすること。
  • リクエストごとに最大4,000文字、1日あたり最大10,000,000文字までの翻訳をボランティアに許可すること (一般公開のオプションよりもはるかに多い量)。
  • 送信されたリクエストの文字数の統計データをウィキメディアに提供すること。
  • To allow volunteers to translate up to four thousand characters per request and ten million characters per day (much more than their publicly available option)
  • To give Wikimedia statistical data on the quantity of characters in the requests sent

ウィキメディア財団の義務

  • 翻訳ツールによって翻訳されたテキストのボランティアによる編集バージョンを提供し、Youdao がツールを改善できるようにすること。
    • 翻訳者の個人データは共有されません。
    • 現時点では、Youdao に対してリクエストで送信されるのは翻訳元のコンテンツ、その言語、および翻訳先の言語のみです。
    • 翻訳者によって公開された翻訳 (機械翻訳サービスの支援の有無に関わらず) は、コンテンツ翻訳 API によって平行コーパスの形式で提供されます。 これらの API は段階的に開発され、結果は Youdao だけでなく、誰でも無料で利用できるようになります。

重要事項

  • すべてのコンテンツは引き続き CC BY-SA 3.0 の下でライセンスされます。
  • Youdao は、翻訳インターファイスのドロップダウン メニューに翻訳ツールの選択肢として Youdao を列挙する以外、ウィキメディア サイトに対して「ブランディング」を要求していません。
  • 利用者の個人情報の交換はありません。
  • この契約は1年間に限定されており、その後に必要性を再評価できます。
  • 私たちはいつでも (30日の通知期間を持って) 任意の理由で契約を解除できます。
  • この契約はアメリカ合衆国法に従います。

サービスに関する質問

この節ではYoudaoに関する当面の問題を取り上げます。Content Translation FAQ(英語)のページに他の情報を提供しています。

Youdaoで使用できる言語と追加の予定

現在はコンテンツ翻訳でページを作成する利用者は中国語に対して英語、フランス語、日本語、朝鮮語、ポルトガル語、ロシア語、スペイン語を利用できます。 Youdaoの対象言語の拡張に合わせ、今後、コンテンツ翻訳に取り入れるかどうか検討します。 注記:Youdao機械翻訳を使って中国語版から英語版の新規記事作成はできません。

Youdao は他の機械翻訳システムと利用にどんな違いがありますか?

Youdaoの翻訳結果表示はApertiumあるいはYandexによく似ているため、コンテンツ翻訳の利用者は翻訳インターフェイス自体には違和感を感じないでしょう。 しかしながら書式付きテキスト(リッチテキスト)をサポートしないというYoudaoの現状の制限により、リンクや出典などは手動で適用する必要があります。

Youdaoを使用すると機械翻訳の作業はどう進みますか?

Youdaoが無料で提供するAPIキーを使うと、ウェブサイトやその他のサービスから翻訳システムを利用できます。 コンテンツ翻訳にもYoudaoサーバ上でサービスにアクセスする独自のAPIキーがあります。 利用者が記事の翻訳を始めると翻訳原文の各節ごとにHTMLの内容がYoudaoサーバに送信され、翻訳結果の出力は当該のコンテンツ翻訳機能が受け取って訳文の欄に表示します。 リンクや出典は通常どおり適用され、利用者は必要に応じて内容を改変します。

この工程が翻訳対象の記事の節すべてに対して続きます。あらかじめ一続きの節をまとめて取り込み処理能力を向上させています。 利用者は通常どおり記事を公開するほか、(作業を後で再開するため)未公開の翻訳を保存できます。 記事は通常の記事同様、該当する権利の帰属とライセンスのもとにウィキペディアに公開されます。

処理の流れ図はこちら

オープンソースのソフトウェアに基づかないのに、Youdaoを利用する理由は?

コンテンツ翻訳はウィキペディアにおける使用言語間の内容量の差を埋めるという長年のニーズに対応するために生まれました。

ウィキメディアのサイト群で使用される他のソフトウェアすべてがそうであるように、コンテンツ翻訳もオープンソースです。このページで取り上げる事例でも外部サービスとのやりとりとライセンスフリーの内容を読み込むためにオープンソースのクライアントを使い、フリーな知識を拡大する利用者を補助しています。

Yandexと同様に、Youdaoの機械翻訳システムとの取り組みで一切の知的所有権の独占的な(プロプライエタリな)ソフトウェアをコンテンツ翻訳コードにも、あるいはウィキメディアのウェブサイトやサーバにも追加しません。 サービスの利用は無料で誰でも使うことができます。

Youdaoサービスに送信する対象は、ウィキペディアの記事から無料で使用できる内容(を断片化したもの)に限定し、入手する翻訳結果も同様にウィキペディアのページで無料で使用できます。 利用者は訳出した内容の改変を認められ、そのデータもやはりライセンスフリーでコンテンツ翻訳APIを介して公開されます。 この価値のある資源を利用すると、コミュニティはオープンソースの翻訳サービスを開発し、未提供の言語に提供できます。

その意味を慎重に検討した結果、事実としてコンテンツが以前に非公開のソースサービスに保存された経緯があっても、知識やソフトウェアの現在または将来の自由を制限するものではないと判明しました。 翻訳後のコンテンツがフリーのライセンスを維持し、ウィキペディアの方針に準拠するよう、特に注意を払っています。 これには長いプロセスが関わり、法的および技術的な評価とコンプライアンス維持に対処します。 利用規約の概要も参照できます。

利用者のフィードバックから、機械翻訳による支援は大変に利用者の役に立っていることがわかり、どの言語も最善の方法でサポートしたいと考えています。 principles of Wikimedia Foundation's resolution(ウィキメディア財団の決議の原則)に沿ってオープンソースの無料ソフトウェア支援を進め、特定の言語に対し利用可能になったオープンソースのサービスはいつでも優先的に統合します。 コンテンツ翻訳の導入以来、機械翻訳プラットフォームApertiumは常に核心にあり、現状でウィキペディアが支援する言語対(翻訳原文と翻訳文の言語の組み合わせ)は70近く提供しています。 2015年11月のYandex導入により70言語を追加して以来、それまでコンテンツ翻訳でこのような利便性を使用できなかった利用者のさらに大きなグループを補助できるようになりました。

Youdaoを使うときに自分の個人情報に危惧はありますか?

利用するサービスに関わらず、送信対象はウィキペディアの既存の記事の内容のみであり、訳文にはライセンスフリーの内容のみ戻されます。 一切の個人情報は収集されず、外部サービスとのやり取りはサーバ側で行われ、利用者の使用機器とは隔離されます。 詳細はこちらの図をご参照ください。

もしも機械翻訳ツールがYoudaoしか使えない状況なのに、これを使いたくない場合は?

コンテンツ翻訳における機械翻訳(MT)はツールの選択肢であって、自分の意思で簡単に無効にできます。 ご使用の言語で使えるMTがさらに追加された時点で、再度この機能を有効にして利用するサービスを指定できます。

ウィキペディアでYoudaoの機械翻訳を使うのは無料ですか?

はい。 Youdaoを介してウィキペディアの内容を翻訳するとYoudaoの翻訳プラットフォームで無料で利用できます。 そこからAPIキーを用いて訳文を受けると、コンテンツ翻訳機能はシームレスに翻訳インターフェイスで使えるようにします。 利用者はこうして得た内容を(必要に応じて)改変し、ライセンスフリーの条件でウィキペディアの他の記事に使用できます。

この内容を機械翻訳全般の改良に利用できますか?

可能です。コンテンツ翻訳で作成した翻訳はウィキメディアのデータベースに保存します。 この情報は全ての人に公開されることから、翻訳例を皆さんの翻訳サービス改善に利用できます(大学研究グループから商用目的のオープンソースプロジェクトまですべて含みます)。 内容はコンテンツ翻訳APIを介して入手します。 ただし公開の対象は翻訳文に関する情報に限定されます。 その情報の範囲には – 翻訳の原文と訳文、翻訳原文の言語と訳出した言語、さらに文の断片識別子を含みます。