コンテンツ翻訳/機械翻訳/Google翻訳
コンテンツ翻訳機能で使える機械翻訳サポートが拡充されました。 コンテンツ翻訳機能で利用できる機械翻訳システム(MT=Machine Translation)にはこれまであったApertium、LingoCloud、Matxin、Yandex、Youdaoに加え、Google Translate が使えるようになりました。 これにより対応言語は 100 超に増え、中にはこれまで既存のシステムでは未対応だった言語もたくさんあります。
Google Translate はGoogle – アメリカに本拠を置く多国籍企業より提供を受けます。 ウィキメディア財団とグーグル社内のさまざまなチームが協力し、権利の帰属、利用者の個人情報保護、ブランド表現といったウィキペディアの方針を損なうことなく、Google 翻訳を使用できるようにするための協定をまとめました。 契約の詳細は 下記 をご参照いただき、このサービスに関する質問はぜひお問い合わせください。
主な機能
- Google Translate には個人情報は一切わたりません。 MT システムへのアクセスは Google cloud サービス経由で成立します。 記事のコンテンツ(フリーライセンスの対象) はウィキメディア財団のサーバから Google のサーバへ送ります。 ユーザーと外部リンサービスは直接のやりとりをせず、一切の個人情報(IPアドレスと利用者名)は Google サーバに送信されません。 clientはオープンソースとして Google サーバにつながり、こちらで確認できます。 Google 側の一切のサービスもしくはコードはウィキメディアのインフラあるいはコンテンツ翻訳のコードベースに属しません。 細部については、この節の末尾に図がありますのでご参照ください。(訳注: コンテンツ翻訳の技術的構造 )
- Google Translate からフリーライセンスのもと、情報を返してきます。 Google Translate の利用により、ウィキペディアのコンテンツの翻訳文はフリーライセンスのもと翻訳されます。 利用者は既存の方針との衝突なく、それを修正しウィキペディアの一部として公開できます。 Google Translate によるコンテンツの翻訳文ならびにユーザーが加えた改変は、ウィキペディア全般に適用されるライセンスと同等の条件で利用可能です。
- より広汎なオープンソースの翻訳コミュニティの役に立ちます。 Google Translate から翻訳文が返り、ユーザーが加えた改変とともに公開されます。 翻訳研究コミュニティはユーザーの編集が加わった翻訳文に注目しており、これを資源とすると、まだオープンソースの機械翻訳サービスを利用できない言語に向けた新規の翻訳サービスの創出に役立てることができます。 これは開発者にとって、機械翻訳システムの創出や改善に役立つものです。
- 利用者は無効化できます。 自動翻訳はコンテンツ翻訳のツールとしてはあくまでもオプションです。 なにかの理由で不便だと感じたら、無効にする選択肢があります。 大勢のコンテンツ翻訳ユーザーの皆さんからこな翻訳サービス導入のご要望がありましたが、個人の判断で使うか使わないか選択してください。
Googleとの同意の要約
Google の責務
- ウィキメディア財団が翻訳 API キーを無償で使えるようにして、ウィキメディアのサイト群で文字数の制限を受けずにボランティアが記事を翻訳できるようにします。
ウィキメディア財団の責務
- 翻訳ツールが訳してボランティアが編集した版を、Google のツール改善に提供
- 翻訳者の個人情報は一切、共有しません。
- Google には、翻訳元のコンテンツ、その言語と訳出する言語のペアのみ送信します。
- コンテンツ翻訳を利用した翻訳者が公開した訳文は、機械翻訳サービスの補助を受けても受けなくても API を経由してparallel corpora の形式で提供します。 これらのAPI は繰り返し開発され、ぞの成果は Google に限らず誰でも自由に利用できるものとします。
重要な注記
- コンテンツはすべてクリエイティブ・コモンズ表示 - 継承 3.0 非移植 (CC BY-SA 3.0) のライセンスが継続します。
- Google はウィキメディアのサイト群に対して、翻訳インターフェースのドロップダウンメニューから Google 翻訳を選べるようにするほかは、いかなる「ブランディング」も条件にしていません。
- ボランティアの個人情報を提供することはありません
- 同意事項は1年の期限を設け、私たちのニーズを再評価するタイミングとします
- 私たちには同意事項をいつでもどんな理由でも終了させる自由があります
- 同意事項はアメリカ合衆国の法規の統治を受けます
サービスに関する質問
Google に特化した質問をこの節に掲載します。 同文をコンテンツ翻訳のよくある質問ページにも掲載します。
Googleで使用できる言語と追加の予定
Google Translate の翻訳原文は英語を除外して対象言語全てで利用できます。英語版では現状、一切の機械翻訳を使用できません。
Google Translate と Apertium では使い方などに違いはありますか?
コンテンツ翻訳を使う限り、翻訳インターフェース上で何の違いも感じないはずで、サポートする言語に関して Google Translate も Apertium と同じ形式で翻訳済みのコンテンツを表示します。
Google Translate を選ぶと機械翻訳の作業はどう進みますか?
Google Translate からAPI キーを受け取ると、ウェブサイトその他のサービスから先方の翻訳システムが使えます。 コンテンツ翻訳もまた、その固有の API キーを使って Google Cloud サービスに接続し Google Translate を利用します。 利用者が特定の記事の翻訳を始めると、翻訳原文のそれぞれの節から HTML コンテンツを Google Translate に送り、翻訳文を取得するとコンテンツ翻訳の対応する訳文欄に表示します。 内部リンクと出典もいつも通りに適用され、利用者は必要に応じてそのコンテンツを改変できます。
こうして同じ手順で、翻訳原文の全ての翻訳単位の処理が進みます。 パフォーメンス向上のため、翻訳原文の次の節はあらかじめ取り込みを行います。 ユーザーは未公開の翻訳を保存(後ほど作業を再開するため)もしくは通常の手順で記事として公開できます。 記事は通常の記事と同様、継承を示し適切なライセンスのもとウィキペディアに公開されます。
手順を示す図はこちらをご参照ください。
Google Translate そのものはオープンソースのソフトウェアではないのに、なぜ使用できるんですか?
コンテンツ翻訳ツールはウィキペディアの言語版ごとに存在するコンテンツ量の格差を解消するという長年のニーズから発生しました。 ウィキメディアのサイト群で採用するすべてのソフトウェア同様、コンテンツ翻訳機能もオープンソースです。 この固有の事例においても、オープンソースのクライアントを使って外部サービスとのやりとりを実行し、フリーにライセンスされたコンテンツをインポートして、私たちのフリーな知識を拡充する利用者を支援します。
Google 翻訳の使用に関し、コンテンツ翻訳ツールのコードもしくはウィキメディアのウェブサイトあるいはサーバに、いかなる独占的な(プロプライエタリーな)ソフトウェアも追加しません。 サービスは無料で利用でき、Google からウィキメディア財団への貢献の一部です。
Google 翻訳へ送信する対象はウィキペディアの記事のフリーに提供できる(断片化した)コンテンツに限定され、取得した翻訳後のコンテンツはウィキペディアの複数ページに無料で使用できます。 利用者は翻訳後のコンテンツを修正することを認められ、このデータもコンテンツ翻訳 API を介してフリーなライセンスのもとにこうかいされます。 これはまだサービスが提供されていない言語に対し、コミュニティの利用に提供されてオープンソースの翻訳サービス開発に使える価値あるリソースです。
含意を慎重に検討した結果、以前に非公開のソースサービスに保存されたコンテンツがあっても、現在も将来も、私たちの知識の自由あるいはソフトウェアを制限しないことがわかりました。 特段の注意を払い、提供されたコンテンツがフリーなライセンスであること、ウィキペディアの方針に合致することを確認しました。 これには法務と技術の評価、コンプライアンス確保の長い過程を含みます。 上記に私たちの合意事項の概要を掲載してあります。
利用者のフィードバックに基づいて、利用者が機械翻訳サポートをたいへん便利に使っていることが分かり、最善の方法ですべての言語で提要したいと考えます。 ウィキメディア財団の resolution 方針に準じてフリーでオープンソースのソフトウェアを支援し、特定の言語に対応するオープンソースのサービスが利用可能になった場合は統合を優先します。 これまで Apertium はコンテンツ翻訳の創出以来、中核の部分を担ってきましたが、現状では多数ある言語の組み合わせのうち、およそ30言語の機械翻訳を提供するのみです。
Google Translate を使うときに自分の個人情報に危惧はありますか?
利用するサービスに関わらず、送信対象はウィキペディアの既存の記事の内容のみであり、訳文にはライセンスフリーの内容のみ戻されます。 一切の個人情報は収集されず、外部サービスとのやり取りはサーバ側で行われ、利用者の使用機器とは隔離されます。 詳細はこちらの図をご参照ください。
もしも機械翻訳ツールがGoogle Translate しか使えない状況なのに、これを使いたくない場合は?
コンテンツ翻訳における機械翻訳(MT)はツールの選択肢であって、自分の意思で簡単に無効にできます。 ご使用の言語で使えるMTがさらに追加された時点で、再度この機能を有効にして、どのサービスを利用するか指定できます。
ウィキペディアでGoogleの機械翻訳を使うのは無料ですか?
無料です。Google Translate を介した翻訳するはウェブ上の翻訳プラットフォームで既に無償提供されています。 APIキーを用いてサービスとつなぎ、翻訳インターフェイスでシームレスに使えるようにします。 利用者はこうして得た内容を(必要に応じて)改変し、ライセンスフリーの条件でウィキペディアの記事(複数)に使用できます。
この内容を機械翻訳システム全般の改良に利用できますか?
可能です。コンテンツ翻訳で作成した翻訳はウィキメディアのデータベースに保存します。 この情報は全ての人に公開し翻訳サービスの向上に使える翻訳サンプルとして利用できるようにします(大学研究グループからオープンソースのプロジェクト、商用の事業者まで誰でも対象です。) コンテンツはコンテンツ翻訳 API経由で利用可能。 留意点として、公開は翻訳済みの文に関連する情報に限定されます。 これに含まれるのは – 翻訳原文と訳文、翻訳原文と訳文それぞれの言語情報、文の断片に付与された識別子です。
関連項目
- Project Glow FAQ - ウィキメディア財団の良くある質問 - Google との提携関係
- インド諸語のウィキペディア支援プログラム - ウィキメディア財団と Google の提携により、特定のパイロット事業で Centre for Internet and Society (CIS)、ウィキメディアのインド協会WMIN=Wikimedia India chapter)ならびに利用者グループとともにウィキペディアのコミュニティ群でローカルの事情に即したインド諸語の高品質なコンテンツ作成を支援します。この事業は通称をプロジェクト・タイガーとします。
- コンテンツ翻訳関連のよくある質問
- さらに機械翻訳サービスを増やす Phabricator タスク