Help:コンテンツ翻訳/翻訳する/翻訳の品質

This page is a translated version of the page Help:Content translation/Translating/Translation quality and the translation is 100% complete.

翻訳版を作成するには、公開前に内容の校正が欠かせません。 当該の原文の意味を取り違えていないこと、また訳出した言語で自然に読めるかどうか確認しなければなりません。 先に機械翻訳にかけると翻訳作業のスピードアップに役立つ最初のコンテンツ〔訳注:一次翻訳〕は用意されますが、ツール利用者にはそのコンテンツを十分に再検討し編集するよう求められています。

翻訳者が一次翻訳を適切に編集できるよう、異なるメカニズムを用意しました。 翻訳編集機能により利用者がどの程度、一次翻訳を修正したか記録し、複数の限度に照らして公開を防止するか、利用者に警告を表示して内容をさらに吟味するよう促します。

機械翻訳をたくみに操る利用者に対し、ツールはこの手順で翻訳機能を提供し、再検討が足りない質の低い翻訳の作成を防止できます。 前述の限度の有効性の詳細は、各言語のニーズに適応させる調整法、ツールを使って作成したコンテンツの質の評価法を含め下記をご参照ください。

制限を設けて一次翻訳の再検討を呼びかける

コンテンツ翻訳は自動翻訳が提供する一次翻訳に、利用者が加えた修正の割合を測定します。 この方法は一次翻訳の翻訳において加筆・削除もしくは書き換えられた文字数をシステムに把握させます。 これらの測定値は異なる2段階で取得します。単文単位と訳文全体の2レベルです。 どちらのレベルにも異なる制限が設定され、下記に詳細を示します。

訳文全体の制限

 
エラーの警告。機械翻訳に加えた修正が少なすぎるときに表示される。 インドネシア語版の編集者から集めたフィードバックで調整した閾(しきい)値。

文書全体の 99% 以上が、機械翻訳されたコンテンツから未変更の場合、公開はブロックされます。 この制限により、生に近い機械翻訳が防止され、明白な荒らし行為が回避されます。 また、利用者が機械翻訳部分を編集しないままコンテンツを追加することを防ぎます。 下記の説明のとおり、この制限は言語版単位で調整できます。

単文単位の制限

 
特定の文を対象にした警告。未編集の機械翻訳の割合が、制限値を超えたことを示す。

単文単位で一次翻訳に加えた修正の割合も測定されます。 特定の段落にある一次翻訳のままの部分が 85% 超の場合、問題のある段落とされます (もしくは翻訳原文からコピーした内容を使うのが当然の場合、変更しない部分が 60% 超の場合。)

翻訳エディタは問題があると見られる単文単位で警告を表示し、利用者にその編集を促します。 場合によっては、利用者がそのまま訳文を公開できますが、そのページは吟味していない翻訳として追跡カテゴリに追加され、コミュニティの再評価を待つことになる可能性があります。 それを除くと、利用者は訳文の公開を認められません。

下記は利用者にコンテンツ翻訳の結果を公開させるかどうか校了する条件の一部です (なかには開発中のものを含みます。)

  • 問題のある段落の数。問題のある段落が50件超あると、利用者は訳文を公開できません。 問題のある段落が50件より少ない場合、利用者は訳文を公開できますが、訳文に問題のある段落が10件から49件のあいだだと、コミュニティが再検討できるように、吟味していない翻訳の可能性があるとして追跡カテゴリに加えられます。
  • 以前に翻訳が削除された。問題が再発するのを防ぐために、ツールは、公開された翻訳が過去30日間に削除された利用者を識別し、その後の翻訳作業にはるかに厳しい制限を課します。 その場合、問題のある段落10件超で公開ができず、同様に9件以下で吟味していない翻訳の可能性があるものの追跡カテゴリに追加されます。
  • 利用者の確認。利用者が段落を解決済みとマークすると、利用者がその訳文の状態を吟味した印として、厳格さがゆるめの閾値を設定できます。 もし未編集の警告を表示された段落に利用者が解決済みとマークすると、より厳格さの低い閾値を適用します (解決済み部分の 95% 以下が機械翻訳もしくは原文の内容を転記した部分が 75% 以下の場合)。 これにより、機械翻訳が想定以上に良質だった場合を容認することができ、なおかつコンテンツ翻訳機能の悪用の可能性を防止できます (利用者の確認済み処理を鵜呑みにしないなど)。

制限の影響を受けないコンテンツ

コンテンツの中には、大幅な編集を想定しないものがあり、それらは上記の制限の対象外です。 非常に短い節見出しや出典、あるいは出典一覧はチェック対象から除外されます。 さもないと、参考文献の題名その他の固有名詞など本来は翻訳するべきではないコンテンツにまで翻訳に関する警告を受け、利用者の誤解を招く恐れがあります。

制限の調整

上記に説明した制限により一般的な仕組みは提供されるものの、個別のウィキ固有のニーズにあわせて調整する必要があります。 最初の評価に基づき、機械翻訳による一次翻訳に加えるべき修正の量は、言語の組み合わせにもよりますが 10% から 70% と幅があります。 あるウィキでは規定の制限では厳しすぎて、不要なノイズを発生させたり、完璧に有効な翻訳の公開を妨害する可能性があります。 その他のウィキで規定の制限がゆるすぎて、きちんと編集しないまま翻訳を公開できてしまうかもしれません。

さまざまなしきい値を調整することで、各ウィキは特定のニーズに応じてツールの制限を調整できます。 制限をきちんと調整するには、それぞれの言語を母語とする人々のフィードバックが不可欠です。 翻訳を作成したり評価したりするときに、現在の制限がうまく機能していないと判断された場合は、ぜひ皆さんのフィードバックを投稿していただき、こちらで調整の改善を探らせてください。

閾値の調整に関するフィードバックをする場合、訳例をいくつか作るようお勧めします (もしそのテスト版を通常のコンテンツとして公開する必要がないなら公開先の選択肢を確認してください。) ご使用の言語で制限が有効かどうかテストするには、次の条件を意識することをお勧めします。

  • 両方の場合の検討。翻訳において訳文が十分に編集されていない部分と同時に、編集が行き届いた部分でも制限が有効かどうか、どちらも検討します。 この方法は、ツールの制限値をよりよく調整しやすくします。 片方の問題だけ検討しては、閾値を適正範囲から反対方向に強めすぎる傾向があります。
  • 異なるコンテンツでテストする。ウィキ群の内容は非常に多岐にわたり、事例によっては機械翻訳に適合する可能性があります。 例として、より説明的な文よりも数値データもしくは専門用語が多用されたコンテンツのほうが、利用者による編集は少なくて済む場合があります。 テストをするには、内容や長さが異なるさまざまなタイプの記事を翻訳してください。
  • 検証を反復する。閾値を調整するとはプロセスの反復を伴います。 閾値を特別に調整するか、利用者自身がアプローチ全般を改善する必要があるかもしれません。 いずれにせよ、それぞれの変更後には、実行した改善点の検証にテストを重ねる必要があるかもしれません。

前例により、制限値は編集者と共同で調整すると効果的だと示されています。 例として初期調査の結果を見ると、インドネシア語版のコミュニティでは問題のある翻訳が投稿されても、未修正の機械翻訳を 70% 超含む訳文の公開を制限し、その件数を有意に減らすことに成功しました。 テルグ語版とアッサム語版でも同様の調整を行いました。 絶対に確実な自動ツールがないのと同様に、これらの制限もその例外ではありません。

コミュニティによるコンテンツの査読プロセスはあくまでも重要であり、コミュニティの注力を求める翻訳の件数を絞り込むひとつのツールとして、これらの制限値は査読プロセスそのものを効率化します。 ぜひ皆さんのフィードバックを共有していただき、ともに調整の改善を探りましょう。

未査読かもしれない翻訳を追跡する

「cx-unreviewed-translation-category」という名称の追跡カテゴリを利用すると、コミュニティにとって、推奨される制限を超過したコンテンツを含んだまま公開された記事が見つかりやすくなります。

このカテゴリを探すには、それぞれのウィキの追跡カテゴリ一覧を調べてください。 そのカテゴリを使うと、公開を防止する制限には適合するものの、想定よりも編集が足りない段落を含んだまま公開された記事の追跡ができます。 例としてインドネシア語版ウィキペディアのカテゴリにある記事では機械翻訳は平均 40% 以下ですが、段落によっては 80% が機械翻訳のまま編集してありません。

翻訳品質の測定

コンテンツの品質評価の自動化は簡単ではありません。 削除率を目安にすると、生成されたコンテンツで編集者のコミュニティによって削除されなかったものは、その程度の質は備えていると推定できます。 削除率の分析によると、翻訳により作成された記事はゼロから書き起こした記事と比較すると、削除率が比較的低いのです。 このことから、ほかの方法で記事を作成するよりも翻訳に対し、高い率で参加に制限を設けることは実際的ではないとも示唆されます。

公開済みの翻訳を検索

コンテンツ翻訳は、公開された翻訳に「contenttranslation」編集タグを追加します。これにより、コミュニティは最近の更新や同様のツールを使用して、翻訳ツールを使用して作成されたページに集中できます。 その上、公開された翻訳に関するデータならびに機械翻訳利用率の統計値は公開して誰でも解析できるようにしてあります。

特定の翻訳を検査する

翻訳デバグのサンプル

翻訳デバグツール Translation debugger とは 特定の翻訳に紐付けされたメタデータを検査するツールで、特定の文書全文を対象に機械翻訳の出力の百分率を割り出したり、文単位で使用した翻訳サービスを検知したりできます。

利用者体験のその他の制限

 
利用者体験に基づき、エラーを警告して公開の制限を告げる画面。 このサンプルは、名前空間への直接の公開を自動承認された利用者に制限するとした、英語版ウィキペディアのコミュニティの決定に基づきました。

ウィキにより質の低い翻訳作成を減らす方策として、利用者の権利によって翻訳に追加の規制を加えているところがあります。 たとえば英語版ウィキペディアでは自動承認された利用者に制限し、英語版ウィキペディアで編集500回以上の経歴がないと、記事の翻訳が認められません。 編集初学者にもUser:もしくはDraft:名前空間に翻訳を公開することはでき、その後、記事名前空間に記事を移動することができます。

以上は、このページで説明する制限法ができる以前の話で、これらは、質の高い翻訳作成を促すお勧めの方法ではありません。

作成されるコンテンツに考慮しない制限を設ける前に、上記に説明したとおり、未編集のコンテンツを制限する手順を検討してください。 その制限は質の低い翻訳予防に必要なだけ厳格にしつつ、良質な翻訳を作成して公開する道を編集者に残すこともできます。