MinT
MinT (Machine in Translation) ialah perkhidmatan terjemahan mesin berdasarkan model terjemahan mesin saraf sumber terbuka. Perkhidmatan ini dihoskan dalam infrastruktur Yayasan Wikimedia, dan ia menjalankan model terjemahan yang telah dikeluarkan oleh organisasi lain dengan lesen sumber terbuka. Perkhidmatan terjemahan mesin terbuka boleh menjadi bahagian utama infrastruktur penting ekosistem pengetahuan percuma. Halaman ini merakamkan inisiatif untuk mempertingkatkan perkhidmatan dan menjadikan infrastruktur ini tersedia dengan lebih meluas.
Anda boleh mencuba MinT sebagai sebahagian daripada projek seperti Terjemahan Kandungan dan translatewiki.net, atau secara langsung dalam contoh ujian.
Overview of MinT initiatives
Machine translation can be useful in different contexts. As more products make use of MinT for different purposes, it is useful to differentiate those different contexts. In this way, when users report a bug it is more clear where it needs to be fixed.
- MinT Service. The backend service running open-source neural machine translation models.
- MinT test instance. A basic interface to try the different translation models.
- MinT for Translators. Initiative to integrate the MinT Service with tools that support other machine translaiton services such as Content Translation and the Translate Extension.
- MinT Client for Content Translation. Client exposing the MinT Service as one of the machine translation services available in Content Translation.
- MinT Client for Translate extension. Client exposing the MinT Service as one of the machine translation services available in the Translate extension.
- MinT for Wiki Readers. Product to enable readers to use machine translation to read contents from other languages on a wiki.
You can read more below about each of the MinT initiatives.
Terlibat
Jangan ragu untuk berkongsi sebarang maklum balas dalam halaman perbincangan. Pembaikan yang dirancang dirakam dalam Phabricator (maklumat lanjut), anda boleh melaporkan tingkah laku yang salah atau mencadangkan peningkatan ciri, menjejaki kemajuan sebarang tugasan dan berkongsi anda perspektif mengenainya. Untuk kerja yang telah selesai, anda juga boleh menyemak kemas kini status di bawah.
Perkhidmatan MinT
Perkhidmatan MinT direka untuk menyediakan terjemahan daripada pelbagai model terjemahan mesin. Pada masa ini, ia menggunakan model berikut:
- NLLB-200. Model terbaru daripada [1] oleh pasukan penyelidik di Meta. Model ini menyokong terjemahan merentas 200 bahasa, termasuk kebanyakan bahasa yang tidak disokong oleh vendor lain.
- OpusMT. [2] daripada Universiti Helsinki menyusun kandungan berbilang bahasa dengan lesen percuma untuk melatih model terjemahan OpusMT. Sesiapa sahaja boleh membantu meningkatkan kualiti terjemahan dengan mudah dengan mengambil bahagian dalam projek berbeza yang menyumbang data kepada OPUS. Sebagai contoh, apabila menggunakan Terjemahan Kandungan untuk membuat terjemahan artikel Wikipedia, data pada terjemahan yang diterbitkan akan digabungkan sebagai sumber baharu untuk meningkatkan kualiti terjemahan untuk versi model seterusnya. . Satu lagi cara pantas untuk menyumbang ialah menyediakan terjemahan ayat dengan [3].
- IndicTrans2. Projek IndicTrans2 menyediakan [$model terjemahan url] untuk menyokong daripada 20 bahasa Indic. Model-model ini telah dibangunkan oleh AI4Bharat@IIT Madras, sebuah kumpulan penyelidikan di Institut Teknologi India, Madras.
- Softcatalà. Softcatalà ialah organisasi bukan untung dengan matlamat untuk meningkatkan penggunaan Catalan dalam produk digital. Sebagai sebahagian daripada [projek Terjemahan Softcatalà https://github.com/Softcatala/nmt-softcatala], model terjemahan yang digunakan dalam perkhidmatan penterjemah mereka untuk menterjemah 10 bahasa ke dan dari Catalan telah dikeluarkan.
- MADLAD-400. MADLAD-400 is a multilingual machine translation model by Google Research that supports 419 languages.
MinT menyokong lebih 200 bahasa, dengan lebih daripada 70 bahasa tidak disokong oleh perkhidmatan lain (termasuk 27 bahasa yang belum ada Wikipedia lagi). Anda boleh membaca lebih lanjut tentang keluaran awal MinT dan menyemak beberapa soalan lazim dalam halaman ringkasan untuk perkhidmatan.
Butiran teknikal
Model terjemahan telah dioptimumkan untuk prestasi menggunakan OpenNMT Ctranslate2 library untuk mengelakkan keperluan untuk pecutan GPU. Ini memudahkan organisasi dan individu membina dan menjalankan kejadian mereka sendiri. Untuk butiran lanjut anda boleh menyemak perkara berikut:
MinT menyediakan platform untuk menjalankan pelbagai model terjemahan. Untuk menyokong inisiatif yang berbeza, aspek seperti pembahagian ayat, pengesanan bahasa, pra/pasca pemprosesan kandungan dan sokongan format kaya telah dibangunkan di atas model berasaskan teks biasa.
Test instance
The MinT test instance is a basic interface to try the different translation models. It allow to translate contents across the selected language pairs and select the preferred translation model when multiple are available. This allows different communities to check how well the models support their language. This instance is intended for testing, so performance and availability may be reduced compared to other MinT-based products. You can check the availability status of the MinT test instance.
MinT untuk penterjemah
Terjemahan ialah cara biasa untuk menyumbang dalam ekosistem Wikimedia untuk pengguna berbilang bahasa. Terjemahan mesin boleh menyediakan terjemahan awal yang berguna untuk pengguna menyemak dan menambah baik. Pasukan Bahasa telah membangunkan alat untuk menyokong terjemahan dalam aliran kerja mereka yang boleh menyepadukan perkhidmatan terjemahan mesin yang berbeza untuk mempercepatkan proses mereka. Setelah MinT tersedia, menyepadukannya dengan alatan ini merupakan langkah seterusnya yang logik untuk menguatkan impaknya. MinT tersedia dalam projek berikut:
- Terjemahan Kandungan. Terjemahan Kandungan menyediakan panduan untuk mencipta terjemahan artikel Wikipedia ke dalam bahasa lain. Terjemahan Kandungan menyatukan beberapa perkhidmatan terjemahan untuk menyediakan terjemahan awal. You can check which languages supported by MinT are available in Content Translation
- Infrastruktur penyetempatan. sambungan terjemah menyediakan infrastruktur yang digunakan untuk menterjemah perisian dan halaman berbilang bahasa kami. Komuniti penterjemah menggunakannya pada translatewiki.net, Wikimedia Meta-wiki, MediaWiki.org dan banyak lagi.
MinT untuk pembaca wiki
Bilangan topik dan jumlah maklumat yang boleh dipelajari oleh pembaca daripada Wikipedia dan wiki lain bergantung pada bahasa yang mereka pertuturkan. Terjemahan mesin boleh membantu orang ramai mengetahui lebih lanjut tentang topik yang mereka minati apabila kandungan itu tidak tersedia dalam bahasa mereka.
Inisiatif ini meneroka cara memaparkan sokongan terjemahan mesin daripada MinT dalam artikel Wikipedia dengan cara yang:
- Membolehkan pembaca mengetahui lebih lanjut tentang topik yang diminati daripada bahasa lain.
- Jelas membezakan kandungan yang dijana secara automatik daripada yang dibuat oleh komuniti.
- Menggalakkan untuk mengakses dan menyumbang kepada kandungan ciptaan komuniti apabila boleh.
Pada masa ini pasukan Bahasa sedang mengusahakan pelaksanaan awal untuk inisiatif ini berdasarkan penyelidikan dan reka bentuk. Pembelajaran berdasarkan data dan input komuniti akan menentukan langkah seterusnya untuk inisiatif tersebut.
MinT tersedia lebih meluas
Mengusahakan inisiatif sebelumnya akan membantu menggilap dan mengukuhkan sistem. Buat masa ini, API MinT hanya tersedia untuk produk Wikimedia. Apabila sistem bersedia, kami akan mempertimbangkan pendedahan yang lebih luas. Menyediakan perkhidmatan yang boleh digunakan oleh komuniti dengan cara yang inovatif boleh menjadi alat yang sangat berkuasa. Inisiatif baharu untuk menjadikan MinT tersedia dengan lebih meluas akan dirakamkan di sini pada masa hadapan. Meanwhile, feel free to configure your own MinT instance to experiment with it.
Disclaimer
- Accuracy of MinT’s Translations - The accuracy of translations generated by MinT may vary. Translations may not be entirely accurate or may not always convey the intended meaning or context of the original content. Wikimedia makes no representations or warranties regarding the accuracy or adequacy of the automatically translated content.
- Limitation of Liability - Wikimedia, its affiliates, and employees are not liable for any direct, indirect, incidental, punitive, or consequential damages, including but not limited to damages for goodwill, use, data, or any other intangible losses arising out of or in connection with the use of MinT or translations generated with MinT.
- Creative Commons Compliance - Translations generated with MinT are considered derivative works under the applicable Creative Commons license governing the original content. Users shall comply with the terms of the applicable Creative Commons license when using translated content.
- Terms of Use and Privacy Policy - Use of MinT is subject to Wikimedia's Terms of Use and Privacy Policy.
Kemas kini status
Februari 2024
- Had terjemahan yang diselaraskan untuk Punjabi selepas permintaan komuniti untuk menjadikannya kurang ketat kerana kualiti terjemahan mesin yang lebih baik.
- Penyelidikan mengenai MinT untuk Pembaca Wikipedia telah selesai. Dua laporan diterbitkan di halaman penyelidikan
- sokongan berbilang model untuk contoh ujian MinT. Membenarkan komuniti yang disokong oleh berbilang model terjemahan untuk mencuba, bandingkan menilai kualiti untuk menentukan yang mana yang paling berkesan.
Januari 2024
Disember 2023
- Satu contoh baru yang lebih besar telah dibuat untuk MinT. Kuota memori telah dinaikkan untuk menampung keperluan MinT apabila penggunaan dan model yang tersedia meningkat.
- Konsep reka bentuk baharu untuk mendedahkan MinT kepada pembaca Wikipedia telah dicipta berdasarkan input daripada penyelidikan awal. Prototaip berbilang bahasa telah dikemas kini untuk belajar daripada konsep baharu dalam pusingan penyelidikan seterusnya.
- Pendedahan larasan MinT dalam sambungan terjemah kepada elakkan daripada menunjukkan cadangan terjemahan untuk kandungan dengan penanda teks wiki
November 2023
- Better wikitext support by improving error handling when MinT processes wikitext.
- Completed Research plan is complete and started research sessions.
- Explored New advanced API for sentence segmentation to support needs for EditCheck use case and others.
- Improved responsiveness of the MinT test instance by avoiding some translation requests to get stuck.
- MinT was set as the default translation service in Content Translation for Kurdish (ku) and Sesotho (st), languages where it is optional but frequently used.
- A new larger instance has been created for the MinT. Memory quota has been increased to accommodate the needs for MinT as the usage and models available increase.
- New design concepts for exposing MinT to Wikipedia readers have been created based on input from the initial round of research.
- Published report analyzing usage of machine translation services
Oktober 2023
- MinT is now supported in Content Translation for Fon, a Wikipedia that graduated recently from incubator.
- Announced sentencex library: sentencex: Empowering NLP with Multilingual Sentence Extraction - A python and js library to meet the needs of sentence segmentation for all the languages we support.
- Proposed model card for language identification as part of the creation of a LiftWing service to provide those capabilities for MinT and others.
- The new sentence segmentation approach has been exposed in Content and Section Translation to validate it with real contents. Resolved community-reported issues such as the problems translating court cases.
- MinT test instance provides consistent language names with Wikipedia by using Wikipedia APIs instead of the limited browser localization capabilities.
- Launched the Language Identification service to automatically detect in which language is written a given text. The service supports the detection of 201 languages, and anyone can access the API to use the service or read the model card for more details. Machine Learning team completed the last checks after deploying to LiftWing and evaluating that the service can "easily withstand a high amount of traffic".
- Basic support for rich text translation by supporting transferring of markup to apply styling such as words in bold from the source text into the equivalent ones in the machine translation (which lacks format since translation models operate with plain-text).
- Completed the process to enable MinT for languages with no Wikipedia yet. Translation models in MinT support 25 languages for which there is no Wikipedia. These can be tested in MinT's test instance for speakers of those languages to assess quality, and ensures that translation tools are well-equipped once wikis are created for those languages (as it has been the case with the recent graduation of Fon Wikipedia out of incubator).
- Completed the process to enable MinT for closely-related languages based on Community input. For some languages where machine translation is not available, Wikipedia editors have asked to have access to machine translation in Content Translation using a related language instead of having no support at all. With this enablement translators of Gan (gan) Wikipedia will have machine translation based on the traditional script variant of Chinese as a starting point.
- Analysis of translation activity on 55 languages for which MinT provides machine translation for the first time shows how (a) translations have increased 2X since MinT is available, and (b) deletion rates have not increased. Activity levels for these 55 wikis changed from ~500 translations/month, to 1K+ translations/month after MinT was enabled. For example, a recent peak of 2.15K translations were published in August 2023 when MinT was available for those languages, which is a significant increase from 225 translations in August 2022 when MinT was not available for them.
- Better visibility of translation quality by including a tag in translations where unedited machine translation is close to the limits. This will facilitate analysis about translation quality and limits.
- Created prototypes for upcoming research illustrating 5 concepts on how MinT can be used by Wikipedia readers and supporting the 4 languages we will conduct research in: Hindi, Chattisgarhi, Awadhi, and Korean.
- Improvements for MinT to process more predictably contents with new lines in them.
September 2023
- Selesai penerokaan reka bentuk awal untuk menggambarkan 5 konsep tentang cara memaparkan kandungan terjemahan mesin daripada bahasa lain untuk rencana Wikipedia
- Mendayakan MinT dalam Terjemahan Kandungan untuk Lingurian yang lengkap, di mana komuniti meminta penjelasan lanjut tentang MinT dan set terakhir 14 bahasa yang boleh disokong dengan model NLLB-200.
- Didayakan MinT untuk halaman boleh diterjemahkan pada test wiki
- Pendedahan MinT yang diperluas dengan mendayakan pengalaman mudah alih dan desktop Terjemahan Kandungan sebagai lalai dalam 7 Wikipedia yang disokong oleh MinT (Cherokee, Tongan, Hungary, Kazakh, Kyrgyz, Minangkabau dan Sardinian).
- Menyelesaikan pengesahan untuk semua bahasa yang disokong oleh model terjemahan yang digunakan oleh MinT sebagai sebahagian daripada QA akhir untuk mendayakan perkhidmatan terjemahan baharu.
- Santhosh dibentangkan di the 10th Workshop on Asian Translation yang menekankan keperluan untuk terjemahan mesin bersifat universal, percuma dan tersedia dalam lebih banyak bahasa. Mesej diterima baik oleh para hadirin.
- Perancangan penyelidikan bermula dengan draf awal ringkasan penyelidikan untuk MinT di Wikipedia
- Meneruskan penerokaan teknikal untuk menggunakan terjemahan mesin di luar teks biasa (apa yang disediakan oleh model asas) untuk menyokong konteks Wikipedia: pendekatan baharu yang dipertingkatkan untuk pembahagian ayat (dengan halaman demo untuk dicuba) yang menyediakan cara yang lebih tepat untuk mengenal pasti apabila ayat diakhiri dalam bahasa yang berbeza dan dengan keutamaan untuk mengelakkan perpecahan sekiranya berlaku keraguan (diutamakan dalam konteks terjemahan mesin untuk mengelakkan pemecahan konteks terjemahan, contohnya, salah tafsir titik singkatan sebagai hentian penuh ).
Ogos 2023
- Berjaya penerokaan untuk penggunaan MinT untuk menterjemah format berstruktur seperti HTML, SVG dan markdown.
- Selesai penamatan Youdao, perkhidmatan terjemahan luaran yang gagal untuk masa yang lama.
- Teruskan penerokaan reka bentuk untuk MinT di Wikipedia dengan maklum balas berasaskan aliran kerja baharu dan dikemas kini.
- Bahasa yang dikenal pasti yang boleh memanfaatkan sepenuhnya model OpusMT baharu
- Menjadikan MinT perkhidmatan terjemahan lalai untuk Zulu dalam Terjemahan Kandungan
Julai 2023
- Mendayakan terjemahan mesin dengan MinT (dan berkomunikasi dengan komuniti) untuk 75 bahasa baharu: 62 bahasa di mana pengalaman terjemahan mudah alih tersedia dan 13 bahasa yang kualiti terjemahan daripada perkhidmatan lain mungkin tidak sesuai berdasarkan data laporan penggunaan MT dan/atau maklum balas komuniti.
- Pengesahan pembolehan sebelumnya: isu yang dikenal pasti dengan Bhojpuri dan dengan Latvia di mana MinT tidak tersedia kerana ketidakpadanan dengan kod bahasa yang digunakan oleh Wikipedia, MinT dan model terjemahan asas.
- Penjelajahan dan prototaip reka bentuk awal tentang cara kami boleh menyepadukan MinT dalam Wikipedia
- Terjemahan Pudina yang dipertingkatkan selepas pemprosesan untuk menyokong bahasa yang lebih baik menggunakan skrip Arab dengan mengelakkan langkah tambahan selepas berhenti penuh.
- Menyelesaikan integrasi model IndicTrans2 dengan mengesahkan pendayaan semua 23 bahasa yang disokong mereka.
- Analisis awal aktiviti untuk komuniti Wikipedia yang disokong dengan MinT buat kali pertama untuk mengenal pasti wiki perintis yang berpotensi untuk penyelidikan masa depan dan sebagai pengguna awal.
- Pendayaan MinT pada translatewiki.net untuk kegunaan dalam penyetempatan Wikimedia dan projek terbuka yang lain.