Nápověda:Rozšíření:Translate/Překladové paměti
Rozšíření překladové paměti podporuje ElasticSearch. Cílem této stránky je provést vás při instalaci ElasticSearch a podrobněji prozkoumat jeho specifikace.
Na rozdíl od jiných překladových pomůcek, například externích služeb strojového překladu, je překladová paměť neustále aktualizována novými překlady na vaší wiki. Rozšířené vyhledávání v překladech, pokud se rozhodnete použít ElasticSearch, je také k dispozici na stránce Special:SearchTranslations.
Srovnání
Ve výchozím nastavení se používá databázový backend (slouží k administraci a ke zpracování dat): Nemá žádné závislosti a nevyžaduje konfiguraci. Databázový backend nelze sdílet mezi více wiki a nelze jej rozšiřovat na velké množství přeloženého obsahu. Proto také podporujeme ElasticSearch jako backend. Je také možné použít překladovou paměť jiné wiki, pokud je otevřené její webové API. Na rozdíl od ElasticSearch nejsou vzdálené backendy aktualizovány překlady z aktuální wiki.
Databáze | Vzdálené API | ElasticSearch | |
---|---|---|---|
Ve výchozím nastavení povoleno | Ano | Ne | Ne |
Může mít více zdrojů | Ne | Ano | Ano |
Aktualizováno místními překlady | Ano | Ne | Ano |
Přímý přístup k databázi | Ano | Ne | Ne |
Přístup ke zdroji | Editor | Odkaz | Editor, pokud je místní nebo odkaz |
Lze sdílet jako službu API | Ano | Ano | Ano |
Výkon | Není správné měřítko | Neuvedeno | Rozumné |
Požadavky
ElasticSearch backend
Nastavení ElasticSearch je relativně snadné. Pokud není ve vašich distribučních balíčcích k dispozici, můžete si jej stáhnout z jejich webových stránek. Budete také muset získat rozšíření Elastica . Nakonec se podívejte na puppet/modules/elasticsearch/files/elasticsearch.yml pro konkrétní konfiguraci potřebnou pro překlad.
Skript bootstrapu (samozaváděcího programu) vytvoří potřebná schémata. Pokud používáte backend ElasticSearch s více wiki, budou ve výchozím nastavení sdílet překladovou paměť. Pokud nenastavíte parametr indexu v konfiguraci.
Při aktualizaci na další hlavní verzi ElasticSearch (např. aktualizace z 2.x na 5.x) se důrazně doporučuje přečíst poznámky k verzi a dokumentaci týkající se procesu aktualizace.
Instalace
Po zavedení požadavků instalace vyžaduje, abyste vyladili konfiguraci a poté spustili bootstrap (samozaváděcí program).
Konfigurace
Všechny překladové pomůcky včetně překladových pamětí jsou konfigurovány pomocí konfigurační proměnné $wgTranslateTranslationServices
.
Backend primární překladové paměti musí používat klíč TTMServer
.
Primární backend přijímá aktualizace překladu a používá ho Special:SearchTranslations.
Příklad konfigurace TTMServers:
Výchozí konfigurace |
---|
$wgTranslateTranslationServices['TTMServer'] = array(
'database' => false, // Passed to wfGetDB
'cutoff' => 0.75,
'type' => 'ttmserver',
'public' => false,
);
|
Vzdálená konfigurace API |
$wgTranslateTranslationServices['example'] = array(
'url' => 'http://example.com/w/api.php',
'displayname' => 'example.com',
'cutoff' => 0.75,
'timeout' => 3,
'type' => 'ttmserver',
'class' => 'RemoteTTMServer',
);
|
Konfigurace backendu ElasticSearch |
V tomto případě bude jediná back-endová služba použita jak pro čtení, tak pro zápis.
$wgTranslateTranslationServices['TTMServer'] = array(
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
/*
* See http://elastica.io/getting-started/installation.html
* See https://github.com/ruflin/Elastica/blob/8.x/src/Client.php
'config' => This will be passed to \Elastica\Client
*/
);
|
Konfigurace více backendů ElasticSearch (podporováno MLEB 2017.04, kleslo v MLEB 2023.10) |
// Definuje výchozí službu používanou pro operace čtení
// Umožňuje rychle přepnout na jiný backend
// Možnost konfigurace 'mirrors' již není podporována od verze MLEB 2023.10
$wgTranslateTranslationDefaultService = 'cluster1';
$wgTranslateTranslationServices['cluster1'] = array(
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
/*
* Definuje seznam služeb, do kterých se replikují zápisy.
* Jsou zde povoleny pouze "zapisovatelné" služby.
*/
'mirrors' => [ 'cluster2' ],
'config' => [ 'servers' => [ 'host' => 'elastic1001.cluster1.mynet' ] ]
);
$wgTranslateTranslationServices['cluster2'] = array(
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
/*
* pokud je "cluster2" definován jako výchozí služba, začne se replikovat zápisy do "cluster1".
*/
'mirrors' => [ 'cluster1' ],
'config' => [ 'servers' => [ 'host' => 'elastic2001.cluster2.mynet' ] ]
);
|
ElasticSearch více služeb s jednou čitelnou službou pomocí konfigurace writable (podporováno MLEB 2023.04)
|
Při konfiguraci writable se uplatňují následující pravidla:
Pokud je služba označena jako zapisovatelná, konfigurace zrcadel nebude povolena. // Tři služby nakonfigurované tak, že jedna je čitelná a ostatní jsou zapisovatelné.
$wgTranslateTranslationServices['dc0'] = [
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
// Výchozí službu nelze označit jako službu pouze pro zápis
];
$wgTranslateTranslationServices['dc1'] = [
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
// Označí tuto službu jako službu určenou pouze pro zápis
'writable' => true,
];
$wgTranslateTranslationServices['dc2'] = [
'type' => 'ttmserver',
'class' => 'ElasticSearchTTMServer',
'cutoff' => 0.75,
'writable' => true
];
$wgTranslateTranslationDefaultService = 'dc0';
|
Možné klíče a hodnoty jsou:
Klíč | Platí pro | Popis |
---|---|---|
config
|
ElasticSearch | Konfigurace předána Elastice. |
cutoff
|
Vše | Minimální prahová hodnota pro odpovídající návrh. Uvádí se pouze několik nejlepších návrhů, i když by jich bylo nad prahem více. |
database
|
Místní | Pokud chcete uložit překladovou paměť na jiné místo, můžete zde zadat název databáze. Musíte také nakonfigurovat nástroj pro vyrovnávání zatížení MediaWiki, abyste věděli, jak se k této databázi připojit. |
displayname
|
Vzdálený | Text zobrazený v popisku, když umístíte kurzor na zdrojový odkaz návrhu (odrážky). |
index
|
ElasticSearch | Index, který se použije v ElasticSearch. Výchozí: ttmserver. |
public
|
Vše | Zda lze tento TTMServer zjistit prostřednictvím api.php této wiki. |
replicas
|
ElasticSearch | Pokud používáte klastr, můžete zvýšit počet replik. Výchozí: 0. |
shards
|
ElasticSearch | Kolik shards (částí) lze použít. Výchozí: 5. |
timeout
|
Vzdálený | Jak dlouho v sekundách čekat na odpověď od vzdálené služby. |
type
|
Vše | Typ serveru TTMS z hlediska formátu výsledků. |
url
|
Vzdálený | URL pro api.php vzdáleného TTMServeru. |
use_wikimedia_extra
|
ElasticSearch | Boolean, když je nasazen extra plugin, můžete deaktivovat dynamické skriptování na Elastic v1.x. Tento plugin je nyní povinný pro klastry Elastic 2.x. |
mirrors (DEPRECATED Since MLEB 2023.04)
|
Zápisové služby | Pole řetězců, definuje seznam služeb, na které se replikují zápisy, umožňuje udržovat aktuálních více služeb TTM. Užitečné pro rychlé přepínání nebo ke snížení prostojů během plánovaných údržbářských operací (přidáno v MLEB 2017.04) Nelze použít spolu s nově přidanou konfigurací writable .
|
writable (Added in MLEB 2023.04)
|
Služby pouze pro zápis | Booleovská hodnota definovaná pro službu, pokud je tato služba pouze pro zápis. Výchozí službu (wgTranslateTranslationDefaultService ) nelze označit jako pouze pro zápis. Pokud ze všech nakonfigurovaných služeb překladové paměti není žádná označena jako writable , pak jsou všechny služby považovány za čitelné a zapisovatelné. Podívejte se na úkol T322284
|
$wgTranslateTranslationServices
klíč TTMServer
. Vzdálené servery TTMS na to nelze použít, protože je nelze aktualizovat. Od MLEB 2017.04 může být klíč TTMServer
konfigurován s konfigurační proměnnou $wgTranslateTranslationDefaultService
. Podpora pro backend Solr byla zrušena v MLEB-2019.10 v říjnu 2019.V současné době je pro backend databáze podporována pouze MySQL.
Bootstrap (samozaváděcí program)
Jakmile vyberete ElasticSearch a nastavíte požadavky a konfiguraci, spusťte ttmserver-export.php
pro zavedení překladové paměti.
Bootstrapping je také vyžadován při změně backendu překladové paměti.
Pokud používáte backend sdílené překladové paměti pro více wikin, budete muset zavést každou z nich samostatně.
Weby s množstvím překladů by měly zvážit, pro urychlení procesu, použití více vláken s parametrem --thread
.
Čas do značné míry závisí na tom, jak kompletní jsou statistiky dokončení skupiny zpráv (neúplné budou vypočteny během zavádění systému).
Nové překlady jsou automaticky přidávány pomocí háčku.
Při vytvoření prvního překladu jsou přidány nové zdroje (definice zpráv).
Bootstrap dělá následující věci, které se jinak nedějí:
- přidávání a aktualizace schématu překladové paměti;
- naplnění překladové paměti stávajícími překlady;
- vyčištění nepoužívaných překladových záznamů vyprázdněním a opětovným naplněním překladové paměti.
Po aktualizaci překladu zprávy se předchozí překlad odstraní z překladové paměti. Když se však překlady aktualizují oproti nové definici, přidá se nová položka, ale stará definice a její staré překlady zůstanou v databázi, dokud nebudou vymazány. Když zpráva změní definici nebo je odstraněna ze všech skupin zpráv, nic se nestane okamžitě. Uložení překladu jako fuzzy nepřidá nový překlad ani neodstraní starý překlad v překladové paměti.
TTMServer API
Pokud byste chtěli implementovat vlastní službu TTMServer, zde jsou specifikace.
Parametry dotazu:
Vaše služba musí akceptovat následující parametry:
Klíč | Hodnota |
---|---|
format
|
json |
action
|
ttmserver |
service
|
Volitelný identifikátor služby, pokud existuje více sdílených překladových pamětí. Pokud není uveden, předpokládá se výchozí služba. |
sourcelanguage
|
Kód jazyka používaný v MediaWiki, viz IETF a ISO693? |
targetlanguage
|
Kód jazyka používaný v MediaWiki, viz IETF a ISO693? |
test
|
Zdrojový text ve zdrojovém jazyce |
Vaše služba musí poskytnout objekt JSON, který musí mít klíč ttmserver
s řadou objektů.
Tyto objekty musí obsahovat následující údaje:
Klíč | Hodnota |
---|---|
source |
Původní zdrojový text. |
target |
Návrh překladu. |
context |
Místní identifikátor zdroje, nepovinný. |
location |
URL na stránku, na které se návrh zobrazuje. |
quality |
Desítkové číslo v rozsahu [0..1] popisující kvalitu návrhu. 1 znamená perfektní shoda. |
Příklad:
- URL: http://translatewiki.net/w/api.php?action=ttmserver&sourcelanguage=en&targetlanguage=fi&text=january&format=jsonfm
- Odezva:
{
"ttmserver": [
{
"source": "January",
"target": "tammikuu",
"context": "Wikimedia:Messages\\x5b'January'\\x5d\/en",
"location": "https:\/\/translatewiki.net\/wiki\/Wikimedia:Messages%5Cx5b%27January%27%5Cx5d\/fi",
"quality": 0.85714285714286
},
{
"source": "January",
"target": "tammikuu",
"context": "Mantis:S month january\/en",
"location": "https:\/\/translatewiki.net\/wiki\/Mantis:S_month_january\/fi",
"quality": 0.85714285714286
},
{
"source": "January",
"target": "Tammikuu",
"context": "FUDforum:Month 1\/en",
"location": "https:\/\/translatewiki.net\/wiki\/FUDforum:Month_1\/fi",
"quality": 0.85714285714286
},
{
"source": "January",
"target": "tammikuun",
"context": "MediaWiki:January-gen\/en",
"location": "https:\/\/translatewiki.net\/wiki\/MediaWiki:January-gen\/fi",
"quality": 0.85714285714286
},
{
"source": "January",
"target": "tammikuu",
"context": "MediaWiki:January\/en",
"location": "https:\/\/translatewiki.net\/wiki\/MediaWiki:January\/fi",
"quality": 0.85714285714286
}
]
}
Backend databáze
Backend obsahuje tři tabulky: translate_tms
, translate_tmt
a translate_tmf
.
Odpovídají zdrojům, cílům a fulltextům.
Definice tabulky najdete v sql/translate_tm.sql
.
Zdroje obsahují všechny definice zpráv.
I když jsou obvykle vždy ve stejném jazyce, řekněme anglicky, jazyk textu je také uložen pro vzácné případy, což není běžné.
Každá položka má jedinečné id a dvě další pole, délku a kontext.
Délka se používá jako filtr prvního průchodu, takže při dotazování nemusíme porovnávat hledaný text s každou položkou v databázi.
Kontext ukládá název stránky, odkud text pochází, například MediaWiki:Jan/en
.
Z těchto informací můžeme návrhy propojit zpět na MediaWiki:Jan/de
, což umožňuje překladatelům rychle opravit věci nebo jen určit, kde byl tento druh překladu použit.
Druhý průchod filtrování pochází z fulltextového vyhledávání.
Definice se mísí s ad hoc algoritmem.
Nejprve je text rozdělen do segmentů (slov) pomocí Language::segmentByWord
od MediaWiki.
Pokud je k dispozici dostatek segmentů, v podstatě odejmeme všechno, co není slovo a normalizujeme případ.
Potom vezmeme prvních deset jedinečných slov, která jsou dlouhá alespoň 5 bajtů (5 písmen v angličtině, ale i kratší slova pro jazyky s vícebajtovými kódovými body).
Tato slova jsou potom uložena v fulltextovém indexu pro další filtrování pro delší řetězce.
Když jsme vyfiltrovali seznam kandidátů, načteme odpovídající cíle z tabulky cílů. Potom použijeme levenshtein editovací algoritmus vzdálenosti, abychom provedli finální filtrování a hodnocení. Definujme:
- E
- úprava vzdálenosti
- S
- text, kterým hledáme návrhy
- Tc
- text návrhu
- To
- původní text, do kterého Tc překládá
Kvalita návrhu Tc se počítá jako E/min (délka (Tc), délka (To)). V závislosti na délce řetězců používáme: Buď nativní funkci levenshteinu PHP. Nebo, pokud je některý z řetězců delší než 255 bajtů, implementace algoritmu levenshtein v PHP.[1] $1 nebylo testováno, zda nativní implementace levenshtein správně zpracovává vícebajtové znaky. To může být další slabou stránkou, pokud zdrojovým jazykem není angličtina (ostatní jsou fulltextové vyhledávání a segmentace).
Pro překladatele (hlavní stránka nápovědy )
- Jak se překládá
- Osvědčené postupy
- Statistika a hlášení
- Záruka kvality
- Přehled o stavu překladu zpráv
- Offline překlad
- Slovníček
Pro správce překladů
- Jak připravit stránku k překladu
- Správa překladu stránky
- Překlad nestrukturovaných prvků
- Správa skupin
- Přesun překládané stránky
- Import překladů přes CSV
- Práce se svazky zpráv
Pro systémové administrátory a vývojáře