Systèmes d’écriture

This page is a translated version of the page Writing systems and the translation is 90% complete.

documents i18n

Cette page donne les informations de base pour la prise en charge des différents aspects des systèmes d'écriture: langues écrites avec diverses écritures; sens d'écriture; apparence des polices d'écriture (fontes) et entrées.

Écritures multiples, dialectes multiples

Plusieurs langues s'écrivent avec différentes écritures. Cela est souvent possible mais n'est pas pris en charge par le logiciel, et il est parfois difficile voire impossible de l'implémenter. Certaines langues ont réellement un LanguageConverter qui ajoute la prise en charge de multiples systèmes d'écriture.

Certaines langues ont des dialectes très similaires qui s'écrivent avec la ou les mêmes écritures et qui peuvent —d'un point de vue technique — être traitées de la même manière que des langues différentes.

LanguageConverter

Pour la documentation sur la manière d'utiliser LanguageConverter, voir Systèmes d'écriture/Syntaxe

Le LanguageConverter (LC) est un système basé sur les variantes d'une langue qui convertit automatiquement le contenu d'une page en une variante différente. Une variante est presque la même langue mais dans une écriture différente. Pour utiliser le LanguageConverter, allez sur vos préférences à Internationalisation. Si vous êtes sur un wiki qui prend en charge la conversion, vous verrez une option supplémentaire pour la sélection de la langue.

Phab:T21044 -- ceci nécessite d'être documenté davantage !

Il est implémenté pour les langues suivantes (depuis julliet 2023; voir languagesWithVariants pour la liste actuelle) :

balinais (ban): Balinese (ban-bali), Latin (ban-latn) [1.36+]
tatar de Crimée (crh): Latin (crh-latn), Cyrillic (crh-cyrl)
anglais (en): Normal (en), Pig Latin (en-x-piglatin) (pour les tests, uniquement si $wgUsePigLatinVariant est activé)
gan (gan): Simplified (gan-hans), Traditional (gan-hant)
inuktitut (iu): Latin (ike-latn), Syllabics (ike-cans) [1.18+]
~~kazakh (kk): Cyrillic (kk-cyrl), Latin (kk-latn), Arabic (kk-arab)~~ Stoppé en 2023, voir les raisons sur phab:T268143 et phab:T350684.
kurde (ku): Latin (ku-latn), Arabic (ku-arab) [1.11+]
serbo-croate (sh): Cyrillic (sh-cyrl), Latin (sh-latn) [1.40+]
chleuh (shi): Tifinagh (shi-tfng), Latin (shi-latn) [1.19+]
serbe (sr): Cyrillic (sr-ec), Latin (sr-el)
tadjik (tg): Cyrillic (tg-cyrl), Latin (tg-latn)
talysh (tly): Cyrillic (tly-cyrl), Latin (tly-latn) [1.36+]
ouzbek (uz): Cyrillic (uz-cyrl), Latin (uz-latin) [1.20+]
wu (wuu): Simplified (wuu-hans), Traditional (wuu-hant) [1.41+]
amazighe standard marocain (zgh): Tamazigh (zgh-tfng), Latin (zgh-latn) [1.42+]
chinois (zh):
- chinois simplifié (zh-hans): China (zh-cn), Singapore (zh-sg), Malaysia (zh-my)
- chinois traditionnel (zh-hant): Taiwan (zh-tw), Hong Kong (zh-hk),^[1] Macau (zh-mo)

Et il est nécessaire pour beaucoup plus d'autres langues !

Les balises du code de langue pour l'écriture doivent suivre le standard ISO 15924. However, for legacy reasons, serbe is an exception, with sr-ec instead of sr-cyrl and sr-el instead of sr-latn. This is in discussion in phab:T117845.

Une limitation actuelle de ce sytème est qu'il peut être particulièrement mauvais lorsque l'on a affaire à des systèmes d'écriture multiples basés sur la même écriture sous-jacente. Les wikipédiens chinois utilisent occasionellement => (unidirectionnel) pour les cas d'échec. Comme LC essaie toujours de traiter le plus grand groupe de mots en utilisant strtr sous PHP, -{}- (séparer les mots) peut être souvent utile par ailleurs.

Prise en charge de la configuration

Les fonctions wgULS/wgUVS de la bibliothèque zhwp du site (dorénavent obsolète, voir zh:Wikipedia:HanAssist pour la version courante) permettent la sélection facile de la variante pour la langue utilisateur dans les IHM. Ceci peut aider les développeurs de scripts à produire des interfaces utilisateurs dépendantes de la variante. Pour d'autres endroits non accessibles par LC, {{int:Conversionname}} peut être utilisé pour récupérer la langue/variante de l'IHM actuelle.

Le gadget PreviewWithVariant permet aux Wikipediens de vérifier les résultats de la conversion dans l'aperçu de l'éditeur. Vous pouvez le configurer pour votre propre wiki.

Les modèles de balise de texte étranger (Foreign language marker) tels que {{lang}} doivent ajouter les marqueurs de "disable conversion" -{ text }- autour du texte étranger mis entre guillemets, pour éviter les erreurs de conversion. Sur les wikipedias Hans/Hant cela devient un problème pour le japonais Kanji et le vietnamien Han Nom, tandis que pour les wikipedias avec du texte latin marqué pour conversion ce problème devrait être immédiat.

Le module WikitextLC permet l'insersion facile de commandes LC dans les sorties Lua. Les systèmes NoteTA et CGroup permettent d'accéder aux ensembles prédéfinis des conversions de sujets spécifiques. Module:地区用词 permet une sortie adaptive de la forme "foo, known in PLACE and PLACE as bar, and PLACE as baz".

La redirection automatique de titre vers des URL peut causer un inconvénient apparent pour les interfaces sans cette fonctionalité. Voir T49725 pour la tâche Lua et T160952 pour la tâche de selection d'ancre.

Redirection d'URL

In some installations of MediaWiki, a short URL is employed. For example, in Chinese Wikipedia, instead of https://zh.wikipedia.org/wiki/维基百科 (if no variant is specified) or https://zh.wikipedia.org/w/index.php?title=维基百科&variant=zh-cn (if the variant is specified without rewrite rules), a shortened URL such as https://zh.wikipedia.org/zh-cn/维基百科 can be used as a temporary link to the specified script variant (zh-cn in this case).

Ce comportement peut être observé dans plusieurs langues de Wikipédia, telles que la Wikipédia chinoise, la Wikipédia serbe, etc. However, others like Gan Chinese Wikipedia and Balinese Wikipedia often keeps the long url with index.php&variant=.

This is controlled by $wgVariantArticlePath and web server rewrite rules (see manuals for short URL in Apache and nginx ).

Voir aussi

Sens d'écriture

La plupart des systèmes d'écriture opèrent en considèrant que les caractères soient écrits de gauche à droite (left-to-right LTR), et que les lignes se lisent du haut vers le bas (top-to-bottom TtB).

Quelques langues communes (arabe et hébreu en particulier) écrivent les caractères de droite à gauche (right-to-left RTL) -- voir directionality support pour plus de détails sur la manière dont nous gérons le texte de droite à gauche et le texte bidirectionnel mixte avec la sortie HTML et les styles CSS.

Notez qu'une langue individuelle peut être utilisée avec des écritures qui ont des directionalités différentes, telles le kazakh et le kurde qui prennent en charge les variantes latines et arabes.

Notez aussi que le World Wide Web Consortium (W3C) a définit davantage de directions utilisables dans les pages web, telles que les asiatiques nord est de haut en bas, avec des lignes empilées soit de la gauche vers la droite ou de droite à gauche. ^[2]

Apparence des fontes et entrées

Beaucoup de langues n'ont pas de police d'écriture propre facilement disponible pour les utilisateurs. Cela est peut être dû au fait que le système d'exploitation n'embarque pas ces fontes, ou que les utilisateurs ne savent pas comment les installer, ou qu'ils n'ont pas les droits pour le faire. L'extension UniversalLanguageSelector essaie de résoudre cela en embarquant les fontes dans le wiki lui-même. Les fontes seront fournies à partir du serveur et le système de l'utilisateur n'aura pas besoin de les avoir installées.

UniversalLanguageSelector ajoute la prise en charge de la saisie dans une certaine écriture, afin que les utilisateurs n'aient pas à utiliser des outils externes ni à compter sur leur système pour qu'il s'en occupe.

Références

↑ Taiwan et Hong Kong sont deux variantes majeures écrites dans la même écriture Traditional Script avec des différences significatives dans l'usage des phrases dûes à la séparation des marchés et à l'influence des langues zho locales, donc vous garderez probablement au moins CN, TW, et HK dans votre liste de variantes. Si vous insistez à réduire l'étendue des variantes chinoises à une écriture basée sur la séparation simplifié/traditionnel, suivez ce qu'a fait l'auteur dans phab:T149278.
↑ Modes d'éciture CSS niveau 3

[1] Taiwan et Hong Kong sont deux variantes majeures écrites dans la même écriture Traditional Script avec des différences significatives dans l'usage des phrases dûes à la séparation des marchés et à l'influence des langues zho locales, donc vous garderez probablement au moins CN, TW, et HK dans votre liste de variantes. Si vous insistez à réduire l'étendue des variantes chinoises à une écriture basée sur la séparation simplifié/traditionnel, suivez ce qu'a fait l'auteur dans phab:T149278.

[2] Modes d'éciture CSS niveau 3

[1]

[2]