Extension:WikibaseLexeme/Modèle de données

This page is a translated version of the page Extension:WikibaseLexeme/Data Model and the translation is 89% complete.

Ceci est un document vivant, décrivant le modèle conceptuel de données utilisé par WikibaseLexeme. Ce n'est pas une spécification d'un binding, d'une mise en œuvre, d'un « data mapping » ou d'une sérialisation.

Le modèle de données de WikibaseLexeme décrit la structure des données qui sont gérées en tant que « Lexèmes » dans Wikibase, telles que des mots ou des expressions. Théoriquement, il pourrait être possible de modéliser cela en utilisant les Éléments, mais un modèle plus expressif et spécialisé aide à réduire la complexité, et améliore les possibilité de réutilisation et de correspondances entre les vocabulaires. Ce modèle de données est conceptuel (« Quelles informations devons-nous supporter ? ») et ne spécifie pas comment ces données devraient être techniquement représentées (« Quelles structures de données le logiciel devrait-il utiliser ? »). Des documents distincts décrivent la sérialisation du modèle de données Wikibase en JSON et en RDF (Resource Description Framework). Le modèle de données des Lexèmes définit les concepts de base et les relations nécessaires pour décrire des lexèmes, considérés comme une ontologie fixe. Cette ontologie propose une structure minimale qui permet aux éléments et aux déclarations d'être utilisés pour modéliser un lexème de façon détaillée. Les spécifications du modèle de données des Lexèmes est basé sur le modèle de données de Wikibase, il peut donc être utile de lire le glossaire de Wikidata and the les bases du modèle de données pour mieux les comprendre. Le modèle de données des Lexèmes cherche à suivre le modèle LEMON réalisé par le groupe Ontolex du W3C, lorsque cela est utile et pratique. En revanche, dans l'esprit de Wikibase, le modèle des Lexèmes est conçu pour être simple et assez flexible pour des usages de contribution collaborative, contrairement à l'approche plus formelle proposée par LEMON.

Lexème

 
Visualisation du modèle de donnée d'un lexème

Un lexème est un élément lexical du langage, comme un mot, une expression ou un préfixe. (voir Lexème sur Wikipédia). Les lexèmes sont des entités selon la définition du modèle de données de Wikibase. Un Lexème est décrit en utilisant les informations suivantes :

  • Un identifiant. Les lexèmes ont des identifiants commençant par « L » suivis d’un nombre naturel en notation décimal, par exemple L3746552. Ces identifiants sont uniques dans le dépôt qui gère les Lexèmes. Les identifiants peuvent être combiné avec une URI de base de concept du dépôt pour former une URI unique pour le lexème.
  • Un lemme qui sera utilisé en tant que représentation lisible par les humains du lexème, par exemple « courir ».
  • La langue à laquelle appartient le lexème. C’est une référence à un Élément concret, par exemple Q1860 pour l’anglais.
  • La catégorie lexicale à laquelle le lexème appartient. C’est une référence à un Élément, par exemple Q34698 pour adjectif.
  • Une liste de déclarations, pour décrire les propriétés du lexème qui ne sont pas spécifiques à une Forme ou un Sens (par exemple dérivé de, genre grammatical ou fonction syntaxique).
  • Une liste de formes, typiquement, une pour chaque combinaison pertinente de fonctions grammaticales, telles que deuxième personne / singulier / passé composé.
  • Une liste de sens, décrivant les différentes significations du lexème, par exemple « mammifère carnivore » et « pièce d’arme à feu » pour le mot chien.

Editorial Note: Nous devrions faire allusion à la façon dont les genres grammaticaux peuvent être modélisés en utilisant les déclarations.

Déclarations des lexèmes

Nature (instance de)

In Wikidata they generally use the most general lexical category possible, e.g. affix and then instead describe which type of affix it is using an instance of-statement.

Exemples d’utilisation

In Wikidata the community decided to have usage examples in one place on the lexeme because then they know where to look for them. They have 2 demonstrates properties d:Property:P5830 and d:Property:P6072 to link to the correct sense and form. They can have multiple examples from different time periods e.g. different centuries and for formality/informality and written/spoken.

Lemme

Le lemme est une représentation lisible par les humains du lexème (voir Lemme sur Wikipédia). Typiquement, la forme canonique du lexème (par exemple le verbe à l'infinitif) seront utilisés comme lemme (voir aussi lemon:canonicalForm). Les lemmes ne sont pas des chaînes de caractères simples, mais des valeurs de texte multilingues, car un même lemme peut avoir de multiples orthographes. Ceci est tout spécialement important pour des langues qui utilisent plusieurs alphabets, comme le serbe.

Example: Le lemme pour le nom anglais "color" incluera ainsi "colour" pour l'anglais britannique et "color" pour l'anglais américain.

Un lemme ne peut pas être entièrement vide, au moins une valeur doit être entrée.

Note : les lemmes ne sont pas uniques, et la combination d'un lemme, d'une langue et d'une catégorie lexicale, ne l'est pas non plus. Deux lexèmes différents avec la même catégorie lexicale peuvent coexister dans la même langue s'ils ont des données différentes soit par le genre, l'éthymologie, la morphologie (c'est à dire des formes différentes), etc.

Example: Il y a deux noms communs allemands ayant pour lemme "See", qui diffèrent uniquement par leur genre grammatical : "der See" signifie "le lac" et "die See" signifie "la mer". Ces deux significations ne peuvent pas être représentés dans un seul lexème, car elles ont des formes différentes de par leur genre.

Forme

La morphologie d'un lexème est composée d'un ensemble de Formes. Chaque forme définit les changements d'un lexème en fonction d'un "rôle syntaxique" qu'il peut prendre dans une phrase (voir aussi lemon:Form).

Example: Le verbe français "courir" deviendra "cours" (première personne du singulier), "court" (3ème personne du singulier) ou encore "courant" (participe présent) selon sa conjugaison.

Une forme est décrite en utilisant les informations suivantes :

  • Un identifiant. Les formes ont des identifiants commençant par l'identifiant du lexème auquel elles appartiennent, suivi d'un trait d'union ("-") et d'un "F", puis un nombre naturel en notation décimale : par exemple L3746552-F7. Cet identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour la forme.
  • Une représentation, épelant la forme comme une chaîne de caractères.
  • Une liste de traits grammaticaux, qui définissent à quel rôle syntaxique la forme s'applique. Ce sont des références à des éléments, comme Q814722 pour participe.
  • Une liste de déclarations qui décrivent davantage la forme ou ses relations à d'autres formes ou éléments (par exemple prononciation audio, rime avec, utilisé jusqu'à, utilisé dans la région).

Planned Feature:
Il est possible d’ajouter une notion de « type de forme » qui détermine quelle genre d’information une Forme contient. Un nouveau type potentiel est « inexistant », qui pourrait représenter les formes qui n’existent pas, comme pour les verbes défectifs. Par exemple l’infinitif de may en anglais, ou le pluriel du mot Schnee en allemand. Les formes de types non-existants auraient des déclarations et des informations grammaticales, mais pas de représentations.

Représentation

La représentation d'une forme est sa forme écrite, comme utilisée dans un texte (semblable à lemon:writtenRep). Tout comme les lemmes, les représentations ne sont pas des chaînes de caractères simples, mais des valeurs de texte multilingues, car la même forme peut avoir des orthographes différentes, possiblement dans de multiples alphabets.

Une représentation ne peut pas être entièrement vide, au moins une viariante doit être entrée.

Multiple forms with the same representation are allowed to enable adding usage examples demonstrating each of them. Exemple dans Wikidata

Trait grammatical

Les traits grammaticaux des formes décrivent à quelles conditions ou dans quel rôle syntaxique la forme est utilisée (voir lexinfo:morphosyntacticProperty et trait grammatical sur Wikipédia). Plusieurs traits grammaticaux peuvent être combinés pour exprimer dans quelles conditions la grammaire de la langue requiert qu'une forme soit utilisée. Les traits grammaticaux sont représentés par des références à des éléments.

Example: Le rôle "première personne du pluriel au présent" peut être défini par plusieurs trait, représentés par des éléments Wikidata : Q192613 (présent), Q21714344 (première personne), et Q146786 (pluriel).

Editorial Note: Comment modéliser des mots tels que "a" et "an" (anglais) ? Quel élément utiliserait-on comme trait pour les décrire ? Est-ce que l'on n'aurait pas besoin d'annotations en texte libre finalement ?

Editorial Note: Notons que les formes genrées telles que "autrice" peuvent être traitées comme des Formes, ou des Lexèmes séparés, selon ce qui est nécessaire.

Sens

Les sens d'un lexème sont différentes significations qu'il peut représenter dans un texte. Les sens sont constitués de définitions en langage naturel ou "gloses".

Un sens est décrit en utilisant les informations suivantes :

  • Un identifiant. Les sens ont des identifiants commençant par l'identifiant du lexème auquel ils appartiennent, suivis d'un trait d'union ("-") puis d'un "S", et d'un nombre naturel en notation décimale, par exemple L3746552-S4. Ces identifiants sont uniques dans le dépôt qui gère les lexèmes. L'identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour le Sens.
  • Une glose, définissant la signification du sens en utilisant le langage naturel.
  • Une liste de déclarations décrivant davantage le sens et ses relations à d'autres sens et éléments (par exemple "traduction", "synonyme", "antonyme", "connotation", "registre") In Wikidata image is also added to provide a culturally adapted image of the sense, e.g. of a letterbox or color that can vary greatly between cultures.

Editorial Note: Il faudrait trouver un bon endroit pour mentionner une source régulière d'incompréhensions : les Sens peuvent être connectés aux éléments Wikidata via une déclaration telle que "évoque" ou "dénote" (voir lemon:denotes et lemon:evokes). Cependant, une telle connexion ne signifie pas que le lexème représente le concept défini par l'élément (voir lemon:LexicalSense et lemon:LexicalConcept). En particulier, si deux lexèmes ont des sens qui se réfèrent au même concept, cela n'implique pas que les deux lexèmes sont synonymes.

Exemple : les lexèmes pour les adjectifs "chaud" et "froid" auraient tous deux un sens contenant une déclaration liée à Q11466 (température), même s'ils sont antonymes.

Editorial Note: Il faudrait décrire comment la fonction du mot peut être décrite pour des choses comme "to" et "a" (anglais), en utilisant des déclarations dans le lexème. Il faudrait aussi expliquer que ces mots ne devraient pas avoir de sens. A-t-on besoin de notes en texte libre ?

Planned Feature:
On pourrait introduire un champ dans le Sens pour les marqueurs syntaxiques et/ou les cadres syntactiques pour la sous-catégorisation (en anglais) (voir aussi the definition sur le wiki UNL). Cela permettrait aux expressions anglaises « ask for », « ask about », « ask to », « ask out », « ask oneself », etc. d'être modélisées comme des sens du même lexème, chacun avec une sous-catégorisation différente. Certains verbes changent également de sens dans les cas ou ils sont utilisés sous forme réflexive ou pas (par exemple, en allemand, übernehmen vs sich übernehmen) BOp Voir synsem:marker et synsem:syntactic-frame.

Glose

La glose d'un sens donne une définition naturelle du sens (voir glose sur Wikipédia et skos:definition). Les gloses ne peuvent pas avoir de références.

Comme les lemmes, les gloses ne sont pas des chaînes de simples caractères, mais des valeurs de texte multilingues. However, the reason is not providing support for variants, but to allow the gloss to be given in entirely different languages. E.g. it would be quite useful for a German learning French to have a German gloss for a French sense.

Une glose ne peut pas être entièrement vide, au moins une langue doit être entrée. Une bonne glose ne laisse que peu ou pas d’ambiguïté sur le sens. Les lexèmes avec plusieurs sens devraient avoir des gloses qui permettent de facilement les distinguer les uns des autres.

Short glosses of only a single or a few words should be avoided as it leaves too much space for interpretation of the meaning.

Sur Wikidata, les gloses sont souvent similaires aux descriptions soigneusement choisies des éléments Q. Par exemple, pour pomme, la description de l’élément Q fruit du pommier est copié en tant que gloses par des outils tel quel MachtSinn pour aligner les lexèmes et les éléments Q et créer les sens manquants.

Voir aussi