Wikibase/Indexation/Format RDF Dump

This page is a translated version of the page Wikibase/Indexing/RDF Dump Format and the translation is 100% complete.

Cette page décrit le format RDF dump et le format d'exportation RDF généré par Wikidata et utilisé dans un but d'extraction et d'indexation. Veuillez noter que bien que proche du format utilisé par Boîte à outils Wikidata , ce n'est ni le même code ni le même format. Même si nous nous efforçons de minimiser les divergences, il peut rester des différences et vous ne devez utiliser que la documentation du format effectivement utilisé.


Les changements de représentation RDF sont assujettis à la Politique d'interface stable

Ce document décrit le vidage RDF tel qu'il peut être téléchargé depuis la source de vidage Wikimedia, et bien qu'on puisse l'utiliser pour créer des requêtes pour le Service de requête de Wikidata, le service peut avoir des petites différences quant à la représentation des données. Consultez le chapitre des différences de données WQDS pour la liste complète.

L'URI canonique de l'ontologie RDF de la Wikibase est http://wikiba.se/ontology. La version actuelle se trouve à http://wikiba.se/ontology-1.0.owl.

Les changements de représentation RDF sont assujettis à la Politique d'interface stable.

Modèle de données

 
Données servant à la description d'un item unique

Le format RDF correspond au modèle de données Wikibase et en est un format d'exportation. Cela signifie en particulier que si le modèle de données change, le format d'exportation s'adaptera en conséquence. Ce document reflétera de tels changements. La description suivante présuppose une certaine familiarité avec le modèle de données et la terminologie employée.

Cette correspondance RDF repose sur celle conçue pour la Boîte à outils Wikidata de Denny Vrandecic et Markus Krötzsch disponible ici : https://web.archive.org/web/20190313052004/http://korrekt.org/papers/Wikidata-RDF-export-2014.pdf.

La description ci-dessous se sert de préfixes pour décrire les IRI des ressources RDF mentionnées. Allez à la section Préfixes pour une description complète. Tous les exemples ci-dessous sont exprimés en syntaxe Turtle.

Versions

La version du modèle de données est spécifiée par le prédicat schema:softwareVersion du nœud schema:Dataset, qui est soit un nœud de vidage pour un dump, soit un nœud de données d'entité (wdata:) pour une page d'entité individuelle.

Versions diffusées :

Version Description
0.0.1 Version initiale.
0.0.2 Modification de l'ordre des coordonnées WKT (T130049)
0.0.3 Ajout d'option de propriété de page à wdata: (T129046)
0.0.4 Ajout de la prise en charge de la conversion et de la normalisation des unités (T117031)
0.0.5 Ajout des quantités sans limite. (T115269)
0.1.0 Modification du codage des liens (T131960)
1.0.0 Retrait de -beta du préfixe de l'ontologie (T112127). La représentation RDF est désormais considérée stable.

Entête

Pour le dump RDF, il existe le noeud d'en-tête wikibase:Dump contenant les informations à propos de la licence, la version logicielle du générateur et la date à laquelle la donnée a été produite. En cas d'exportation d'entité individuelle, ces données sont associées au nœud d'entité (voir ci-dessous).

Exemple d'entête :

 wikibase:Dump a schema:Dataset ;
     cc:license <http://creativecommons.org/publicdomain/zero/1.0/> ;
     schema:softwareVersion "1.0.1" ;
     schema:dateModified "2015-03-21T06:03:55Z"^^xsd:dateTime .
  • cc:license - précise l'IRI de la licence qui s'applique à tout le document RDF.
  • schema:softwareVersion - indique la version du format de dump utilisée (actuellement 1.0.0); est mis à jour lors du changement de format, une fois que le format est sorti de la période bêta. Les mises à jour des versions seront effectuées selon les lignes des versions sémantique, les modifications majeures étant celles de rupture de BC, les modifications mineures étant majeures compatibles avec BC et les modifications par patch, des modifications sur les ajustements mineurs.
  • schema:dateModified - indique la date de validité des données du vidage. Certaines données contenues dans un vidage peuvent être plus récentes que cette date, mais on est assuré qu'il n'y a aucune donnée dans ce vidage plus ancienne que cette date. La date devrait être proche de celle de la plus ancienne donnée contenue dans le vidage, mais pour des raisons techniques elle peut être légèrement différente de celle-ci.

Représentation d'une entité

L'entité est décrite par deux nœuds - le nœud de données et le nœud d'entité. Pour l'entité Q1, le noeud de données est wdata:Q1 et celui d'entité est wd:Q1.

Le nœud de données expose les métadonnées de l'enregistrement de l'entité dans Wikibase - c'est à dire les données qui ne font pas partie des informations de l'entité elle-même mais qui décrivent l'état de l'entité dans la Wikibase. Son type est schema:Dataset et contient les métadonnées suivantes :

  • Informations sur la version de l'entité (schema:version) – c'est un compteur qui augmente à chaque modification des données de l'entité
  • heure de la dernière modification des données de l'entité (schema:dateModified) – comme référence horaire de xsd:dateTime
  • lien vers le nœud de l'entité avec le prédicat schema:about

Exemple :

 wdata:Q2 schema:version "59"^^xsd:integer ;
     schema:dateModified "2015-03-18T22:38:36Z"^^xsd:dateTime ;
     a schema:Dataset ;
     schema:about wd:Q2 .

Le nœud d'entité décrit les données actuellles de l'entité et a pour type wikibase:Item ou wikibase:Property selon le type d'entité. D'autres types d'entités pourront être introduits dans le futur.

La description d'une entité comporte les éléments suivants :

  • Étiquettes d'entités - nom principal de l'entité. Les étiquettes sont définies par les prédiats comme schema:name, rdfs:label et skos:prefLabel avec des objets qui sont littéraux marqués avec la chaîne de caractères de la langue.
  • Alias d'entités - noms secondaires de l'entité. Les alias sont définis comme des prédicats skos:altLabel avec des objets marqués avec la chaîne de caractères de la langue.
  • Description de l'entité - description plus longue de l'entité. Défini comme des prédicats schema:description avec des objets marqués avec la chaîne de caractères de la langue.
  • Déclarations de quasi vérité (voir ci-dessous)
  • Prédicats le reliant aux déclarations complètes

Exemple d'une définition d'entité :

 wd:Q3 a wikibase:Item ;
     rdfs:label "The Universe"@en ;
     skos:prefLabel "The Universe"@en ;
     schema:name "The Universe"@en ;
     schema:description "The Universe is big"@en ;
     skos:altLabel "everything"@en ;
     wdt:P2 wd:Q3 ;
     wdt:P7 "value1", "value2" ;
     p:P2 wds:Q3-4cc1f2d1-490e-c9c7-4560-46c3cce05bb7 ;
     p:P7 wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37,
          wds:Q3-45abf5ca-4ebf-eb52-ca26-811152eb067c .

Propriétés de Page

Un nœud d'entité peut aussi avoir des informations supplémentaires concernant l'entité, telles que le nombre de liens ou de déclarations.

La donnée provient des propriétés de page et peut être spécifiée dans le fichier de configuration. Par exemple :

 wdata:Q42 a schema:Dataset ;
 	schema:about wd:Q42 ;
 	wikibase:statements "275"^^xsd:integer ;
    wikibase:identifiers "206"^^xsd:integer ;
 	wikibase:sitelinks "116"^^xsd:integer .

wikibase:statements indique le nombre de déclarations de cette entité, wikibase:identifiers le nombre de déclarations avec des valeurs d'identifiants externes , et wikibase:sitelinks le nombre de liens de site . Des déclarations supplémentaires pourront être introduites dans le futur.

Items

Les entités représentant des éléments possèdent les données communes des entités comme décrit ci-dessus et peuvent en plus avoir des liens de site attachés, comme décrit ci-après.

Propriétés

Les entités qui représentent des propriétés possèdent également le type de la propriété en utilisant le prédicat wikibase:propertyType. L'objet du prédicat est le type de la propriété décrit après, dans la représentation de la valeur, avec le préfixe wikibase: et chaque mot en majuscules et sans séparateur. C'est à dire que wikibase-item devient wikibase:WikibaseItem.

Chaque propriété est également liée aux prédicats desquels elle dérive. Exemple :

 wd:P22 a wikibase:Property ;
     rdfs:label "Item property"@en ;
     wikibase:propertyType wikibase:WikibaseItem ;
     wikibase:directClaim wdt:P22 ;
     wikibase:claim p:P22 ;
     wikibase:statementProperty ps:P22 ;
     wikibase:statementValue psv:P22 ;
     wikibase:qualifier pq:P22 ;
     wikibase:qualifierValue pqv:P22 ;
     wikibase:reference pr:P22 ;
     wikibase:referenceValue prv:P22 ;
     wikibase:novalue wdno:P22 .

Les prédicats des propriétés ont aussi des définitions de type :

 prv:P22 a owl:ObjectProperty .
 wdt:P22 a owl:DatatypeProperty .

Le type dépend du type de la propriété originale - si c'est une valeur littérale (DatatypeProperty) ou un IRI (ObjectProperty). Néanmoins les prédicats p:, psv: , pqv: et prv: seront toujours owl:ObjectProperty.

Notez que wdno:P22 mentionné ci-dessus n'est pas un prédicat, contrairement aux autres, mais une classe. Voir la description complète dans la section Novalue.

Lexèmes

La description complète est disponible sur Lexeme RDF mapping .

Les lexèmes sont représentés d'après la cartographie RDF des lexèmes . Exemple :

wd:L64723 a ontolex:LexicalEntry ;
     # lemme
     wikibase:lemma "hard"@en ;

     # langue
     dct:language wd:Q1860 ;

     # catégorie lexicale
     wikibase:lexicalCategory wd:Q34698 ;

     # déclarations
     wdt:P2 wd:Q3 ;
     wdt:P7 "value1" , "value2" ;
     p:P2 wds:Q3-4cc1f2d1-490e-c9c7-4560-46c3cce05bb7 ;
     p:P7 wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37 ,
          wds:Q3-45abf5ca-4ebf-eb52-ca26-811152eb067c ;

     # formes
     ontolex:lexicalForm wd:L64723-F1 ;

     # sens
     ontolex:sense wd:L64723-S1 .

MediaInfo

La description complète est disponible sur MediaInfo RDF mapping .

Les entités MediaInfo sont représentées par la correspondance RDF MediaInfo . Exemple :

@prefix sdc: <https://commons.wikimedia.org/entity/> .
@prefix sdcdata: <https://commons.wikimedia.org/wiki/Special:EntityData/> .
@prefix sdcs: <https://commons.wikimedia.org/entity/statement/> .
@prefix sdcref: <https://commons.wikimedia.org/reference/> .
@prefix sdcv: <https://commons.wikimedia.org/value/> .

sdcdata:M6661797 a schema:Dataset ;
	schema:about sdc:M6661797 ;
	cc:license <http://creativecommons.org/publicdomain/zero/1.0/> ;
	schema:softwareVersion "1.0.0" ;
	schema:version "407884644"^^xsd:integer ;
	schema:dateModified "2020-03-29T15:25:01Z"^^xsd:dateTime .

sdc:M6661797 a wikibase:Mediainfo,
		schema:MediaObject,
		schema:ImageObject ;
	schema:encodingFormat "image/jpeg" ;
	schema:contentUrl <https://upload.wikimedia.org/wikipedia/commons/6/64/Douglas_adams_portrait.jpg> ;
	schema:contentSize "38890"^^xsd:integer ;
	schema:height "386"^^xsd:integer ;
	schema:width "600"^^xsd:integer ;
	schema:caption "Photo de Douglas Adams."@fr ;
	rdfs:label "Photo de Douglas Adams."@fr ;
	schema:caption "Douglas Adams' portrait"@en ;
	rdfs:label "Douglas Adams' portrait"@en ;
	schema:caption "Foto di Douglas Adams"@it ;
	rdfs:label "Foto di Douglas Adams"@it ;
	wdt:P180 wd:Q42 ;
	p:P180 sdcs:M6661797-25026d3f-444c-1915-1d5b-c29dbad8cbec .

sdcs:M6661797-25026d3f-444c-1915-1d5b-c29dbad8cbec a wikibase:Statement,
		wikibase:BestRank ;
	wikibase:rank wikibase:PreferredRank ;
	ps:P180 wd:Q42 .

Cet exemple montre les données MediaInfo sur Wikimedia Commons lorsqu'elles sont fédérées avec Wikidata.

Types de déclaration

Le format RDF représente les déclarations sous deux formes - quasi-vérités et déclarations exhaustives.

Quasi-vérités

Les quasi-vérités sont des déclarations qui ont le rang non-obsolète le plus élevé pour une propriété donnée.

En effet, si une déclaration préférée est faite pour la propriété P2, seule la déclaration préférée pour P2 sera considérée comme quasi-vérité.

Dans le cas contraire, toutes les déclarations de rang normal pour P2 sont considérées comme des quasi-vérités.

Les prédicats de quasi vérité (truthy) ont pour préfixe wdt: avec le nom de la propriété (par exemple wdt:P2) et l'objet est la valeur simple (voir ci-dessous) de la déclaration.

Les qualificatifs sont ignorés.

Si la valeur possède une simple normalisation de valeur (actuellement valable uniquement pour l'ID externe), la valeur normalisée est répertoriée sous le préfixe wdtn:, par exemple wdtn:P2.

Déclarations exhaustives

Les déclarations exhaustives représentent toutes les données sur la déclaration dans le système. L'expression complète est représentée comme un nœud séparé, avec le préfixe wds: et l'ID de l'expression (par exemple wds:Q3-4cc1f2d1-490e-c9c7-4560-46c3cce05bb7).

Il n'y a aucun format garanti ou signification quant à l'identifiant de la déclaration.

Les déclarations sont liées à l'entité avec le prédicat et le préfixe p: et le nom de la propriété (par exemple p:P2).

Représentation d'une déclaration

  Avertissement : Il est possible qu'une déclaration fasse référence à une propriété ou un item qui n'existe plus. Par conséquent vous ne devez pas supposer que les prédicats et les objets sont toujours définis.

Le nœud de déclaration représente une déclaration individuelle à propos d'une entité. It has type wikibase:Statement. La déclaration peut contenir le rang, la valeur simple (voir ci-dessous) de la déclaration, le lien vers la valeur complète, les qualificatifs et les références.

Le rang de l'énoncé est représenté par le prédicat wikibase:rank et un objet qui est l'un de : wikibase:NormalRank , wikibase:PreferredRank, wikibase:DeprecatedRank.

L'énoncé qui a le meilleur classement pour la propriété (c'est-à-dire le préféré s'il y en a dans la propriété, sinon le normal) est également de type wikibase:BestRank.

La valeur simple est représentée par le prédicat avec le préfixe ps: et le nom de la propriété (par exemple ps:P2) et l'objet étant la valeur simple.

La valeur complète (si elle est requise par le type) est représentée par le prédicat avec le préfixe psv: (par exemple psv:P2) et l'objet est le nœud de valeur complet.

L'énoncé a toujours au maximum une valeur, mais peut avoir plusieurs qualifieurs et références.

Qualificatifs

Les qualifieurs sont représentés par des prédicats avec le préfixe pq: et le nom de la propriété (par exemple pq:P2) et l'objet étant la valeur simple du qualifieur.

La valeur complète (si elle est demandée par le type) est représentée par le prédicat avec le préfixe pqv: (par exemple pqv:P2) et l'objet étant le noeud de la valeur complète.

Références

Les références sont représentées par le prédicat prov:wasDerivedFrom avec l'objet étant le nœud de référence (voir ci-dessous).

Exemple de déclaration :

 wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37 a wikibase:Statement, wikibase:BestRank ;
     ps:P2 wd:Q3 ;
     wikibase:rank wikibase:PreferredRank ;
     pq:P8 "-13000000000-01-01T00:00:00Z"^^xsd:dateTime ;
     pqv:P8 wdv:382603eaa501e15688076291fc47ae54 ;
     prov:wasDerivedFrom wdref:87d0dc1c7847f19ac0f19be978015dfb202cf59a,   
         wdref:d95dde070543a0e0115c8d5061fce6754bb82280 .

Représentation d'une référence

Les références représentent les informations de provenance des déclarations données.

Les rérérences sont représentées par des noeuds dont le préfixe est wdref: et le nom local est le code de hachage issu du contenu de référence (par exemple wdref:d95dde070543a0e0115c8d5061fce6754bb82280). La valeur précise du hachage n'est pas garantie au-delà du fait que des mêmes références (c.-à-d. avec un contenu identique) généreront un même hachage, et que d'autres références en généreront une autre. La même référence (c.-à-d. une référence possédant les mêmes propriétés avec les mêmes valeurs) sera en général représentée par un nœud unique, même si des nœuds de référence doublons peuvent exister dans les données.

Le type de noeud est wikibase:Reference.

Les valeurs des références sont représentées de la même manière que les valeurs des déclarations, avec des valeurs simples utilisant des prédicateurs avec le préfixe pr: (par exemple pr:P2) et des valeurs complètes avec le préfixe prv: (par exemple, prv:P2), l'objet étant le nœud de la valeur complète. Contrairement aux déclarations, les références peuvent posséder n'importe quel nombre de valeurs.

Exemple de nœud de référence :

 wdref:d95dde070543a0e0115c8d5061fce6754bb82280 a wikibase:Reference ;
     pr:P7 "Some data" ;
     pr:P8 "1976-01-12T00:00:00Z"^^xsd:dateTime ;
     prv:P8 wdv:b74072c03a5ced412a336ff213d69ef1 .

Représentation d'une valeur

Dans le format RDF, les valeurs sont représentées sous deux formes - valeur simple et valeur complète. La valeur simple est toujours un littéral ou un IRI, et sert de valeur directe, ce qui convient aux processus de recherche, d'indexation ou de comparaison. La valeur complète contient des informations supplémentaires sur la valeur, telles que les intervalles, la précision, le calendrier utilisé, etc. Il est à noter que bien que les valeurs simples soient suffisantes pour bon nombre de requêtes, pour d'autres valeurs plus complexes, seules les valeurs complètes répondront au besoin.

Si la déclaration possède une valeur (c'est à dire différente de novalue) alors la valeur simple sera toujours présente.

Les valeurs complètes sont représentées par des nœuds avec pour préfixe wdv: et le nom local représenté par la valeur de hachage du contenu de la valeur (par exemple wdv:382603eaa501e15688076291fc47ae54). Il n'y a aucune garantie de valeur d'un hachage hormis le fait que différentes valeurs produiront différents hachages, et qu'une même valeur mentionnée en plusieurs endroits générera le même hachage. Le noeud de valeur a pour type wikibase:Value. Le contenu du nœud est défini par le type de la valeur (voir ci-dessous).

Exemple de nœud de valeur :

 wdv:b74072c03a5ced412a336ff213d69ef1 a wikibase:TimeValue ;
     wikibase:timeValue "+1976-01-12T00:00:00Z"^^xsd:dateTime ;
     wikibase:timePrecision "11"^^xsd:integer ;
     wikibase:timeTimezone "0"^^xsd:integer ;
     wikibase:timeCalendarModel <http://www.wikidata.org/entity/Q1985727> .

La suite décrit la manipulation de chaque sorte de valeur, en fonction du type de la valeur et du type de la propriété. Veuillez noter que tous les aspects du modèle de données ne sont actuellement pas représentés en RDF, certains aspects pour le moment inusités (tels que les unités ou encore les paires avant/après des dates) sont simplement omis car ils n'apportent aucune information utile. Cela pourra évoluer à l'avenir quand ces aspects commenceront à être exploités par Wikidata.

Chaîne

Les chaînes de caractères ont pour type de la valeur string et string pour celui de la propriété.

La chaîne de caractères est représentée par un littéral de chaîne. Les chaînes de caractères n'ont qu'une seule valeur.

Médias de Commons

Les médias de commons: ont le type de valeur string et le type de propriété commonsMedia.

Un média de Commons est représenté par un IRI avec l'URL complète de la ressource Commons, dérivée du nom de fichier Commons de la donnée sous-jacente. Par exemple : <http://commons.wikimedia.org/wiki/Special:FilePath/Universe%20Photo.svg>. Il n'a qu'une valeur simple.

URL

Les valeurs des URL ont pour type string et pour pour propriété url.

L'URL est représentée comme un IRI correspondant à la chaîne de caractères de l'URL (par exemple <http://www.wikidata.org/>)). Il n'a qu'une valeur simple.

Identifiants externes

Les valeurs des identifiants externes ont pour type string et external-id pour la propriété. Ils sont représentés par une chaîne de caractères littérale. Il n'a qu'une valeur simple.

Si la propriété possède un formateur d'URI pour RDF configuré (sur Wikidata: formatter URI for RDF resource (P1921)), le RDF aura aussi une valeur normalisée, par ex. :

 wd:Q123 wdt:P234 "External-ID" ; 
         wdtn:P234 <http://external.example.com/reference/External-ID>

Identifiants d'entité Wikibase

Les valeurs de l'ID des entités Wikibase ont pour type wikibase-entityid et pour propriété le type wikibase-item.

L'entité est représentée par son IRI, par exemple wd:Q2. Il n'a qu'une valeur simple.

Teste monolingue

Les valeurs des textes monolingues ont pour type monolingualtext et le type de propriété monolingualtext.

Le texte est représenté par une chaîne de caractères littérale avec un label de langue. Il n'a qu'une valeur simple.

Coordonnées géographiques

Les valeurs du texte des coordonnées ont pour type globecoordinate et pour type de propriété, globe-coordinate.

La valeur simple des coordonnées est la chaîne WKT des coordonnées, avec le type geo:wktLiteral, par exemple: "Point(35.3 12.93)"^^geo:wktLiteral. L'ordre des coordonnées dans WKT est : longitude, latitude (à partir de la version 0.0.2 du format).

La valeur complète a les latitude, longitude, et précision en double littéraux, et le globe en IRI.

Exemple :

 wdv:a10564107110b2d5739b8fe235cddf73 a wikibase:GlobecoordinateValue ;
     wikibase:geoLatitude "12.933333333333"^^xsd:double ;
     wikibase:geoLongitude "35.3"^^xsd:double ;
     wikibase:geoPrecision "0.000277778"^^xsd:double ;
     wikibase:geoGlobe <http://www.wikidata.org/entity/Q2> .

Quantité

Les valeurs de quantité ont pour type quantity et pour pour property quantity.

La valeur simple de la quantité est le nombre spécifié, en littéral décimal.

La valeur complète comprend le montant, l'URI unitaire (la valeur par défaut pour les valeurs inférieures à un étant http://www.wikidata.org/entity/Q199), et optionnellement les limites supérieure et inférieure. Si aucune limite haute ou basse n'est fournie, l'incertitude de la quantité est indéfinie. Les valeurs exactes sont représentées par des quantités qui ont la même valeur pour le nombre et les limites haute et basse.

Exemple :

wdv:cb213eea7a0b90d1d7f65c6eabfab9da a wikibase:QuantityValue ;
  wikibase:quantityAmount "+123"^^xsd:decimal ;
  wikibase:quantityUpperBound "+124"^^xsd:decimal ;
  wikibase:quantityLowerBound "+122"^^xsd:decimal ;
  wikibase:quantityUnit <http://www.wikimedia.org/entity/Q199> .

Temps

Le type des valeurs de temps est time et la propriété est de type time.

La valeur simple de la valeur temporelle est soit la valeur de l'horodatage ayant pour type xsd:dateTime, si la valeur peut être convertie en date grégorienne au format ISO, soit une chaîne de caractères telle que celle représentée dans la base de données, si ce n'est pas le cas. Les dates xsd:dateTime suivent le standard XSD 1.1, qui utilise le calendrier proleptique grégorien qui reprédsente l'année 1 avant JC par +0000. Ce qui diffère de la représentation JSON des dates du calendrier julien et grégorien qui suit la numérotation traditionnelle des années en attribuant -0001 à l'année qui précède la naissance du Christ.

La valeur complète comprend la valeur simple ci-dessus sous wikibase:timeValue, la précision et le fuseau horaire en tant qu'entiers, et le modèle de calendrier comme IRI. Notez que le modèle du calendrier est celui des valeurs originelles même si wikibase:timeValue a été converti en grégorien.

Exemple :

 wdv:85374678f22bda99efb44a5617d76e51 a wikibase:Time ;
     wikibase:timeValue "+1948-04-12T00:00:00Z"^^xsd:dateTime ;
     wikibase:timePrecision "11"^^xsd:integer ;
     wikibase:timeTimezone "0"^^xsd:integer ;
     wikibase:timeCalendarModel <http://www.wikidata.org/entity/Q1985727> .

Valeurs normalisées

Certaines valeurs peuvent se représenter sous plusieurs formes, en fonction de l'usage. Par exemple, la longueur peut s'exprimer en différentes unités - pieds, pouces, mètres, miles, etc. Afin de fournir un moyen d'unifier ces formes et ainsi de faciliter l'accès à la donnée par des processus automatisés, les valeurs normalisées ont été introduites, pour représenter des données diverses d'une manière unifiée.

À l'heure actuelle, la seule normalisation de valeur supportée est la conversion des unités de quantités vers leur unité de base - ex. longueur en mètres. À l'avenir, davantage d'unités et de normalisations pourront être ajoutées, ce qui sera documenté ici. La table de conversion est disponible sur Gerrit Mediawiki si nécessaire.

Les seules valeurs simples normalisées sont les identifiants externes (voir ci-dessous).

Quantité normalisée

Les valeurs de quantité normalisées sont des nœuds de valeur, parallèles au nœuds de données originaux mais représentés dans les unités de base. Ils sont connectés à leur nœud parent par des prédicats avec un préfixe où "v" est remplacé par "n" - c'est-à-dire psn:, prn: et pqn:, par exemple :

 wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37 a wikibase:Statement, wikibase:BestRank ;
     ps:P8 "123"^^xsd:decimal ;
     psv:P8 wdv:382603eaa501e15688076291fc47ae54 ;
     psn:P8 wdv:85374998f22bda54efb44a5617d76e51 .

La valeur originale de la quantité est liée à la valeur normalisée par le prédicat wikibase:quantityNormalized:

 wdv:382603eaa501e15688076291fc47ae54 a wikibase:QuantityValue ;
     wikibase:quantityAmount "+123"^^xsd:decimal ;
     wikibase:quantityUpperBound "+124"^^xsd:decimal ;
     wikibase:quantityLowerBound "+122"^^xsd:decimal ;
     wikibase:quantityUnit <http://www.wikidata.org/entity/Q218593> ;
     wikibase:quantityNormalized wdv:85374998f22bda54efb44a5617d76e51.

La valeur normalisée est wikibase:quantityNormalized qui pointe sur lui-même.

Si la valeur est déjà normalisée - c'est-à-dire exprimée en unités de base - alors les prédicateurs "v" et "n" pointent vers la même valeur, et wikibase:quantityNormalized pour cette valeur pointe vers elle-même.

Les quantités sans unité ou avec des unités qui ne sont pas normalisables (ne disposant pas d'une unité de base à laquelle elles peuvent être réduites) n'ont pas de prédicat ni de valeurs normalisées et n'incluent pas wikibase:quantityNormalized.

On recommande de ne pas avoir plus d'une unité de base par propriété. Les unités de base dépendent de la configuration de Wikibase et sont habituellement choisies pour représenter des unités standardisées universellement acceptées, telles que les unités du S.I.

Identifiant externe normalisé

Pour les identifiants externes, la normalisation convertit la valeur de la chaîne en URL, si le formateur d'URL à cette fin est défini dans les données de propriété (via la définition canonicalUriProperty), alors la valeur normalisée sera répertoriée comme valeur wdtn: pour les valeurs de quasi-vérités, et comme valeur normalisée pour les déclarations dans les prédicats psn:, prn: et pqn: selon le contexte dans lequel la valeur apparaît.

Valeurs spéciales

Le modèle de données de Wikibase a deux type spéciaux de snaks - PropertySomeValueSnak qui indique une valeur existante mais dont l'identité ou la valeur est inconnue, et PropertyNoValueSnak qui indique qu'une valeur n'existe pas.

Somevalue

Une valeur inconnue est représentée par un nœud RDF blanc pour les deux déclarations, simplifiée et complète :

 wd:Q3 a wikibase:Item, wdt:P2 _:genid1 .
 wds:Q3-45abf5ca-4ebf-eb52-ca26-811152eb067c a wikibase:Statement ;
     ps:P2 _:genid2 ;
     wikibase:rank wikibase:NormalRank .

Novalue

Novalue n'est pas représenté par une valeur régulière mais par une classe de l'entité, de la déclaration ou de la référence, avec le préfixe wdno: et le nom de la propriété. Exemple :

 wd:Q3 a wikibase:Item, wdno:P7 .
 
 wds:Q3-45abf5ca-4ebf-eb52-ca26-811152eb777c a wikibase:Statement,  wdno:P7 ;
     wikibase:rank wikibase:NormalRank .

L'entité a une classe si elle possède une déclaration de quasi vérité novalue pour cette propriété.

Novalue dans la partie principale ou dans les qualifieurs d'une déclaration correspond à une classe wdno: du noeud de la déclaration, et novalue pour une référence correspond à une classe wdno: sur le noeud de la référence.

Les classes pour wdno: sont définies comme suit :

 wdno:P2 a owl:Class ;
    owl:complementOf _:genid1 .
 
 _:genid1 a owl:Restriction ;
    owl:onProperty wdt:P2 ;
    owl:someValuesFrom owl:Thing .

Liens de sites

Les liens sont représentés par un ensemble de prédicats décrivant le lien URL. Le type de noeud est schema:Article et il est lié à l'entité par le prédicat schema:about.

Les badges sont décrits par le prédicat wikibase:badge. le prédicat schema:name contient le nom à plat de l'article dans la langue du wiki lié.

Exemple :

 <https://en.wikipedia.org/wiki/Duck> a schema:Article ;
     schema:about wd:Q3 ;
     schema:inLanguage "en" ;
     schema:isPartOf <https://en.wikipedia.org/> ;
     schema:name "Duck"@en ;
     wikibase:badge wd:Q5 .

 <https://en.wikipedia.org/> wikibase:wikiGroup "wikipedia" .

L'URL du sujet est composée du préfixe de langue du site, et du nom de l'article, encodé en URL selon la RFC 3986, par ex. :

<https://ru.wikipedia.org/wiki/%D0%A3%D1%82%D0%BA%D0%B0>

En particulier, l'encodage utilisé fonctionne comme suit :

  1. Normalisation du titre en remplaçant chaque espaces par un caractère de soulignement (_).
  2. Application de la fonction wfUrlencode(), qui encode avec des % tous les caractères non-alphanumériques sauf ";:@$!*(),/-_~".

Redirections

Les entités redirigées sont implémentées en tant que prédicats owl:sameAs par exemple si Q6 redirige vers Q1, le dump serait :

 wd:Q6 owl:sameAs wd:Q1 .

Préfixes utilisés

Les préfixes sont utilisés dans les formats RDF pour permettre les préfixes courts (comme Turtle et RDF). Pour les autres formats, l'URL complète est utilisée.

Toutes les URL préfixées qui ne contiennent pas de nom d'hôte sont préfixées par le nom d'hôte du wiki les ayant générées. Toutes les URL préfixées qui contiennent un nom d'hôte sont fixes et ne dépendent pas du wiki les ayant générées.

Préfixe URL complète Utilisation Exemple
wikibase: http://wikiba.se/ontology# Ontologie Wikibase
 wd:Q2 a wikibase:Item
Nœuds
wdata: /Special:EntityData/ Ensemble de données décrivant une entité donnée
wdata:Q2 schema:about wd:Q2 .
wd: /entity/ Entité Wikibase - item ou propriété.
wd:Q2 p:P9 wds:Q2-82a6e009-4f93-28dc-3555-38bbfc3afe6a
wds: /entity/statement/ Nœud de déclaration, décrit une allégation à propos d'une entité.
wds:Q2-a4078553-4ec1-a64a-79e7-c5b5e17b2782
  a wikibase:Statement
wdv: /value/ Nœud de valeur
wdv:87d0dc1c7847f19ac0f19be978015dfb202cf59a a wikibase:Value
wdref: /reference/ Nœud de réference
wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37 prov:wasDerivedFrom wdref:87d0dc1c7847f19ac0f19be978015dfb202cf59a .
wdref:87d0dc1c7847f19ac0f19be978015dfb202cf59a a wikibase:Reference .
Prédicats
wdt: /prop/direct/ Quasi-vérités sur la donnée, associe une entité directement à une valeur.
wd:Q2  wdt:P9 <http://acme.com/>
wdtn: /prop/direct-normalized/ Quasi-vérités sur la donnée, associe une entité directement à une valeur normalisée.
wd:Q2  wdtn:P9 <http://acme.com/ABCDE>
p: /prop/ Associe une entité à une déclaration
wd:Q2 p:P9 wds:Q2-82a6e009-4f93-28dc-3555-38bbfc3afe6awd
wdno: /prop/novalue/ Classe à utiliser quand l'entité a la valeur novalue pour cette propriété.
wd:Q2 a wdno:P9 .
ps: /prop/statement/ Associe une valeur à une déclaration
wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37 ps:P8 "-13000000000-01-01T00:00:00Z"^^xsd:dateTime
psv: /prop/statement/value/ Associe une valeur en profondeur à une déclaration
wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37 psv:P8 wdv:87d0dc1c7847f19ac0f19be978015dfb202cf59a
psn: /prop/statement/value-normalized/ Associe une valeur normalisée à un nœud de déclaration
wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37 psn:P8 wdv:87d0dc1c7847f19ac0f19be978015dfb202cf59a
pq: /prop/qualifier/ Associe un qualificatif à un nœud de déclaration
wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37 pq:P8 "-13000000000-01-01T00:00:00Z"^^xsd:dateTime
pqv: /prop/qualifier/value/ Associe une valeur de qualificatif en profondeur à un nœud de déclaration
wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37 pqv:P8 wdv:87d0dc1c7847f19ac0f19be978015dfb202cf59a
pqn: /prop/qualifier/value-normalized/ Associe une valeur de qualificatif normalisé à un nœud de déclaration
 wds:Q3-24bf3704-4c5d-083a-9b59-1881f82b6b37 pqn:P8 wdv:87d0dc1c7847f19ac0f19be978015dfb202cf59a
pr: /prop/reference/ Associe une référence à une valeur
 wdref:87d0dc1c7847f19ac0f19be978015dfb202cf59a pr:P8 "-13000000000-01-01T00:00:00Z"^^xsd:dateTime
prv: /prop/reference/value/ Associe une référence à une valeur en profondeur
 wdref:87d0dc1c7847f19ac0f19be978015dfb202cf59a prv:P8 wdv:87d0dc1c7847f19ac0f19be978015dfb202cf59a
prn: /prop/reference/value-normalized/ Associe une référence à une valeur normalisée
 wdref:87d0dc1c7847f19ac0f19be978015dfb202cf59a prn:P8 wdv:87d0dc1c7847f19ac0f19be978015dfb202cf59a

Préfixes standard utilisés :

Préfixe URL complète
rdf: http://www.w3.org/1999/02/22-rdf-syntax-ns#
rdfs: http://www.w3.org/2000/01/rdf-schema#
xsd: http://www.w3.org/2001/XMLSchema#
owl: http://www.w3.org/2002/07/owl#
skos: http://www.w3.org/2004/02/skos/core#
schema: http://schema.org/
prov: http://www.w3.org/ns/prov#
geo: http://www.opengis.net/ont/geosparql#

Liste complète des préfixes

Cette liste peut servir aux requêtes SPARQL :

PREFIX bd: <http://www.bigdata.com/rdf#>
PREFIX cc: <http://creativecommons.org/ns#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX geo: <http://www.opengis.net/ont/geosparql#>
PREFIX hint: <http://www.bigdata.com/queryHints#> 
PREFIX ontolex: <http://www.w3.org/ns/lemon/ontolex#>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
PREFIX prov: <http://www.w3.org/ns/prov#>
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX schema: <http://schema.org/>
PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

PREFIX p: <http://www.wikidata.org/prop/>
PREFIX pq: <http://www.wikidata.org/prop/qualifier/>
PREFIX pqn: <http://www.wikidata.org/prop/qualifier/value-normalized/>
PREFIX pqv: <http://www.wikidata.org/prop/qualifier/value/>
PREFIX pr: <http://www.wikidata.org/prop/reference/>
PREFIX prn: <http://www.wikidata.org/prop/reference/value-normalized/>
PREFIX prv: <http://www.wikidata.org/prop/reference/value/>
PREFIX psv: <http://www.wikidata.org/prop/statement/value/>
PREFIX ps: <http://www.wikidata.org/prop/statement/>
PREFIX psn: <http://www.wikidata.org/prop/statement/value-normalized/>
PREFIX wd: <http://www.wikidata.org/entity/>
PREFIX wdata: <http://www.wikidata.org/wiki/Special:EntityData/>
PREFIX wdno: <http://www.wikidata.org/prop/novalue/>
PREFIX wdref: <http://www.wikidata.org/reference/>
PREFIX wds: <http://www.wikidata.org/entity/statement/>
PREFIX wdt: <http://www.wikidata.org/prop/direct/>
PREFIX wdtn: <http://www.wikidata.org/prop/direct-normalized/>
PREFIX wdv: <http://www.wikidata.org/value/>
PREFIX wikibase: <http://wikiba.se/ontology#>

Ontologie

Voici la liste compilée de tous les objets et des prédicats internes au format. Pour la signification des préfixes, allez à la liste des préfixes.

Objets

Désignation Utilisation Contexte
wikibase:Item Item Wikibase Type de wd:Q123 décrivant un élément
wikibase:Property Propriété Wikibase Type de wd:P123 décrivant une propriété
wikibase:Lexeme lexeme Wikibase Type de wd:L123 décrivant un lexème
wikibase:Form forme d'un lexème Wikibase Type de wd:L123-F1 décrivant un formulaire
wikibase:Sense sens d'un lexème Wikibase Type de wd:L123-S1 décrivant un sens
wikibase:Statement Déclaration sur une entité Type de wds:1234 décrivant une déclaration
wikibase:Reference Nœud de référence Type de wdref:1234 décrivant une référence
wikibase:TimeValue Nœud de valeur représentant une valeur temporelle Type de wdv:1234 décrivant une valeur temporelle
wikibase:QuantityValue Nœud de valeur représentant une valeur de quantité Type de wdv:1234 décrivant une valeur de quantité
wikibase:GlobecoordinateValue Nœud de valeur représentant la valeur de coordonnées Type de wdv:1234 décrivant une valeur de coordonnées géographiques
wikibase:Dump Nœud décrivant l'ensemble de données de vidage Utilisé dans l'entête du vidage pour décrire des métadonnées sur le vidage entier
wikibase:PreferredRank Représente un rang préféré pour la déclaration Utilisé en tant qu'objet de wikibase:rank
wikibase:NormalRank Représente un rang normal pour la déclaration Utilisé en tant qu'objet de wikibase:rank
wikibase:DeprecatedRank Représente un rang obsolète pour la déclaration Utilisé en tant qu'objet de wikibase:rank
wikibase:BestRank Représente une déclaration qui a le meilleur rang pour la propriété - c.-à-d. candidat à une inclusion en tant que quasi-vérité Utilisé en tant que type de wikibase:Statement
wikibase:WikibaseItem Type de référence d'une entité Utilisé en tant qu'objet de wikibase:propertyType
wikibase:CommonsMedia Type de référence de média Commons Utilisé en tant qu'objet de wikibase:propertyType
wikibase:GlobeCoordinate Type de géo-coordonnées Utilisé en tant qu'objet de wikibase:propertyType
wikibase:Monolingualtext Valeur de texte monolingue Utilisé en tant qu'objet de wikibase:propertyType
wikibase:Quantity Type de quantité Utilisé en tant qu'objet de wikibase:propertyType
wikibase:String Valeur chaîne de caractères Utilisé en tant qu'objet de wikibase:propertyType
wikibase:Time Valeur temporelle Utilisé en tant qu'objet de wikibase:propertyType
wikibase:Url Type de référence d'URL Utilisé en tant qu'objet de wikibase:propertyType

Prédicats

Les noms en italique signifient que tout nom de propriété peut remplacer le nom de l'exemple P123.

Désignation Utilisation Domaine Co-domaine
wdt:P123 Associe une entité à une valeur de quasi-vérité wikibase:Item|wikibase:Property Valeur simple
wdtn:P123 Associe une entité à une valeur normalisée de quasi-vérité wikibase:Item|wikibase:Property Valeur simple
p:P123 Associe une entité à une déclaration wikibase:Item|wikibase:Property wikibase:Statement
ps:P123 Associe une déclaration à une valeur simple wikibase:Statement Valeur simple
pr:P123 Associe une référence à une valeur simple wikibase:Reference Valeur simple
pq:P123 Déclaration de lien vers la valeur du qualifieur wikibase:Statement Valeur simple
psv:P123 Associe une déclaration à un nœud de valeur wikibase:Statement wikibase:Value
psn:P123 Associe une déclaration à un nœud de valeur normalisée wikibase:Statement wikibase:Value
prv:P123 Associe une référence à un nœud de valeur wikibase:Reference wikibase:Value
prn:P123 Associe une référence à un nœud de valeur normalisée wikibase:Reference wikibase:Value
pqv:P123 Associe une déclaration à un nœud de valeur de qualificatif wikibase:Statement wikibase:Value
pqn:P123 Associe une déclaration à un nœud de valeur normalisée de qualificatif wikibase:Statement wikibase:Value
wikibase:rank Indique le rang de la déclaration wikibase:Statement Un des objets de rang ci-dessus
wikibase:badge Badge attaché à un lien de site schema:Article wikibase:Item - URL du badge
wikibase:propertyType Type de propriété de la propriété de l'entité wikibase:Property Un des objets Type de propriété ci-dessus
wikibase:directClaim Associe une entité de propriété à un prédicat d'allégation directe wikibase:Property wdt:P123
wikibase:directClaimNormalized Associe une entité de propriété à un prédicat d'allégation directe normalisée wikibase:Property wdtn:P123
wikibase:claim Associe une entité de propriété à un prédicat d'allégation/de déclaration wikibase:Property p:P123
wikibase:statementProperty Associe une entité de propriété à un prédicat de valeur simple de déclaration wikibase:Property ps:P123
wikibase:statementValue Associe une entité de propriété à un prédicat de valeur complète de déclaration wikibase:Property psv:P123
wikibase:statementValueNormalized Associe une entité de propriété à un prédicat de valeur normalisée de déclaration wikibase:Property psn:P123
wikibase:qualifier Associe une entité de propriété à un prédicat de valeur simple de qualificatif wikibase:Property pq:P123
wikibase:qualifierValue Associe une entité de propriété à un prédicat de valeur complète de qualificatif wikibase:Property pqv:P123
wikibase:qualifierValueNormalized Associe une entité de propriété à un prédicat de valeur normalisée de qualificatif wikibase:Property pqn:P123
wikibase:reference Associe une entité de propriété à un prédicat de valeur simple de référence wikibase:Property pr:P123
wikibase:referenceValue Associe une entité de propriété à un prédicat de valeur complète de référence wikibase:Property prv:P123
wikibase:referenceValueNormalized Associe une entité de propriété à un prédicat de valeur normalisée de référence wikibase:Property prn:P123
wikibase:hasViolationForConstraint Associe la déclaration transgressant une contrainte à la déclaration de cette contrainte wikibase:Statement wikibase:Statement
wikibase:lemma Associe un lexème Wikibase avec le texte du lemme wikibase:Lexeme Valeur de chaîne de caractères simple
wikibase:lexicalCategory Associe un lexème Wikibase avec son item de catégorie lexicale wikibase:Lexeme wikibase:Item
wikibase:grammaticalFeature Associe une forme de lexème Wikibase avec ses caractéristiques grammaticales wikibase:Form/ontolex:Form wikibase:Item

Les prédicats suivants sont utilisés en valeur en profondeur pour les valeurs de types spéciaux. Tous ces prédicats ont pour domaine wikibase:Value et le co-domaine dépend du type ci-dessous.

Prédicats pour les Géo-Coordonnées

Désignation Type Signification
wikibase:geoLatitude xsd:double Latitude, composant des coordonnées
wikibase:geoLongitude xsd:double Longitude, composant des coordonnées
wikibase:geoPrecision xsd:double Précision des coordonnées
wikibase:geoGlobe IRI URL du globe, par exemple http://www.wikidata.org/entity/Q2 (Terre)

Prédicats pour une Quantité

Désignation Type Signification
wikibase:quantityAmount xsd:decimal Le nombre spécifié
wikibase:quantityUpperBound xsd:decimal La limite supérieure de l'intervalle de valeurs
wikibase:quantityLowerBound xsd:decimal La limite inférieure de l'intervalle de valeurs
wikibase:quantityUnit IRI L'unité de mesure pour les quantités inférieures à l'unité est http://www.wikidata.org/entity/Q199 (c'est-à-dire 1)
wikibase:quantityNormalized IRI Désigne la valeur normalisée, si elle existe.

Prédicats pour le Temps

Désignation Type Signification
wikibase:timeValue xsd:dateTime|string Temps grégorien ou chaîne de caractères si la valeur ne peut pas être représentée en temps grégorien
wikibase:timePrecision xsd:integer Constante de précision du temps
wikibase:timeTimezone xsd:integer Décalage horaire par rapport à l'heure UTC en minutes
wikibase:timeCalendarModel IRI L'URL du calendrier utilisé, par exemple http://www.wikidata.org/entity/Q1985727 (grégorien)

Différences avec les données WDQS

Le service des requêtes Wikidata contient les données sous le format décrit ci-dessus mais il y a de petites différences pouvant avoir leur importance quand vous écrivez des requêtes SPARQL :

  1. Les types (a ou rdf:type) pour wikibase:Item, wikibase:Statement, wikibase:Reference , wikibase:Lexeme, wikibase:Form, wikibase:Sense sont actuellement omis pour des raisons de performance.
    • Pour filtrer sur les éléments, vous pouvez utiliser wikibase:sitelinks [] au lieu de a wikibase:Item (seuls les éléments ont un nombre de liens de site).
    • Pour filtrer les déclarations, vous pouvez utiliser wikibase:rank [] au lieu de a wikibase:Statement (seules les déclarations possèdent un rang).
    • Pour filtrer les références vous pouvez utiliser [] prov:wasDerivedFrom ?reference au lieu de ?reference a wikibase:Reference, mais notez que cela peut renvoyer une référence plusieurs fois; en général, vous obtiendrez les références via prov:wasDerivedFrom de toute façon.
    • Pour filtrer les sens, vous pouvez utiliser ontolex:LexicalSense au lieu de wikibase:Sense.
    • Pour filtrer les formulaires, vous pouvez utiliser ontolex:Form au lieu de wikibase:Form.
  2. Les noeuds de données (wdata:Q2) ne sont pas stockés, toutes les informations comme la version, la révision et les propriétés de page sont stockées à la place dans le noeud d'entité (wd:Q2). Ceci pour des raisons de performances.
  3. Pour les étiquettes, seul rdfs:label est stocké mais pas schema:name ni skos:prefLabel. Comme ils contiennent les mêmes données, il n'est pas utile de stocker les trois.
  4. Les redirections sont enregistrées mais n'ont pas de sémantique supplémentaire implémentée.
  5. Actuellement WDQS utilise les IRI locaux (Skolem IRI) au lieu des noeuds vides pour représenter une valeur quelconque. Elles peuvent être testées avec FILTER wikibase:isSomeValue(?node) rather than FILTER isBlank(?node)

Voir aussi les exemples de requêtes SPARQL pour récupérer des données en utilisant le service WDQS.