Extension:WikibaseLexeme/Veri Modeli

This page is a translated version of the page Extension:WikibaseLexeme/Data Model and the translation is 88% complete.
Outdated translations are marked like this.

Bu, WikibaseLexeme tarafından kullanılan kavramsal veri modelini tanımlayan canlı bir belgedir. Herhangi bir somut bağlama, uygulama, eşleşme veya serileştirmenin spesifikasyonu değildir.

WikibaseLexeme veri modeli, Wikibase'de sözcükler ve ifadeler gibi "Sözlükbirimleri" olarak işlenen verilerin yapısını açıklar. Öğeler kullanarak bu şeyleri modellemek teorik olarak mümkün olsa da, daha anlamlı bir özel model karmaşıklığı azaltmaya ve diğer sözcüklerle yeniden kullanımı ve eşlemeleri geliştirmeye yardımcı olur. Bu veri modeli kavramsaldır ("Hangi bilgileri desteklememiz gerekir?") Ve bu verilerin teknik olarak nasıl temsil edilmesi gerektiğini ("Yazılım hangi veri yapılarını kullanmalıdır?") Veya sözdizimsel olarak ("Veriler nasıl ifade edilmelidir?") bir dosyadır. Ayrı belgeler, JSON ve RDF (Kaynak Tanımlama Çerçevesi) içindeki Wikibase veri modeli serisinin serileştirilmesini açıklar. Sözlükbirimi veri modeli, sabit bir ontoloji gibi davranan sözlükbirimleri tanımlamak için gereken temel kavramları ve ilişkileri tanımlar. Bu ontoloji, Öğeler ve İfade bir sözlük için ayrıntılı modelleme kullanılmasına izin veren minimal bir iskele sağlar. Sözlükbirimi veri modelinin özellikleri Wikibase veri modeli, bu nedenle Vikiveri sözlüğü ve Wikibase veri modeli primer bu belgenin anlaşılmasında yardımcı olabilir. Sözlükbirimi veri modeli, Ontolex W3C topluluk grubu tarafından LEMON modeli ile uyum sağlamayı amaçlamaktadır, kullanışlı ve pratik. Bununla birlikte, Wikibase ruhuyla, Sözlükbirimi modeli, LEMON tarafından alınan daha resmi yaklaşımın aksine, gündelik işbirlikçi düzenleme için yeterince basit ve esnek olacak şekilde tasarlanmıştır.

Sözcükbirimi

Sözlükbirimi veri modelinin görselleştirilmesi

Sözcükbirimi, bir dilin sözcük, ifade veya önek gibi sözcüksel bir öğesidir (Vikipedi2de Sözcükbirimi sayfasına bakın). Sözcükbirimleri, Wikibase veri modeli Varlıklar anlamındadır. Bir Sözcükbirimi aşağıdaki bilgiler kullanılarak tanımlanır:

  • Bir kimlik. Sözcükbirimleri, "L" ile başlayan ve ondalık gösterimde doğal bir sayı olan kimliğe sahiptir, ör. L3746552. Bu kimlikler Sözcükbirime yöneten depo içinde benzersizdir. Kimlik, Sözcükbirime için benzersiz bir URI oluşturmak üzere bir havuzun konsept tabanı URI'sı ile birleştirilebilir.
  • Sözcükbirimin okunabilir bir temsili olarak kullanım için bir Baş Kelime, ör. "koş".
  • Sözcük birliğinin ait olduğu Language. Bu somut bir Öğe kaynağıdır, ör. "İngilizce" için Q1860.
  • Sözcükbirimin ait olduğu Sözcüksel kategori. Bu, somut bir Item kaynak olarak verilmektedir, ör. Q34698 "sıfat" için.
  • Bir Biçim veya Anlam'a özgü olmayan sözcükbirimi özelliklerini açıklamak için İfadeler listesi (ör. türetilmiş veya dilbilgisel cinsiyet veya sözdizimi işlevi).
  • Bir Formlar listesi, tipik olarak 2. kişi / tekil / geçmiş zaman gibi gramer özelliklerinin her bir ilgili kombinasyonu için bir tane.
  • Sözcük biriminin farklı anlamlarını açıklayan Anlamlar listesi (ör. İngilizce isim bank için "financial institution" ve "edge of a body of water").

Editorial Note: İfadeler kullanılarak dilbilgisel cinsiyetin nasıl modellenebileceğine dair bazı ipuçları vermeliyiz.

Sözcükbirim ifadeleri

Örneği

Vikiveri'de genellikle mümkün olan en genel sözlük kategorisini kullanırlar, ör. ek ve sonra bunun yerine hangi tür ekin bir örneği-ifadesini kullandığını açıklayın.

Kullanım örnekleri

Vikiveri'de topluluk, sözcükbiriminde tek bir yerde kullanım örnekleri almaya karar verdi çünkü o zaman onları nerede arayacaklarını biliyorlar. Doğru anlam ve biçime bağlanmak için 2 gösterme özellikleri d:Property:P5830 ve d:Property:P6072 var. Farklı zaman dilimlerine ait birden fazla örneğe sahip olabilirler; farklı yüzyıllar ve formalite/kayıt dışılık ve yazılı/sözlü.

Söz

Lemma, lexeme'in insan tarafından okunabilir bir temsilidir (Vikipedi'de Söz sayfasına bakın). Tipik olarak, sözcükbirimin kanonik formu (örneğin, fiillerin mastar formu) lemma olarak kullanılacaktır (ayrıca bakınız lemon:canonicalForm). Baş kelimeler basit dizeler değildir, ancak MultilingualTextValues, çünkü aynı baş kelimede birden fazla yazım olabilir. Sırpça ve Japonca gibi birden çok yazım kullanan diller için bu özellikle önemlidir.

Example: İngilizce için Baş Kelimesi color İngiliz İngilizcesi için "colour" ve Amerikan İngilizcesi için "color" içerecektir.

Bir Baş Kelimesi tamamen boş olamaz, en az bir varyant sağlanmalıdır.

Not: Baş kelimeler benzersiz değildir ve Baş Kelime, Dil ve Sözlük kategorisinin birleşimi değildir. Aynı sözlük kategorisine sahip iki farklı sözlükbirimi, farklı verilere sahipse aynı dilde mevcut olabilir, cinsiyet, etimoloji, morfoloji (farklı formlar vb.) olabilir.

Example: Baş kelimesi "See" ile sadece cinsiyet içinde farklılık gösteren iki Alman ismi vardır: "der See", "göl" anlamına gelir ve "die See", "deniz" anlamına gelir. Bu iki anlam, cinsiyetlerine göre farklı formlara sahip oldukları için tek bir Baş Kelimesi olarak anlaşılamaz. An example where there would only be one Lexeme would be the German word "Schild", which for its meaning "Shield" can be either masculine or neutral gendered based on the region in Germany (neutral in the north and parts of central Germany).

Biçim

Sözcükçenin morfoloji bir dizi Form olarak anlaşılmaktadır. Her form, bir sözlüğün bir cümlede alabileceği belirli bir sözdizimsel rol veya moda göre nasıl değiştiğini tanımlar (ayrıca bakınız lemon:Form).

'Example: İngilizce run fiili, present participle olarak runs olur ve 3rd person singular “running” olur.

Bir Form aşağıdaki bilgiler kullanılarak tanımlanır:

  • Bir kimlik. Formların ait oldukları Sözlükbirimi kimliğiyle başlayan, ardından bir tire ("-") ve "F" ile başlayan ve ondalık gösterimle doğal bir sayı gelen kimlikleri vardır: ör. L3746552-F7. Bu kimlikler Sözlükbirimi yöneten depo içinde benzersizdir. Kimlik, Form için benzersiz bir URI oluşturmak üzere bir deponun kavram tabanı URI'si ile birleştirilebilir.
  • Formu bir dize olarak yazan bir temsil.

Verilen formun hangi sözdizimsel rol için geçerli olduğunu tanımlayan dilbilgisel özellikler listesi. Bunlar somut bir Öğeler kaynak olarak verilmiştir, ör. Q814722 katılımcı için. Formu veya diğer Formlar veya Öğelerle ilişkilerini daha ayrıntılı olarak açıklayan İfadeler listesi (ör. Telaffuz ses, kafiyelerle, bölgede kullanıldı)

Planned Feature:
Bir Formun hangi bilgileri içerdiğini belirleyen bir "form türü" kavramını ekleyebiliriz. Olası yeni bir tür, mevcut olmadığı bilinen formları temsil etmesine izin veren "var olmayan" olabilir (İngilizce "may" sözün mastarı veya Almanca "Schnee"'nin çoğulu gibi). "Varolmayan" türlerin formlarının ifadeleri ve dilbilgisi özellikleri vardır, ancak temsili yoktur.

Temsil

Bir formun Temsili, bir metinde kullanılan yazılı formudur (compare lemon:writtenRep). Tıpkı Sözcükbirimleri gibi, Temsiller basit dizeler değildir, ancak MultilingualTextValues gibi, aynı formda birden çok komut dosyasında birden çok yazım olabilir.

Bir Temsil tamamen boş olamaz, en az bir varyant sağlanmalıdır.

Her birini gösteren kullanım örneklerinin eklenmesini sağlamak için aynı temsile sahip birden çok forma izin verilir. Vikiveri örneği

Dil Bilimsel Özellik

Bir formun dilbilgisel özellikleri, hangi koşullar altında hangi formda sözdizimsel rolün kullanılacağını belirtir (lexinfo:morphosyntacticProperty ve Vikipedi'de dil bilgisel kategorisi sayfasına bakın). Dilin dilbilgisinin hangi koşullar altında belirli bir formun kullanılmasını gerektirdiğini ifade etmek için çoklu dilbilgisel özellikler birleştirilebilir. Dilbilgisel özellikler Öğeler kaynakçası olarak temsil edilir.

Example: 1. kişi şimdiki zaman çoğul rolü, Vikiveri Öğeleri tarafından temsil edilen üç özellik ile tanımlanabilir: Q192613 (şimdiki zaman), Q21714344 (ilk kişi) ve Q146786 (çoğul).

Editorial Note: "A" ve "an" modellerini nasıl modelleyebiliriz? Bunu tanımlamak için özellik olarak hangi öğeyi kullanırdık? Sonuçta ücretsiz metin kullanım notlarına ihtiyacımız var mı?

Editorial Note: "Barones" gibi cinsiyete özgü biçimlerin gerektiği gibi Formlar veya ayrı Sözcükbirimleri olarak ele alınabileceğini unutmamalıyız.

Anlam

Bir sözcükçenin duyuları, bir metinde temsil edebileceği farklı anlamlardır. Duyular doğal dil tanımları veya parlaklık olarak verilir. (Vikipedi'deki boyutsal tanımları karşılaştırır).

Bir his, aşağıdaki bilgiler kullanılarak tanımlanır:

  • Kimlik. Duyuların ait oldukları Sözcülbirimi kimliğinden başlayarak bir tire ("-") ve "S" ile başlayan ve ondalık gösterimle doğal bir sayı gelen kimlikleri vardır: ör. L3746552-S4. Bu kimlikler Sözcükbirimini yöneten depo içinde benzersizdir. Kimlik, Sense için benzersiz bir URI oluşturmak üzere bir havuzun konsept temel URI'sı ile birleştirilebilir.
  • Doğal dili kullanarak Sense'nin anlamını tanımlayan bir Parlaklık.
  • Anlam ve duyu ve öğelerle ilişkilerini daha fazla açıklayan bir İfadeler listesi (ör. bu anlamda öğe, eşanlamlı sözcük, karşıt anlamlı sözcük, çağrışım, kayıt, o anlamına gelir, çağrıştırıyor). Vikiveri'de duyunun kültürel olarak uyarlanmış bir görüntüsünü sağlamak için resim de eklenmiştir, örn. kültürler arasında büyük farklılıklar gösterebilen bir mektup kutusu veya renk.

Editorial Note: Ortak bir yanlış anlama kaynağını ele almak için iyi bir yer bulmalıyız: Duyular, uyandırdıkları veya belirttikleri uygun bir Açıklama ile Vikiveri Öğelerine bağlanabilir (lemon:denotes ve lemon:evokes karşılaştırır). Özellikle, iki sözcükbirim aynı kavrama bu şekilde atıfta bulunan duyulara sahipse, bu, iki sözcükbiriminin eşanlamlı olduğu anlamına gelmez.

Örnek: İngilizce "hot" ve "cold" sıfatlarının sözcüklerinin her ikisi de zıt olsalar bile Q11466 (sıcaklık) anlamına gelen bir anlama sahip olabilir.

Editorial Note: Lexeme'de İfadeler kullanarak "to" veya "a" gibi şeyler için function kelimesinin nasıl tanımlanabileceğini tanımlamalıyız. Ayrıca fonksiyon kelimelerinin duyuları olmaması gerektiğini de açıklamalıyız. Ücretsiz metin kullanım notlarına ihtiyacımız var mı?

Planned Feature:
Sense'de sözdizimsel işaretleyiciler ve / veya sözdizimsel çerçeveler alt kategori için bir alan ekleyebiliriz (ayrıca UNL vikideki tanımına bakınız). Bu, "ask for", "ask about", "ask out", "ask oneself", "ask to" vb. her biri farklı bir alt kategoriye sahip aynı sözcük anlamı olarak modellenir. Bazı fiiller refleks olarak kullanılıp kullanılmadığına bağlı olarak anlamı değiştirir (ör. Almanca "übernehmen" ve "sich übernehmen"). synsem:marker ve synsem:syntactic-frame karşılaştırır.

Açıklama

Bir duyunun parlaklığı duyunun doğal bir tanımını verir (Vikipedi'de Parlak ve skos:definition sayfalarına bakın). Parlaklara kaynak verilemez.

Lemmalar benzer şekilde, Parlaklar basit dizeler değildir, MultilingualTextValues olur. Bununla birlikte, sebep varyantlar için destek sağlamak değil, parlaklığın tamamen farklı dillerde verilmesine izin vermektir. Örn. Fransızca öğrenen bir Almanca için, Fransızca anlamında bir Almanca parlaklığa sahip olmak oldukça faydalı olacaktır.

Parlaklık tamamen boş bırakılamaz, en az bir dil sağlanmalıdır. İyi bir parlaklık, anlamla ilgili belirsizlik için çok az yer sağlar veya hiç yer almaz. Birden çok duyuya sahip sözcük sözcükleri, birbirinden kolayca ayırt edilebilen parlaklığa sahip olmalıdır.

Anlamın yorumlanması için çok fazla alan bıraktığından, yalnızca bir veya birkaç kelimeden oluşan kısa sözlerden kaçınılmalıdır.

Vikiveri'de Parlaklılar genellikle Q-öğeleri üzerinde özenle hazırlanmış açıklamalara çok benzer. Örn. elma için Q-öğeleri İngilizce açıklaması fruit of the apple tree, sözcükbirimleri ve Q-öğeleri birlikte eşleştirmek ve eksik duyuları yaratmak için MachtSinn gibi araçlar kullanıldığında parlak olarak kopyalanır.

Ayrıca bakınız