Data Terstruktur Lintas Wikimedia

This page is a translated version of the page Structured Data Across Wikimedia and the translation is 95% complete.

Data Terstruktur Lintas Wikimedia (bahasa Inggris: Structured Data Across Wikimedia (SDAW)) adalah proyek untuk menyusun data secara terstruktur dari teks wiki yang dapat dikenali oleh mesin. Tujuannya adalah untuk memudahkan kita dalam membaca, menyunting, maupun mencari konten di proyek Wikipedia dan internet.

Selain itu, proyek ini dapat menghubungkan beragam konten yang ada di proyek Wikimedia, membantu pembaca dalam mengeksplorasi ekosistem pengetahuan Wikimedia, serta menyebarkan informasi ke seluruh proyek Wikimedia secara efisien layaknya Wikidata. Dalam proyek ini, kami juga memberikan ruang untuk bereksperimen dengan peralatan penyuntingan menggunakan bantuan komputer untuk mempermudah akses penyuntingan bagi seluruh kontributor.

Latar belakang

Proyek ini merupakan lanjutan dari proyek sebelumnya yang sudah terwujud di Wikimedia Commons, yaitu Structured Data on Commons (SDC), serta akan didanai separuhnya selama tiga tahun oleh Sloan Foundation. Selama mengerjakan proyek SDC, kami menyadari bahwa dibutuhkan data secara terstruktur untuk seluruh konten yang ada di proyek Wikimedia dan bukan semata-mata untuk Wikimedia Commons.

Untuk tercapainya keberhasilan dari proyek ini, kami menargetkan tiga hal sebagai berikut:

  1. Menggunakan pemelajaran mesin untuk mengenali konten Wikimedia dan memberikan saran yang berhubungan ke konten Wikimedia lainnya. Kami sudah melakukan ujicoba melalui proyek saran untuk gambar.
  2. Merancang struktur artikel dan halaman untuk mengaktifkan format konten yang baru, misalnya suatu konten (dalam hal ini artikel dan halaman) dapat disajikan dalam format yang sederhana agar mudah untuk diakses dan dibagikan kepada khalayak luas.
  3. Memudahkan kontributor Wikimedia untuk mencari konten dengan lebih efisien. Kami selalu mencari cara baru untuk menyempurnakan sistem pencarian di seluruh situs web Wikimedia menggunakan data yang terstruktur.

Proyek

Tujuan akhir dari proyek ini adalah mendesain dan merancang sistem baru untuk memudahkan dalam mengakses semua metadata yang mungkin akan kami butuhkan ke depannya.

Terdapat tiga proyek yang menjadi bagian dari fokus kerja kami:

  1. Saran untuk gambar, yaitu fitur bagi pengguna yang sudah berpengalaman untuk menambahkan gambar secara otomatis ke artikel Wikipedia yang belum memiliki gambar sama sekali.
  2. Topik subjudul, yaitu fitur untuk mengenali suatu subjudul yang ada di artikel Wikipedia.
  3. Pencarian yang disempurnakan, yaitu fitur untuk memudahkan kontributor dalam mencari konten di Wikipedia secara lebih efisien.

Saran untuk gambar

Tampilan antarmuka untuk proyek ini sedang dalam tahap pengembangan untuk disesuaikan dengan tujuan dari proyek induk (Data Terstruktur Lintas Wikimedia).

Proyek ini dibangun dari dasar yang sudah ada sebelumnya yaitu proyek “Tambahkan gambar” ke artikel Wikipedia. Namun, untuk kali ini kami akan lebih berfokus kepada pengguna yang sudah berpengalaman. Dalam hal ini, kami menargetkan pengguna yang sudah berkontribusi dalam jumlah yang banyak pada beragam artikel. Maka dari itu, mereka sudah memiliki pemahaman secara matang terhadap suatu/beberapa topik dan bisa memilih gambar mana yang dirasa sesuai untuk artikel dengan topik yang mereka kuasai.

Topik subjudul

Proyek ini bertujuan untuk mengenali subjudul yang ada pada artikel dan membuat topik berdasarkan subjudul tersebut. Terdapat beberapa elemen yang mendukung proyek ini:

  • algoritme yang dapat mendeteksi butir Wikidata berdasarkan pranala dalam di bagian subjudul (akan dikerjakan bersama-sama dengan tim Data Terstruktur, Penelitian, Pemelajaran Mesin, dan Platform Data);
  • kemampuan untuk secara otomatis dalam mendeteksi subjudul pada artikel (akan dikerjakan bersama-sama dengan tim Data Terstruktur dan Platform Data);
  • saran gambar untuk subjudul, di mana kami akan menggunakan dua elemen di atas untuk ditampilkan bagi pengguna baru maupun pengguna yang sudah berpengalaman melalui notifikasi.

Untuk poin terakhir akan dirancang di atas proyek saran untuk gambar yang akan dikerjakan bersama oleh tim Pemelajaran Mesin, Platform Data, Penelitian, Pencarian, dan Growth.

Terlepas dari otomatisasi yang akan diterapkan dari proyek ini, kami usahakan untuk tidak mengubah alur maupun memengaruhi kenyamanan pengguna dalam berkontribusi. Semua ini bersifat otomatis dan tidak akan mengganggu kontributor yang sekadar ingin menyunting artikel. Proyek ini masih dalam tahap pemeriksaan dan kami masih membutuhkan masukan dari kontributor.

Berdasarkan keberlangsungan dari semua opsi di atas, proyek ini juga mengacu pada:

  • menggunakan proyek topik subjudul untuk menyempurnakan otomatisasi mesin pencari (SEO) milik kami dengan layanan mesin pencari dari pihak ketiga (bekerja sama dengan tim Web)
  • membangun kerja sama dengan komunitas Wikipedia yang lebih besar untuk melihat seberapa besar pengaruh dari peralatan baru kami (bekerja sama dengan tim Data Terstruktur, Growth, dan Program Komunitas (GLAM/Campaigns)).

Pencarian yang disempurnakan

Proyek ini akan menggunakan konten secara terstruktur untuk memudahkan kontributor dalam mencari konten di Wikipedia secara lebih efisien.

Kami memiliki tujuan untuk mengidentifikasi dan melakukan pembaruan "pencarian spesial" yang menggunakan konten terstruktur secara bertahap. Hal ini bertujuan untuk memudahkan pengguna dalam mencari konten yang mereka inginkan, khususnya bagi proyek wiki dari suatu bahasa yang artikelnya sedikit.

Apa yang tidak ingin kami lakukan?

  1. Mengesampingkan peran manusia (dalam hal ini adalah kontributor) dalam berkontribusi
  2. Membingungkan pengguna dengan terlalu banyak konten yang perlu dimoderasi
  3. Menambah bias (yang sebelumnya sudah ada dan selalu kami hindari secara bersama-sama) yang ada di proyek Wikimedia
  4. Menyuburkan tindakan yang merusak (vandalisme)
  5. Mempersulit pengguna dalam menggunakan peralatan kami

Status terkini

(2022-06)

(2022-03)

  • Melakukan pembaruan halaman proyek yang disesuaikan dengan kondisi terkini.
  • Indonesian Wikipedia joins in as the third tester community.

(2022-02)

  • Melakukan kerja sama dengan komunitas Wikipedia bahasa Portugis dan Rusia sebagai komunitas pertama yang mencoba proyek saran untuk gambar.

(2021-11)

  • Proyek sudah masuk dalam tahap pertama uji coba, yaitu menggunakan notifikasi untuk memberitahukan pengguna bahwa terdapat gambar yang bisa digunakan bagi artikel Wikipedia yang tidak memiliki gambar sebelumnya.

Mei-Agustus 2021

(2021-02)

  • Meminta masukan untuk ide berikut.
  • Merancang sketsa dan prototipe untuk mewujudkan ide tersebut.
  • Mencari infrastruktur yang dapat mendukung proyek ini melalui proses di Technical Decision Making Forum. Untuk selengkapnya, silakan kunjungi task T274181.

Pertengahan akhir tahun 2020

Umpan balik

Kami senantiasa membuka diri untuk umpan balik (masukan) demi keberlangsungan proyek ini, terlebih bagi siapa saja yang memahami konsep metadata dan pemelajaran mesin. Maka dari itu, kami ingin mendengar pendapat Anda berdasarkan pertanyaan berikut:

  1. Harapan dan ekspektasi Anda mengenai proyek ini
    1. Apa yang pengguna harapkan dari proyek ini? Apakah ada hal-hal penting yang harus kami perhatikan?
    2. Bagaimana Anda membayangkan penggunaan dari metadata? Dapatkah Anda menerapkannya dalam kehidupan sehari-hari?
  2. Moderasi metadata
    1. Apakah moderasi diperlukan untuk menghindari vandalisme dan/atau bias?
    2. Jika moderasi diperlukan, bagaimana cara melakukannya dengan lebih efektif?
  3. Menambahkan dan menyetujui metadata
    1. Apakah Anda menginginkan pengguna agar dapat menyetujui atau menolak metadata berdasarkan saran yang diberikan secara otomatis?
    2. Apakah Anda menginginkan pengguna untuk menambahkan metadata tambahan terlepas dari saran yang telah diberikan secara otomatis?
    3. Apakah Anda berpikir bahwa cukup bagi pengguna hanya untuk memberikan umpan balik (masukan) berdasarkan saran yang diberikan secara otomatis?
  4. Keistimewaan untuk menampilkan dan menyunting
    1. Apakah Anda ingin agar metadata untuk dapat terlihat secara terbuka bagi semua pengguna atau hanya bagi sebagian pengguna yang memiliki hak tertentu?
    2. Apakah Anda ingin agar metadata untuk dapat disunting secara terbuka bagi semua pengguna atau hanya bagi sebagian pengguna yang memiliki hak tertentu?

Untuk masukan secara spesifik mengenai proyek terkait dapat disampaikan di halaman pembicaraan proyek berikut:

Pendanaan

Proyek ini merupakan pendanaan terbatas lanjutan yang sebagian besar berasal dari Alfred P. Sloan Foundation untuk melanjutkan proyek yang sebelumnya telah dibuat yaitu Structured Data on Commons.