Données structurées de Wikimedia

This page is a translated version of the page Structured Data Across Wikimedia and the translation is 87% complete.
Outdated translations are marked like this.

SDAW[1] est un projet qui nous aidera à structurer le contenu sur les pages de wikicode de façon à les rendre reconnaissables automatiquement par des machines (machine-recognizable) ainsi que reliables entre elles automatiquement par des machines (machine-relatable), afin de rendre plus facile et plus accessible la lecture, l’édition et la recherche au sein des projets et sur l’Internet.

Cela aidera les utilisateurs à associer les contenus entre les projets Wikimedia, aidera les lecteurs à entrer plus profondément dans l’écosystème de connaissances Wikimedia et aidera les contributeurs à mieux propager l’information au sein des projets et au-delà, de façon similaire à Wikidata. Le projet fournira également un lieu pour expérimenter des outils d’édition assistée par ordinateur pour rendre plus facile et plus accessible l’édition pour davantage de contributeurs de part le monde.

The project ran from February 1, 2021 to June 30, 2023.

Contexte

Ce projet vient à la suite du développement similaire terminé sur Commons, en tant que partie de la précédente subvention SDC [2], et sera partiellement financé par une subvention de trois ans de la Fondation Sloan. Le travail sur SDC nous a rendu plus attentifs au besoin de métadonnées plus avancées pour tous les contenus afin que les APIs puissent fournir de meilleurs résultats de recherche, ce qui permet en retour de rendre le contenu plus accessible, plus facilement trouvable, traduisible et utilisable pour d’autres besoins.

Le projet a trois principaux objectifs :

  1. Permettre aux machines de reconnaître le contenu Wikimedia et suggérer des liens vers d’autres contenus Wikimedia. Nous travaillons actuellement sur le premier cas au travers du projet de suggestion d'images.
  2. Imaginer un moyen de structurer les articles et les pages pour permettre de nouveaux formats de contenu – tel que du contenu proposé en plus petites parties facilement séparables qui soient plus accessibles pour les lecteurs, afin de les utiliser et de les partager.
  3. Donner aux utilisateurs Wikimedia un moyen plus attrayant et plus efficace de rechercher et trouver du contenu, s’appuyant sur la recherche de médias (MediaSearch) et explorant de nouvelles façons d’améliorer la recherche au sein des Wikipédias en utilisant des données structurées.

Ce qui change

Les objectifs du projet sont de concevoir et de réaliser le prototype d'un nouveau système dont le but serait d'être assez flexible pour distribuer tout type de métadonnées dont on pourrait avoir besoin dans un futur proche.

Nous avons identifié trois projets principaux que nous allons développer comme partie de notre travail :

  1. la Suggestion d'images, une fonctionnalité pour les utilisateurs expérimentés qui les aidera à illustrer les articles Wikipedia
  2. les Métatonnées de section, connu également comme Eléments de section (Section topics), pour décrire le contenu d'une section d'un article Wikipedia
  3. les Améliorations de la recherche (Search improvements), qui vont utiliser le contenu structuré pour proposer aux utilisateurs une manière plus conviviale et efficace de chercher et trouver du contenu dans les Wikipedias.

Suggestion d'images

Voir aussi : Suggestions d'images

L'interface utilisateur de la Suggestion d'images permet le développement de systèmes pour les données structurées, au travers de tous les projets Wikimedia.

Ce travail reposera sur le travail déjà commencé comme partie du projet de tâche structurée Ajouter une image. Mais il se focalisera sur l'amélioration du processus pour les utilisateurs expérimentés. En particulier, nous allons cibler les utilisateurs qui ont fait des modifications ou qui suivent un article donné ou un ensemble d'articles, car ils semblent être plus experts sur le sujet et porter un certain intérêt à l'amélioration de cet ou ces article(s).

Projet Eléments Section

Le projet des Eléments section (Section Topics project) identifie les sections d'un article et crée des éléments pour chacune d'elles en utilisant plusieurs méthodes telles que :

  • un algorithme qui détecte les éléments Wikidata basés sur les liens bleus des sections (développé en partenariat avec les équipes des Données structurées, de la Recherche et la Plateforme de données)
  • la possibilité de reconnaître automatiquement les sections d'un article (développé en partenariat avec les équipes des Données structurées et de la Plateforme de données).

Un des premiers cas d'utilisation analysé pour les éléments de section sont les suggestions d'images de niveau section, qui utilisent l'algorithme des liens en bleu et l'infrastructure d'identification des sections ci-dessus, et qui peuvent être fournis à la fois via l'expérience aux nouveaux venus, et via les notifications pour les contributeurs expérimentés. Ceci sera construit en s'appuyant sur le travail réalisé sur les suggestions d'images et sera développé en partenariat avec les équipes des Données structurées, de la Plateforme de données, de la Recherche Research et Search, de Android, et de Croissance.

Ces éléments ne seront pas modifiés et n'impacteront pas l'expérience actuelle d'édition pour les utilisateurs. Toutes ces activités seront automatiques et ne dépendront pas des actions des contributeurs. Actuellement ce projet est dans sa phase de developement, et il reste des aspects qui nécessitent encore des investigations ou qui attendent les commentaires des utilisateurs.

Améliorations de la recherche

Le projet d'Améliorations de la recherche utilise le contenu structuré pour proposer aux utilisateurs une manière plus conviviale et plus efficace de chercher et trouver du contenu dans les Wikipedias. En améliorant Special:Search, nous voulons permettre aux utilisateurs de trouver les informations qu'ils cherchent ou qu'ils n'auraient pas remarquées, ou qui auraient déjà fait l'objet de recherches précédentes.

Nous allons identifier et définir des améliorations de special search incrémentales qui utilisent le contenu structuré, pour aider les utilisateurs dans leur recherche de contenu, particulièrement dans les wikis de langue ayant le moins d'articles.

Ce que nous ne voulons pas faire

  1. laisser les utilisateurs en dehors du processus
  2. encombrer les utilisateurs avec trop de nouveaux contenus à modérer
  3. ajouter un biais quelconque aux projets Wikimedia
  4. ajouter des vecteurs supplémentaires pour le vandalisme
  5. introduire trop de complexité dans nos systèmes

Mises à jour

  • The final report of DPLA[3] project funded by SDAW[1] to drive the reuse of described and attributed images was published.

  • Survey about Image Suggestions notifications run on Portuguese, Russian and Indonesian Wikipedia.

  • La phase de test de la Suggestion d'images a commencé sur les Wikipedias en catalan, finnois, hongrois et norvégien.

  • Premier tour des Suggestions d'images testées avec succès sur les Wikipedia portugaise, russe et indonésienne.
  • Mise à jour des pages du projet pour refléter le nouveau status actuel de l'initiative.

  • mise à jour des pages du projet pour refléter le nouvel état actuel de l'initiative et des trois projets principaux à développer.
  • La Wikipedia indonésienne s'est ajoutée comme troisième communauté de test.

  • Contact établi avec les communautés portugaise et russe Wikipedia pour être les premières communautés à tester les Suggestions d'images.

  • Le projet arrive à une première étape de test, où on expérimente les images potentiellement utiles aux articles Wikipedia en utilisant des notifications pour alerter les utilisateurs.

mai-août 2021

  • Attente de commentaires sur ces idées.
  • Développer grossièrement sur les squelettes de travail et les maquettes pour aider à exploiter ces idées.
  • Exploration de l'infrastructure pour prendre en charge ce travail via le processus du forum Prendre une décision technique. Voir tâche T274181.

Second semestre 2020

Donnez votre avis

Les commentaires sur le projet sont et seront toujours les bienvenus. Nous sommes particulièrement intéressés par les idées que vous pourriez avoir sur les limites que vous verriez de l'implication de l'homme dans le processus de création des métadonnées du sujet. Nous souhaitons recevoir vos commentaires sur les questions ouvertes suivantes :

  1. Vos attentes concernant le projet
    1. Qu'attendent les utilisateurs de ce projet ? Quelles sont les actions nécessaires à entreprendre ?
    2. Comment pensez-vous que ces métadonnées puissent être utilisées ? Avez-vous une idée sur la manière dont elles pourraient vous aider dans vos flux de travail ?
  2. Modération des métadonnées
    1. Est-ce que la modération est nécessaire pour éviter le vandalisme et / ou le biais ?
    2. Si la modération est nécessaire, comment peut-elle être gérée effectivement ?
  3. Ajout et confirmation des métadonnées
    1. Est-ce qu'il faut donner aux utilisateurs la possibilité d'approuver ou de rejeter les métadonnées suggérées automatiquement par le système ?
    2. Les utilisateurs veulent-ils pouvoir ajouter des métadonnées supplémentaires au-delà de celles suggérées automatiquement par le système ?
    3. Pensez-vous qu'il soit suffisant pour les utilisateurs de pouvoir envoyer des commentaires avec leurs suggestions sur la manière d'améliorer les métadonnées générées par la machine quand c'est nécessaire ?
  4. Droits d'affichage et de modification
    1. Voulons-nous que les métadonnées soient visibles pour tous les utilisateurs, ou pour certaines classes d'utilisateurs ?
    2. Voulons-nous que les métadonnées soient modifiables par tous les utilisateurs, ou par certaines classes d'utilisateurs ?

Des commentaires plus particuliers aux projets peuvent aussi être écrits sur leur page de discussion.

Financement

Le financement partiel de ce travail est fourni par une bourse restreinte suivie de la Fondation Alfred P. Sloan, pour continuer le travail fait par le premier tour des fonds et développer les SDC[2].

Références

  1. 1.0 1.1 1.2 SDAW — Structured Data Across Wikimedia
  2. 2.0 2.1 SDC — Structured Data on Commons
  3. 3.0 3.1 DPLA — Digital Public Library of America