Topic on Talk:VisualEditor/Flow

Insert citations

19
Summary by Elitre (WMF)
Noé (talkcontribs)

Hi,

Sorry if it is not the right place for this suggestion. During Wikimania 2016 we discussed about links between Wiktionary and Wikisource, and we reach a solution to tide them up. Well, in VisualEditor it is already possible to include media from Commons. So, may it be possible to include similarly Sentences from Wikiquote or Wikisource? I mean: you click on Insert citations put a word and tick languages and it request x project to give sentences that include the requested word.

It may be of some use for Wikipedia, but very useful for Wiktionary as definition came with attestation. If this tool can also format the references, it may permit to insert a sentence that contain a specific word in less than a second! Such an improvement!

I have no idea on how difficult it can be to develop that, but there is a need for it, and we can organize a vote to prove that if needed. I'll be happy to explain more precisely if my English is too cryptic, so feel free to react in any way.

Whatamidoing (WMF) (talkcontribs)

Noé, thanks for this note. I think I understand your goal. There may be more than one way to get example sentences.

I'm going to pass this idea along to User:Trizek (WMF). He knows more about Wiktionary than I do. I think he will also be interested in your idea. So, please feel free to post in French.

Trizek (WMF) (talkcontribs)

I know about Wiktionary thanks to Noé. :)

Insert Images is easy: you have one image and identified meta-data attached to (good job, dear Commonists).

If you want to pick a precise citation, that's not the case for Wiktionary or Wikisource. I think it will be much more complicated.

This said, please post your idea in details in French. Automated translation is pretty accurate.

Noé (talkcontribs)

L'idée en français alors. Actuellement, en cliquant sur "Insérer" dans l’Éditeur Visuel, il apparaît une liste d'options dont "Média" qui va rechercher sur Commons. La façon dont je vois les choses serait d'ajouter une option "Citations" qui ouvre une fenêtre de requête permettant d'interroger Wikisource et Wikinews, dans les versions linguistiques choisies. La requête sortirait des phrases contenant le mot cible, délimitées par des points (détectés automatiquement), et mettant en gras le mot clé. Il suffirait ensuite de cocher les citations adéquates puis de valider pour qu'elles s'insèrent avec la source bien formatée (modèle source sur le Wiktionnaire francophone). De cette manière, il serait plus simple de citer des projets libres que d'aller piocher sur Google Books...ce qui est la pratique actuelle. Je ne sais pas comment des développeurs pourraient faire ça, mais ça serait génial :)

Elitre (WMF) (talkcontribs)

Wow, I never thought about this, and yet it makes so much sense. I put it at https://phabricator.wikimedia.org/T139152, which can be improved if I misunderstood something. I think we should also ask the Search guys. Looks like a clever idea though.

Trizek (WMF) (talkcontribs)

Comme je disais en anglais, cela est facile à faire pour les images, car celles-ci sont uniques : une page = une image. Les méta-données qui y sont attachées sont facilement trouvables.

Pour des contenus textuels, c'est bien moins évident : ce sont des blocs de texte, dans lesquels il faut trouver telle ou telle phrase en fonction d'un contexte ou d'un auteur... C'est très difficile à mettre en place.

Je vais faire remonter l'idée. Aurais-tu quelques exemples concrets ?

Noé (talkcontribs)

Je réalise bien la différence, et entends que ça puisse être très difficile, mais parfois, il suffit de bien exprimer les problèmes les plus complexes pour que des solutions émergent. Et puis, il se trouvera peut-être quelqu'un qui piochera ce sujet lors d'un prochain hackathon, ça n'a pas forcément vocation a être développé par des employés de la Fondation. Il y a une fonction un peu comme ça dans Linguee, un outil en ligne que j'aime bien. Ça marche plus ou moins bien, mais ça fait le taf en général. Par exemple : http://www.linguee.fr/francais-anglais/traduction/%C3%AAtre+moteur+dans.html

Sorry to write in French. Trizek wrote he considers this operation very complex and I assure I got it. I imagine describing properly a problem may help to solve it at some point. And maybe there will be someone that may like this challenge at the next Hackathon. As an example of this kind of feature, I can mention Linguee: http://www.linguee.fr/francais-anglais/traduction/%C3%AAtre+moteur+dans.html

Whatamidoing (WMF) (talkcontribs)

You do not need to apologize for writing in French here. Mediawiki.org is not an English-only project. You are welcome to post in French.

Trizek (WMF) (talkcontribs)

(Mes collègues ont accès aux outils de traduction automatique qui transcrivent très bien le français :))

Linguee est un sacré projet, que j'utilise tous les jours (je l'avoue). J'ai du mal à voir le lien entre Linguee et l'idée proposée : Linguee cherche des relations entre phrases ayant le même sens. Tu souhaites avoir un outil de citations qui va chercher des éléments suivant un conteste général. Or, il y a une différence entre chercher la traduction de « Napoléon est mort à Sainte-Hélène » et chercher les citations qui se rapportent à son décès.

Peux-tu préciser ton exemple ?

Elitre (WMF) (talkcontribs)
Noé (talkcontribs)

En fait, ce qui intéresse le Wiktionnaire, c'est d'avoir des attestations avec une orthographe identique. Chaque variation orthographique a droit à son entrée, et la requête serait donc uniquement sur une chaîne de caractère, sans prise en compte de la sémantique. C'est à dire que l'on ne recherche pas la définition de "pomme" mais seulement des phrases dans lesquelles il y aurait le mot "pomme" (et nous n'aurions pas "pommier" car nous n'en voulons pas). Est-ce que tu voyais autre chose ?

Trizek (WMF) (talkcontribs)

Je ne voyais pas grand chose :)

Elitre has raised an interesting possibility to work on that, with the Discovery team. @CKoerner (WMF) may be interested by that idea of having a way to quote citations from somewhere (search occurencies of "apple" to illustrate the Wiktionary with examples of sentences where "apple" is used).

VIGNERON (talkcontribs)

Bonjour,

Intéressé et concerné, je me permet de laisser un message.

Du point de vue technique, il me semble que cela se découpe ainsi :

  • recherche du mot dans Wikisource
  • découpage de la phrase (ou la partie de la phrase)
  • insertion dans le Wiktionnaire
  • insertion des données bibliographiques

Le premier point me semble trivial.

Le second est déjà un peu plus compliqué (comment savoir où couper ? quelle section de la phrase est pertinente et fait sens ?) mais cela ne me semble pas insurmontable (Linguee le fait bien : pas de problèmes pour les phrases courtes qui sont les plus courantes).

Le troisième point dépend de ce que l'on attend ; une solution simple serait de faire un copier-coller, non ? Une véritable transclusion serait bien trop compliqué (nécessiterait de faire comme des Labeled Section Transclusion) et ne correspond pas au besoin.

J'avoue mon ignorance sur la complexité technique précise du quatrième point ; lesdites informations bibliographiques sont en cours de migration vers Wikidata mais un chantier délicat et un peu complexe (difficile à complètement automatiser, on a passé 2 jours à réfléchir à la question pendant Wikimania ; en gros, on a conclu qu'il valait mieux le faire doucement mais surement).

Noé (talkcontribs)

Bonjour,

Merci Vigneron, et d'accord avec toi dans l'ensemble. Copier-coller une phrase est suffisant, pas besoin de transclusion. Idéalement, le Wiktionnaire francophone met en italique toute la phrase et en gras le mot vedette, mais chaque langue a un choix de mise en forme différent et il faudrait envisager des aménagements locaux. Pour les sources, l'ordre est éventuellement différent selon les langues, et ce ne sera peut-être pas si trivial. Dans fr.wikt nous les mettons dans un modèle source.

Trizek (WMF) (talkcontribs)

Donc avoir un moyen de mettre en avant le mot (surbrillance) dans un ensemble de phrases serait l'idée ?

Noé (talkcontribs)

Oui. Je n'avais pas vu la question avant, désolé. En réfléchissant à cette idée à nouveau, j'ai réalisé qu'il s'agissait simplement d'interroger une base textuelle de la même manière qu'avec le moteur de recherche standard, avec les différences pointées par Vigneron. Je mentionnais Linguee pour l'aspect visuel, la mise en avant de ce que l'on recherche. Pour les sources, j'imagine que ça ne sera pas forcément évident de récupérer le numéro de page.

Andrew Sheedy (talkcontribs)

Ce que l'on voudrait, c'est de pouvoir chercher dans Wikidata et Wikisource les occurrences des mots qu'on veut trouver, et puis de selectionner les phrases pertinentes (qui contiennent le mot cible) pour les incorporer dans l'entrée sur Wiktionnaire/Wiktionary. Dans l'entrée, on aimerait que le mot vedette soit en gras et que les données bibliographiques soient incluses dans la bonne ordre. Si c'est possible, il serait encore mieux d'insérer toutes ces données ainsi que le texte exemplaire dans une modèle, mais il suffirait peut-être de les copier-coller à peu près comme l'exemple suivant :

date de publication=date

auteur=nom de famille, prénom

titre=titre

lien vers la source=lien

ISBN=ISBN (s'il y en a un)

(d'autres renseignements pertinents)

texte=texte avec le mot vedette en gras

Désolé d'avoir écrit en français même si ma langue maternelle est l'anglais, mais je n'ai que rarement l'opportunité de l'écrire et j'aime pratiquer quand je peux. :) J'espère que tout est compréhensible. Sinon, je peux m'expliquer en anglais....

Et Noé, c'est une idée fantastique, en passant. :)

Elitre (WMF) (talkcontribs)
Billinghurst (talkcontribs)

To follow on from @ VIGNERON

The Wikisources currently utilise Extension:Labeled Section Transclusion to mark a printed page into sections, which then enables the sections to be transcluded internally within our wikis. I could see that the ability to mark a section of text is of interest to a wiktionary, and may have some conceptual interest for citations. Consider if we had the ability to easily markup text with a section, and apply a distinctive label that identifies that it is a citation, the word, the language, then probably to the wikidata equivalent or hardlink to the wiki/word

Then whether the section component could be either transcluded or bot-generated extraction. It is at least in a state to be useful.

Notes:

  • the ability to xwiki transclude has been long mentioned (there may be ye olde phabricator tickets), and never gained priority, so I see that the proof of concept can be of importance and useful, if that is the avenue that may be worth exploring
  • adding multiple sections to Wikisource works would not be problematic as long as we design a schema for unique or non-clashing nomenclature
  • one advantage of our section markup is that it also allows for overlapping sections (uniquely label both start and end tags)
  • transcluded pages in the Wikisources have page numbering as anchors, and that with these works being (well getting there) in Wikidata, that there is good scope for good citation, with that improving over time as edition data improves.
  • I know that I have found numbers of words in our older texts that have not been within the English Wiktionary, and have added them, though often without citation as the learning curve is steep for an occasional user, so any tool that could make that easier would definitely be beneficial
  • there would be hundreds or thousands of existing uses of the wikt: interwiki within works that could be queried
Reply to "Insert citations"