Extension:TextExtracts

This page is a translated version of the page Extension:TextExtracts and the translation is 100% complete.
Cette extension est fournie avec MediaWiki 1.34 et supérieur. Ainsi vous n'avez pas besoin de télécharger à nouveau. Néanmoins, vous devez encore suivre les autres instructions fournies.
This extension is under code stewardship review and not actively maintained (tâche T256505). No new feature requests will be considered during this period.
Manuel des extensions MediaWiki
TextExtracts
État de la version : stable
Implémentation API
Description Fournit une API avec des extraits de contenu de page en texte brut ou en HTML restreint
Auteur(s) Max Semenik (MaxSemdiscussion)
Politique de compatibilité Versions ponctuelles alignées avec MediaWiki. Le master n'est pas compatible arrière.
MediaWiki >= 1.43
Modifie la base
de données
Non
Licence Licence publique générale GNU v2.0 ou supérieur
Téléchargement
  • $wgExtractsRemoveClasses
  • $wgExtractsExtendOpenSearchXml
  • $wgExtractsExtendRestSearch
Téléchargements trimestriels 102 (Ranked 57th)
Utilisé par les wikis publics 2,046 (Ranked 189th)
Traduire l’extension TextExtracts sur translatewiki.net si elle y est disponible
Problèmes Tâches ouvertes · Signaler un bogue

L'extension TextExtracts fournit une API qui permet d'extraire du texte brut ou du HTML restreint (HTML dont le contenu pour certaines classes CSS a été enlevé) du contenu d'une page.

Installation

  • Téléchargez et placez le(s) fichier(s) dans un répertoire appelé TextExtracts dans votre dossier extensions/.
    Les développeurs et les contributeurs au code doivent à la place installer l'extension à partir de Git en utilisant:cd extensions/
    git clone https://gerrit.wikimedia.org/r/mediawiki/extensions/TextExtracts
  • Ajoutez le code suivant à la fin de votre fichier LocalSettings.php  :
    wfLoadExtension( 'TextExtracts' );
    
  •   Fait – Accédez à Special:Version sur votre wiki pour vérifier que l'extension a bien été installée.

Paramètres de configuration

  • $wgExtractsRemoveClasses est un tableau de <tag>, <tag>.class, .<class>, #<id> qui sera exclus de l'extraction.
    Par exemple, $wgExtractsRemoveClasses[] = 'dl'; supprime le texte indenté, souvent utilisé pour les notes chapeau qui n'ont pas de modèle et qui ne sont pas souhaitées dans les résumés.
    extension.json définit les valeurs par défaut dont la classe noexcerpt fait partie - ceci peut être ajouté à n'importe quel modèle pour l'exclure.
  • $wgExtractsExtendOpenSearchXml indique si TextExtracts doit fournir ses extraits au module API Opensearch . Par défaut la valeur est false.

API


prop=extracts (ex)

(main | query | extracts)

Returns plain-text or limited HTML extracts of the given pages.

Specific parameters:
Other general parameters are available.
exchars

How many characters to return. Actual text returned might be slightly longer.

Type: integer
The value must be between 1 and 1,200.
exsentences

How many sentences to return.

Type: integer
The value must be between 1 and 10.
exlimit

How many extracts to return. (Multiple extracts can only be returned if exintro is set to true.)

Type: integer or max
The value must be between 1 and 20.
Default: 20
exintro

Return only content before the first section.

Type: boolean (details)
explaintext

Return extracts as plain text instead of limited HTML.

Type: boolean (details)
exsectionformat

How to format sections in plaintext mode:

plain
No formatting.
wiki
Wikitext-style formatting (== like this ==).
raw
This module's internal representation (section titles prefixed with <ASCII 1><ASCII 2><section level><ASCII 2><ASCII 1>).
One of the following values: plain, raw, wiki
Default: wiki
excontinue

When more results are available, use this to continue. More detailed information on how to continue queries can be found on mediawiki.org.

Type: integer


Un autre exemple
Résultat
{
    "query": {
        "pages": {
            "9228": {
                "pageid": 9228,
                "ns": 0,
                "title": "Earth",
                "extract": "Earth, also called the world and, less frequently, Gaia, (or Terra in some works of science fiction)..."
            }
        }
    }
}

Mises en garde

Il y a plusieurs choses auxquelles vous devez faire attention lorsque vous utilisez l'API ou un logiciel qui utilise l'API par exemple Extension:Popups .

  • Nous ne recommandons pas l'utilisation de 'exsentences'. Elle ne fonctionne pas pour les extraits HTML et il y a beaucoup de cas limite pour lesquels il n'existe pas. Par exemple Arm. gen. Ing. John Smith was a soldier. sera traité comme 4 phrases. Nous ne prévoyons pas de corriger cela.
  • les images en ligne sont extraites de la réponse (même en mode HTML). Cela signifie que si vous utilisez l'extension Math et des formules dans votre section principale, elles peuvent ne pas apparaître dans la sortie du résumé.
  • En mode HTML nous ne pouvons pas garantir un HTML cohérent. Le HTML résultat peut s'avérer non valide ou mal structuré.
  • En mode texte brut :
    • les références peuvent ne pas être retirées (voir phab:T197266)
    • si un paragraphe se termine par une balise HTML, par exemple la balise 'ref', les passages à la ligne peuvent être supprimés (voir phab:T201946)
    • les passages à la ligne peuvent être supprimés après les listes phab:T208132
    • Articles must begin with the lead paragraph for an extract to be generated. The use of any template, and/or unclosed or empty HTML element may result in no preview for the article. E.g. "<div></div>hello" will give an empty extract.

FAQ

Comment peut-on supprimer le contenu d'un extrait ou d'un aperçu de page ?

TextExtracts supprime tout élément marqué avec la classe .noexcerpt. Ceci est fourni par la variable de configuration $wgExtractsRemoveClasses (qui définit aussi quelques autres éléments exclus).

Voir aussi