Extension:TextExtracts

This page is a translated version of the page Extension:TextExtracts and the translation is 81% complete.
Outdated translations are marked like this.
Cette extension est fournie avec MediaWiki 1.34 et supérieur. Ainsi vous n'avez pas besoin de la télécharger à nouveau. Néanmoins, vous devez encore suivre les autres instructions fournies.
This extension is under code stewardship review and not actively maintained (tâche T256505). No new feature requests will be considered during this period.
Manuel des extensions MediaWiki
TextExtracts
État de la version : stable
Implémentation API
Description Fournit une API avec des extraits de contenu de page en texte brut ou en HTML restreint
Auteur(s) Max Semenik (MaxSemdiscussion)
Politique de compatibilité Versions ponctuelles alignées avec MediaWiki. Le master n'est pas compatible arrière.
MediaWiki >= 1.40.0
Modifie la base
de données
Non
Licence Licence publique générale GNU v2.0 ou supérieur
Téléchargement
  • $wgExtractsExtendOpenSearchXml
  • $wgExtractsRemoveClasses
Téléchargements trimestriels 148 (Ranked 70th)
Utilisé par les wikis publics 2,046 (Ranked 189th)
Traduire l’extension TextExtracts sur translatewiki.net si elle y est disponible
Problèmes Tâches ouvertes · Signaler un bogue

L'extension TextExtracts fournit une API qui permet d'extraire du texte brut ou du HTML restreint (HTML dont le contenu pour certaines classes CSS a été enlevé) du contenu d'une page.

Téléchargement

Cette extension peut être récupérée directement depuis Git [?]:

  • Naviguer dans le code
  • Certaines extensions étiquettent les versions stables.
  • Chaque branche correspond à une version antérieure de MediaWiki. Il y a aussi une branche master (maître) qui contient la dernière version alpha (elle peut nécessiter une version alpha de MediaWiki)

Décompressez l'instantané et placez-le dans le répertoire extensions/TextExtracts/ de votre installation MediaWiki.

Si vous êtes familier de Git et si vous avez un accès au shell de votre serveur, vous pouvez aussi obtenir l'extension de la manière suivante:

cd extensions/ git clone https://gerrit.wikimedia.org/r/mediawiki/extensions/TextExtracts.git

Installation

  • Téléchargez et placez le(s) fichier(s) dans un répertoire appelé TextExtracts dans votre dossier extensions/.
  • Ajoutez le code suivant à la fin de votre fichier LocalSettings.php  :
    wfLoadExtension( 'TextExtracts' );
    
  •   Fait – Accédez à Special:Version sur votre wiki pour vérifier que l'extension a bien été installée.

Pour les utilisateurs de MediaWiki 1.26 ou précédents :

Les instructions ci-dessus décrivent la nouvelle procédure pour installer cette extension en utilisant wfLoadExtension(). Si vous avez besoin d'installer cette extension sur les précédentes versions de MediaWiki (1.26 ou antérieur), à la place de wfLoadExtension( 'TextExtracts' );, vous devez utiliser :

require_once "$IP/extensions/TextExtracts/TextExtracts.php";

Paramètres de configuration

  • $wgExtractsRemoveClasses est un tableau de <tag>, <tag>.class, .<class>, et #<id> qui sera exclus de l'extraction.
  • Par exemple, $wgExtractsRemoveClasses[] = 'dl'; supprime le texte indenté, souvent utilisé pour les notes chapeau qui n'ont pas de modèle et qui ne sont pas souhaitées dans les résumés.
    extension.json définit les valeurs par défaut, dont la classe noexcerpt fait partie - ceci peut être ajouté à n'importe quel modèle pour l'exclure.
  • $wgExtractsExtendOpenSearchXml indique si TextExtracts doit fournir ses extraits au module API Opensearch . Par défaut la valeur est false.

API



prop=extracts (ex)

(main | query | extracts)

Returns plain-text or limited HTML extracts of the given pages.

Parameters:
exchars

How many characters to return. Actual text returned might be slightly longer.

Type: integer
The value must be between 1 and 1,200.
exsentences

How many sentences to return.

Type: integer
The value must be between 1 and 10.
exlimit

How many extracts to return. (Multiple extracts can only be returned if exintro is set to true.)

Type: integer or max
The value must be between 1 and 20.
Default: 20
exintro

Return only content before the first section.

Type: boolean (details)
explaintext

Return extracts as plain text instead of limited HTML.

Type: boolean (details)
exsectionformat

How to format sections in plaintext mode:

plain
No formatting.
wiki
Wikitext-style formatting (== like this ==).
raw
This module's internal representation (section titles prefixed with <ASCII 1><ASCII 2><section level><ASCII 2><ASCII 1>).
One of the following values: plain, raw, wiki
Default: wiki
excontinue

When more results are available, use this to continue. More detailed information on how to continue queries can be found on mediawiki.org.

Type: integer

Un autre exemple

Résultat
{
    "query": {
        "pages": {
            "9228": {
                "pageid": 9228,
                "ns": 0,
                "title": "Earth",
                "extract": "Earth, also called the world and, less frequently, Gaia, (or Terra in some works of science fiction)..."
            }
        }
    }
}

Mises en garde

Il y a plusieurs choses auxquelles vous devez faire attention lorsque vous utilisez l'API

  • Nous ne recommandons pas l'utilisation de 'exsentences'. Elle ne fonctionne pas pour les extraits HTML et il y a beaucoup de cas limite pour lesquels il n'existe pas. Par exemple Arm. gen. Ing. John Smith was a soldier. sera traité comme 4 phrases. Nous ne prévoyons pas de corriger cela.
  • les images en ligne sont extraites de la réponse (même en mode HTML). Cela signifie que si vous utilisez l'extension Math ainsi que les formules dans votre section principale, elles peuvent ne pas apparaître dans la sortie résumée.
  • En mode HTML nous ne pouvons pas garantir un HTML cohérent. Le HTML résultat peut s'avérer non valide ou mal structuré.
  • En mode texte brut :
    • les références peuvent ne pas être retirées (voir phab:T197266)
    • si un paragraphe se termine par une balise HTML, par exemple la balise 'ref', les passages à la ligne peuvent être supprimés (voir phab:T201946),
    • les passages à la ligne peuvent être supprimés après les listes phab:T208132
    • Articles must begin with the lead paragraph for an extract to be generated. The use of any template, and/or unclosed or empty HTML element may result in no preview for the article. E.g. "<div></div>hello" will give an empty extract.

FAQ

Comment peut-on supprimer le contenu d'un extrait ou d'un aperçu de page ?

TextExtracts supprime tout élément marqué avec la classe noexcerpt. Ceci est fourni par le wgExtractsRemoveClasses global.

Voir aussi