Aide:Contrôler l'indexation sur les moteurs de recherche

This page is a translated version of the page Help:Controlling search engine indexing and the translation is 100% complete.
PD Note : si vous modifiez cette page, vous acceptez de placer votre contribution sous licence CC0. Plus d’informations sont disponibles sur le projet Aide dans le domaine public.
Quelques versions anciennes de cette page ont été importées sous la licence CC BY-SA. Seules les nouvelles contributions sont dans le domaine public.
PD

MediaWiki permet aux utilisateurs de tenter de contrôler l'indexation des moteurs de recherche de différentes manières, communément appelée noindexation, car la position par défaut est que les pages sont indexées. La plupart des méthodes reposent sur l'utilisation de la métabalise HTML noindex, qui indique aux moteurs de recherche de ne pas indexer certaines pages. Le respect de la balise ou du fichier robots.txt , notamment en ce qui concerne la suppression du contenu déjà indexé, dépend de chaque moteur de recherche et peut, en théorie, être totalement ignoré.

Les méthodes de contrôle sont :

  1. Contrôle d'un espace de noms entier, via les paramètres du logiciel MediaWiki.
  2. Contrôle des classes de pages, via MediaWiki:Robots.txt
  3. Contrôler les pages individuelles en y ajoutant le mot magique __NOINDEX__, soit directement, soit en utilisant un modèle conçu pour le contenir.
  4. Contrôler les pages en ajoutant le mot magique __NOINDEX__ dans les modèles standards utilisés dans certaines situations.

La politique d'indexation établie par l'un des moyens ci-dessus ne s'applique qu'au contenu de la page. Les vues qui font partie de l'interface MediaWiki (comme l'historique, la version historique de la page, ou la plupart des pages spéciales) ne sont jamais indexées, quels que soient les paramètres définis ci-dessus.[1]

Configuration logicielle et robots.txt

Configuration logicielle

Des espaces de noms entiers peuvent être non-indexés via $wgNamespaceRobotPolicies .

En même temps, __NOINDEX__ peut être désactivé dans certains espaces de noms. Ceci est contrôlé par le paramètre $wgExemptFromUserRobotsControl du logiciel MediaWiki, qui a pour valeur par défaut $wgContentNamespaces .

$wgArticleRobotPolicies peut être utilisé pour spécifier des politiques différentes pour des pages individuelles.

Robots.txt non indexé

Le message système MediaWiki:Robots.txt peut être utilisé pour noindexer des pages. Contrairement aux paramètres du logiciel, il peut être directement modifié.

Mot magique NOINDEX

Pages individuelles

Les pages individuelles peuvent être noindexées en ajoutant le mot magique __NOINDEX__ dans cette page. Cela peut être fait soit directement, soit en utilisant un modèle conçu pour contenir le mot magique (par exemple {{NOINDEX }}) ; cela peut faciliter le suivi de l'utilisation du mot clé.

Les pages contenant le mot-clé sont suivies par MediaWiki, et automatiquement classées dans une catégorie de suivi. Le nom de la catégorie est déterminé par MediaWiki:Noindex-category.

Modèle standard noindexing

Les modèles standard peuvent inclure le mot clé __NOINDEX__, ce qui permet le noindexing de pages auxquelles les modèles sont appliqués. Un modèle utilisé pour signaler un type de page particulièrement sensible peut alors être automatiquement noindexed.

Mot magique INDEX

Pages individuelles

Les pages individuelles peuvent passer outre la non-indexation des espaces de noms en ajoutant le mot magique __INDEX__ dans cette page. Les pages contenant le mot-clé sont suivies par MediaWiki, et automatiquement classées dans une catégorie de suivi. Le nom de la catégorie est déterminé par MediaWiki:Index-category. Cependant, INDEX ne permet pas de passer outre la non-indexation via MediaWiki:Robots.txt. Il remplace $wgArticleRobotPolicies .

Problèmes actuels

  • phab:T24251 – Mot magique pour supprimer une page des résultats de recherche internes de MediaWiki

Notes

  1. Pour plus de détails, voir l'appel de Article à setRobotPolicy().