Help:CirrusSearch
![]() |
Nota: Cuando editas esta página, aceptas liberar tu contribución bajo la licencia CC0. Para más información mira las páginas de ayuda de dominio público. | ![]() |
La manera más rápida de encontrar información en los proyectos de Wikimedia es buscarla directamente. En todas las páginas existe un cuadro de buscar.
CirrusSearch es una extensión de MediaWiki que utiliza Elasticsearch para proporcionar funciones mejoradas de búsqueda respecto de la búsqueda predeterminada de MediaWiki. La Fundación Wikimedia utiliza CirrusSearch para todos los proyectos de Wikimedia. Esta página describe las características de CirrusSearch. Si la página no resulve tus dudas, siéntete libre de preguntar en la página de discusión y alguien te responderá.
Para más información, visitar sobre la extensión de MediaWiki, véase Extension:CirrusSearch .
Para su uso en Wikidata, véase Help:Extension:WikibaseCirrusSearch .
Funcionamiento
Introduce palabras clave o frases y pulsa la tecla Intro del teclado. O bien, haz clic en el icono de la lupa o el botón «Buscar» o «Ir».
Si el título de una página coincide exactamente con el texto escrito (o bien, si utilizas el botón «Ir»), se abrirá esa página directamente. Envío de caso contrarios, se buscan todas las páginas en el wiki (con algunas restricciones, véase más adelante), y se presenta una lista de los artículos que contienen la palabra (o las palabras) buscadas, o un mensaje que informa de que ninguna página tiene todas las palabras clave y frases.
Si haces clic en el botón “Buscar” sin escribir nada, irás a 'Especial:Buscar' en donde aparecerán opciones de búsqueda extras (también disponibles desde cualquier lista de resultado de búsqueda)
En determined casos puede ser muy útil restringir la búsqueda a determinadas páginas (como por ejemplo, las páginas de User namespace). Marca los espacios de nombres que necesites para esta búsqueda.
Mejoras
CirrusSearch ofrece tres mejoras principales respecto a la herramienta predefinida de búsqueda de MediaWiki, a saber:
- Mejor compatibilidad de búsquedas en idiomas diferentes.
- Actualizaciones más rápidas al índice de búsquedas: así, las modificaciones en los artículos se reflejan en los resultados de las búsquedas más rápidamente.
- Búsquedas en plantillas: el contenido de los artículos incrustados en plantillas ahora aparece en los resultados de las búsquedas.
¿Con qué frecuencia se actualiza el índice de búsqueda?
Hay dos índices de búsqueda principales a considerar:
El primero es la búsqueda de texto completo, en Special:Search. Este índice se actualiza en tiempo casi real. Los cambios hechos en las páginas deberían aparecer inmediatamente en los resultados de las búsquedas. Los cambios realizados en plantillas deberían mostrarse en los artículos que incluyen esa plantilla en unos pocos minutos. Una edición "nula" del artículo (editar y guardar sin hacer cambio alguno) puede forzar que se muestren los cambios, pero si todo va bien, esto no debería ser necesario.
El segundo índice a considerar es la búsqueda automática de títulos. Este índice se actualiza una vez al día y refleja lo que se encontró en el índice de búsqueda de texto completo en el momento en que se actualizó el índice. Dependiendo del momento en que se haga una nueva página, podría tomar dos días encontrarla en el título autocompletado. If this is unacceptable for a particular use case, within user search options the title completion can be changed to classic prefix search which uses the full-text search index.
Sugerencias de búsqueda
Las sugerencias que se obtienen al escribir en el cuadro de búsqueda se ordenan mediante una medida aproximada de la calidad de cada artículo. En esta se toman en cuenta el número de enlaces entrantes, el tamaño de la página, la cantidad de enlaces externos, el número de títulos y el número de redirecciones.
Es posible ignorar las sugerencias de búsqueda y enviar las consultas directamente a la página de resultados de búsqueda.
Basta con añadir una virgulilla ~
antes de la consulta.
Por ejemplo, «~Frida Kahlo».
Seguirán apareciendo sugerencias de búsqueda, pero al accionar la tecla Intro se navegará a la página de resultados de búsqueda.
El plegado de acentos/diacríticos está activado para algunos idiomas; los detalles son específicos para cada idioma.
The algorithm used to rank suggestions is described in more detail at Extension:CirrusSearch/CompletionSuggester#Ranking criteria.
Búsqueda de texto completo
Una "búsqueda de texto completo" es una "búsqueda indizada". Todas las páginas están almacenadas en el wiki base de datos, y todas las palabras en ellos están almacenadas en la base de datos de búsqueda, el cual es un índice al texto lleno del wiki. Cada palabra visible es indexed a la lista de páginas donde está encontrado, así que un buscar una palabra es tan rápidamente tan mirando arriba de un solo-récord.[1] Además, para cualesquier cambios en la formulación, el índice de búsqueda se actualiza en unos segundos.
Hay muchos índices del "texto completo" de la wiki para facilitar los muchos tipos de búsqueda necesarios. El wikitexto completo se indexa muchas veces en muchos índices de propósito especial, cada uno de los cuales analiza el wikitexto de la manera que optimice su uso. Algunos ejemplos de índices son:
- Texto "auxiliar", incluye las notas de sombrero, los pies de foto, el TdC y cualquier wikitexto clasificado por un atributo HTML class=searchaux.
- El texto "lead-in" es el wikitexto entre la parte superior de la página y el primer título.
- El texto "categoría" indexa los listados en la parte inferior.
- Las plantillas están indexadas. Si las palabras transcluidas de una plantilla cambian, se actualizan todas las páginas que la transcluyen. (Esto puede llevar mucho tiempo dependiendo de la cola de trabajo.) Si las subplantillas utilizadas por una plantilla cambian, el índice se actualiza.
- El contenido de los documentos almacenados en el espacio de nombres Archivo/Medios se indexa ahora. Se reconocen miles de formatos.
Hay soporte para docenas de idiomas, pero se buscan todos los idiomas. Hay una lista de actualmente lenguas soportadas en elasticsearch.org; ver su documentación encima contribuyendo para entregar peticiones o remiendos. También se utilizan bibliotecas de código abierto de terceros para dar soporte a otros idiomas no cubiertos por Elasticsearch.
CirrusSearch optimizará su consulta y la ejecutará. Los títulos resultantes se ponderan en función de su relevancia y se procesan en gran medida, de 20 en 20, para la página de resultados de la búsqueda. Por ejemplo, se obtienen fragmentos del artículo y los términos de búsqueda se resaltan en negrita.
Los resultados de la búsqueda suelen ir acompañados de varios informes preliminares. Estos incluyen Quiso decir (corrección ortográfica), y, cuando no se encontrarían resultados de otra manera, dirá Mostrando resultados para (corrección de la consulta) y buscar en lugar de (su consulta).
Entre las prestaciones de la búsqueda se incluyen además:
- Ordenar las sugerencias de navegación por el número de enlaces entrantes.
- Empezar con el carácter de tilde
~
para desactivar la navegación y las sugerencias de forma que también se preserve el ranking de la página. - Caracteres de coincidencia inteligente normalizando (o "doblando") los caracteres que no son del teclado en caracteres del teclado.
- Las palabras y frases que coinciden se resaltan en negrita en la página de resultados de la búsqueda. El resaltador es un analizador cosmético, mientras que el analizador de búsqueda-indización realmente encuentra la página, y estos pueden no estar 100% sincronizados, especialmente para regex. El resaltador puede coincidir con más o menos precisión que el indexador.
Palabras, frases y modificadores
El término básico de búsqueda es una palabra o una "frase entre comillas". Los detalles varían según el idioma, especialmente para los idiomas sin espacios, pero la búsqueda suele reconocer que una "palabra" es:
- una cadena de dígitos
- una cadena de letras
- subpalabras entre transiciones de letras/dígitos, como en txt2regex
- subpalabras dentro de un nombre compuesto usando camelCase
Una "palabra tope" es una palabra que se ignora (porque es común, o por otras razones). La lista de palabras reservadas es específica de cada idioma y no todos los idiomas admiten palabras reservadas.[2] Un término de búsqueda determinado coincide con el contenido (representado en la página). Para comparar con el wikitexto, utilice el parámetro de búsqueda insource (Ver sección más abajo). Cada parámetro de búsqueda tiene su propio índice, e interpreta el término dado de su propia manera.[3]
El espacio entre las palabras, las frases, los parámetros y la entrada a los parámetros, puede incluir generosas instancias de espacios en blanco y caracteres de espacio gris. "Los caracteres del espacio gris" son todos los caracteres no alfanuméricos $caracteres. Una cadena mixta de caracteres de espacio gris y caracteres de espacio en blanco, es "espacio gris", y se trata como un gran límite de palabra. El espacio gris es la forma en que se hacen los índices y se interpretan las consultas.[4]
Hay dos excepciones: 1) un incorporado:dos puntos es una palabra (se trata como una letra), y 2) una coma incrustada , como en 1,2,3, se trata como un número. Por lo demás, los caracteres de espacio gris se ignoran a menos que, debido a la sintaxis de la consulta, puedan interpretarse como caracteres modificadores.
Los modificadores son ~ * \? - " ! . Dependiendo de su ubicación en la sintaxis pueden aplicarse a un término, a un parámetro o a una consulta completa. Los modificadores de palabras y frases son el comodín, la proximidad y las búsquedas difusas. Cada parámetro puede tener sus propios modificadores, pero en general:
- Una búsqueda de palabras difusas o frases difusas puede llevar un carácter de tilde
~
(y un número que indique el grado). - Un carácter de tilde
~
antepuesto al primer término de una consulta garantiza los resultados de la búsqueda en lugar de una posible navegación. - Un carácter comodín dentro de una palabra puede ser un signo de interrogación (escapado) \N para un carácter o un carácter asterisco \N para cero o más caracteres.
- La lógica de la verdad puede interpretar AND y OR, pero los parámetros no. Tenga en cuenta que los operadores AND y OR actualmente ¡no funcionan de la manera tradicional de la lógica de la verdad! Para más detalles, ver más en Operadores lógicos.
- La lógica de la verdad entiende que el prefijo - o ! a un término invierte el significado habitual del término de "coincidencia" a "exclusión".
- Las comillas alrededor de las palabras marcan una búsqueda de "frase exacta". En el caso de los parámetros, también son necesarias para delimitar la entrada de varias palabras.
- El stemming es automático, pero puede desactivarse mediante una "frase exacta".
La búsqueda de una frase puede iniciarse mediante varias pistas al motor de búsqueda. Cada método de sugerencia tiene un efecto secundario en cuanto a la tolerancia de la coincidencia de la secuencia de palabras. Para las pistas greyspace, camelCase, o txt2number:
- dado words-joined_by_greyspace(characters) o wordsJoinedByCamelCaseCharacters encuentra words joined by ... characters, en sus formas desnudas o formas de espacio gris.
- txt2number coincidirá con
txt 2 number
otxt-2.number
. - Las palabras de parada se habilitan para los casos de borde (en la periferia) de una frase grey_space o camelCase. Un ejemplo utilizando the, of y a es que the_invisible_hand_of_a coincide con
invisible hand
dentro del textomeetings invisible hand shake
.
El informe "buscar en lugar de" se activa cuando se ignora una palabra universalmente desconocida en una frase.
Cada uno de los siguientes tipos de concordancia de frases contiene y amplía las tolerancias de concordancia del anterior:
- Una "frase exacta" "entre comillas" tolerará (coincidirá con) el espacio gris. Dado $frase_exacta o $frase_exacta coincide con $corchete_exacto.
- Una frase de espacio gris inicia la comprobación de la raíz y de la "palabra de parada".
- Dado CamelCase coincidirá adicionalmente con
camelcase
, en todas las minúsculas, porque CirrusSearch no distingue entre mayúsculas y minúsculas en la búsqueda. Tenga en cuenta que la coincidencia de CamelCase no está habilitada para todos los idiomas.
Algunos parámetros comprenden frases greyspace (frases que poseen carácteres no-alfanuméricos), pero otros parámetros, como insource
(fuente de información) sólo interpretan la usual "frase entre comillas".
Frase de búsqueda | parserfunction | parserFunction | parser function | parser-function | parser:function | parSer:funcTion |
---|---|---|---|---|---|---|
parserfunction | ||||||
"parser function" | ||||||
parser_function | ||||||
parserFunction | ||||||
"parser:function" | ||||||
"parser_function" | ||||||
"parSer_funcTion" | ||||||
parSer_FuncTion |
Tenga en cuenta que todas las derivaciones no distinguen entre mayúsculas y minúsculas.
Note como la búsqueda de la "frase exacta" interpretó el carácter incrustado:dos puntos como una letra, pero no el caracter incrustado_guion bajo. Un similar acontecimiento ocurre con el caracter , entre números.
Dado in:this:word
, CirrusSearch, cuando está en un contexto de "frase exacta", (que incluye el contexto del parámetro insource), no coincidirá con in
, this
, o word
, sino que entonces sólo coincidirá con in:this:word
.
Por lo demás, recuerda que para CirrusSearch las palabras son letras, números o una combinación de ambos, y las mayúsculas y minúsculas no importan.
La búsqueda de palabras comunes emplea el carácter espacio y es agresiva con el stemming, y cuando las mismas palabras están unidas por caracteres greyspace o camelCase son agresivas con las frases y subpalabras.
Cuando se incluyen palabras comunes como "de" o "el" en una frase de espacio gris, se ignoran, para que la coincidencia sea más agresiva.
Un término de búsqueda greyspace_phrase, o un camelCase, o un término txt2number, coinciden indistintamente con las palabras significadas. Puede utilizar cualquiera de estas tres formas.[5] Ahora camelcase coincide con camelCase porque la búsqueda no distingue entre mayúsculas y minúsculas, pero camelCase coincide con camelcase porque camelCase es más agresivo. Al igual que el resto de la Búsqueda, las "palabras" de subpalabras no distinguen entre mayúsculas y minúsculas. En comparación, la "frase exacta" se orienta hacia el espacio gris e ignora las transiciones numéricas o de letras, así como el stemming. Las "frases citadas" no distinguen entre mayúsculas y minúsculas.
A partir de la tabla, podemos suponer que la búsqueda básica parser_function -"parser function" es la suma de las búsquedas básicas parserFunction
y parser<stems> function<stems>
.
Haciendo consultas con números, encontramos lo siguiente:
- Plan9 o Plan_9 coincidencias de:
plan9
,plans 9
,planned 9th
,(planned) 9.2
,"plans" (9:24)
. - Plan92 una única coincidencia
plan9
(insensible a las mayúsculas). - Plan*9 coincidencias
plan9
oplanet4589
.
El comodín estrella * coincide con una cadena de letras y dígitos dentro de una palabra renderizada, pero nunca el caracter de inicio. Uno o mas carácteres, un porcentaje de la palabra, debe preceder del caracter *.
- Cuando * coincide con números, una coma se considera parte de un número, pero el punto decimal se considera un carácter de espacio gris y delimitará dos números.
- Dentro de una "frase exacta" * es tratado como un carácter de espacio gris y no como un carácter comodín, por lo que delimita las palabras.
El comodín \? representa una letra o número; tambien es aceptado el *\?, pero \?* no es reconocido.
Los comodines sirven para realizar búsquedas básicas de palabras, frases y fuentes, y también pueden ser una alternativa a (algunas) búsquedas regex avanzadas (tratadas más adelante).
Poner una tilde ~ después de una palabra o frase activa una búsqueda difusa.
- Para una frase se denomina búsqueda de proximidad, porque se toleran palabras próximas a una frase aproximada y no exacta.
- Por ejemplo, "exact one two phrase"~2 coincide con
exact phrase
. - Para una palabra significa caracteres extra o caracteres cambiados.
- Para una frase una búsqueda difusa requiere un número entero que le diga cuántas palabras extra debe incluir, pero para una palabra una búsqueda difusa puede tener una fracción decimal, por defecto a $palabra05 ($palabratilde), donde como máximo se pueden encontrar dos letras intercambiadas, cambiadas o añadidas, pero nunca las dos primeras.
- Para una frase de proximidad, se puede usar un número grande, pero eso es una búsqueda «cara» (lenta).
- Para una palabra word~2 es la más difusa con una distancia de edición de 2 (por defecto), y word~1 es la menos difusa, y word~0 no es difusa en absoluto.
flowers algernon | Flowers for Algernon | flowers are for Algernon | Flowers a1 2b 3c 4f 5j 6l 7j 8p q9 z10 for Algernon | |
"flowers algernon" | ||||
"flowers algernon"~0 | ||||
"flowers algernon"~1 | ||||
"flowers algernon"~2 | ||||
"flowers algernon"~11 | ||||
"algernon flowers"~1 | ||||
"algernon flowers"~2 | ||||
"algernon flowers"~3 | ||||
"algernon flowers"~4 | ||||
"algernon flowers"~13 |
Para obtener el valor de proximidad necesario para coincidir en orden inverso (de derecha a izquierda), cuente y descarte todas las palabras sobrantes, y luego sume el doble del recuento total de palabras restantes menos una. (En otras palabras, añade el doble de segmentos). Para el algoritmo de proximidad completo, véase Elasticsearch slop.
Las citas desactivan el stemming, "but appending"~ la tilde reactiva el stemming.
flowers | flower | Flowers for Algernon | flower for Algernon | ||
flowers | El stemming es un efecto. | ||||
"flowers" | La búsqueda de proximidad desactiva el stemming. | ||||
"flowers"~ | Proximidad más stemming (frase citada) por sufijo de una tilde. | ||||
"flowers for algernon" | La búsqueda de proximidad desactiva el stemming. | ||||
"flowers for algernon"~ | Proximidad más stemming(frase citada) por sufijo de una tilde. | ||||
"flowers algernon"~1 | Proximidad busca desactivar stemming. | ||||
"flowers algernon"~1~ | Proximidad más stemming por sufijo de una tilde. |
Búsqueda de wikitexto (insource)
≥ 1.24 Gerrit change 137733 |
Las búsquedas internas se pueden usar para encontrar cualquier palabra representada en una página, pero está hecha para encontrar cualquier frase que pueda encontrar, incluido marcado de MediaWiki (también conocido como wikicode), en cualquier página excepto en las redirecciones. Esta frase ignora completamente el espacio gris: insource: "state state autocollapse" coincide con |state={{{state|autocollapse}}}
.
insource: word insource: "word1 word2" |
Los carácteres greyspace son ignorados, al igual que con búsquedas de palabras y frases exactas. |
insource:/regexp/ insource:/regexp/i |
Estos son expresiones regulares. No son eficientes, por lo que solo se permiten unos pocos a la vez en el clúster de búsqueda, pero son muy poderosos. La expresión regular coincide de forma predeterminada entre mayúsculas y minúsculas; la insensibilidad a mayúsculas y minúsculas se puede optar por el i adicional, que es incluso menos eficiente.
|
La fuente de información se complemente asimisma. Por una lado tiene búsqueda instantanea de texto completo para cualquier palabra en el wikitext. Por otro lado puede procesar búsquedas de expresiones regulares para cualquier cadena de carácteres.[6] Las expresiones regulares escanean todos los caracteres textuales en una lista determinada de páginas; no tienen un índice de palabras para acelerar las cosas y el proceso se interrumpe si se ejecuta durante más de veinte segundos. Las expresiones regulares se ejecutan en último lugar en una consulta, por lo que, para limitar el escaneo innecesario a nivel de caracteres, cada consulta de expresiones regulares debe incluir otros términos de búsqueda para limitar el número de documentos que deben ser escaneados.[7] A menudo el mejor candidato para añadir a la consulta regex insource:/arg/ es insource:arg, donde arg es el mismo (y no utiliza comodines).
La sintaxis para la regexp es insource: sin espacio, y luego /regexp/. (Ningún otro parámetro desestima un espacio. Todos los parámetros, excepto insource:/regexp/, aceptan un espacio después de los dos puntos).
Las funciones de búsqueda indexada y de búsqueda regexp son similares en muchos aspectos:
- Ambos buscan sólo en el wikitexto.
- Ninguno de los dos encuentra cosas "originadas" por una transclusión.
- Ninguno de los dos hace búsquedas por tallo, difusas o de proximidad.
- Ambos buscan el menor número de resultados, y ambos trabajan más rápido cuando van acompañados de otra cláusula.
Pero las búsquedas indexadas ignoran todos los espacios en gris; las búsquedas con comodines no coinciden con los espacios en gris, por lo que las expresiones regulares son la única forma de encontrar una cadena exacta de caracteres "cualquiera y todos", por ejemplo una secuencia de dos espacios. Las remezclas son una clase totalmente diferente de herramienta de búsqueda que facilita la búsqueda de una cadena literal (uso básico, para principiantes), y hace posible la búsqueda por expresiones de metacaracteres (uso avanzado) en la wiki. Ver #Regular expression searches más abajo.
"in-law" insource:/-in-law/i
o "kung" insource:/!kung/i
.
Prefijo y espacio de nombres
Prepending a namespace term like file:
to a search query limits results to a specific namespace , instead of searching the entire wiki.
El espacio de nombres predeterminado es "Main".
Solo se puede definir un espacio de nombres en la consulta del cuadro de búsqueda. Es el primero o el último término, ubicado dentro de un parámetro «prefix».
It must be the first term in the query, or, if used as part of a prefix:
term, must appear as the last term in the query.
Se pueden buscar dos o más espacios de nombres desde el panel Avanzado de la barra de búsqueda que se encuentra en la parte superior de cada página de resultados de búsqueda, Special:Search. Aquí se puede establecer su dominio de búsqueda, como un perfil de espacios de nombres. La lista de espacios de nombres se presentará entonces en la primera página de los futuros resultados de la búsqueda para indicar el dominio de búsqueda de los resultados. Para desactivar esto, seleccione el espacio de nombres por defecto (mostrado entre paréntesis), seleccione "Recordar" y pulse Buscar.
La barra de búsqueda establece e indica gráficamente un dominio de búsqueda. "Páginas de contenido" (espacio principal), "Multimedia" (Archivo), "Todo" (todo más Archivo), "Traducciones", etc., son hipervínculos que pueden activar la consulta en ese dominio, y lo indican pasando a inactivo (oscuro). Pero la consulta anulará la barra de búsqueda. Cuando se utiliza un espacio de nombres o un prefijo en la consulta, las activaciones e indicaciones de la barra de búsqueda pueden ser engañosas, por lo que la barra de búsqueda y el cuadro de búsqueda son formas mutuamente excluyentes (no complementarias) de establecer el dominio de búsqueda.
Un término de espacio de nombres anula la barra de búsqueda, y un término prefix:
anula un espacio de nombres.
To specify a namespace name, prefix it with a colon, e.g., talk:
.
Use all:
to search across all namespaces, or :
(a single colon) to search just the main article namespace.
Todos no incluye el espacio de nombres Archivo. El archivo incluye el contenido multimedia que se encuentra en Commons, como el PDF, que está indexado y se puede buscar.
Cuando se trata de File, el modificador de espacio de nombres local:
tiene efecto, de lo contrario se ignora.
Al igual que con los parámetros de búsqueda, local:
y all:
deben ser minúsculas.
Los nombres de espacios de nombres, sin embargo, son insensibles al caso.
Se aceptan los alias de espacios de nombres .
talk: "Wind clock" | Encuentra páginas en el espacio de nombres Talk cuyo título o texto contenga la frase "wind clock". |
file: "Wind clock" | Encuentra páginas en el espacio de nombres Archivo, cuyo título, texto o contenido multimedia contenga la frase "reloj de viento". |
file: local: "Wind clock" | Filtrar los resultados de Commons wiki. |
local: "Wind clock" | Ignorado. Busca en el espacio principal. Se ignora lo local a menos que se trate de un archivo. |
prefix:
El parámetro prefix:
coincide con cualquier número de primeros caracteres de todos los nombres de página de un espacio de nombres.[8]
Cuando las primeras letras coinciden con un nombre de espacio de nombres y dos puntos, el dominio de búsqueda cambia.
Dado un espacio de nombres solamente, prefijo coincidirá con todos sus nombres de página. Dado un solo carácter, no puede ser - guión o ' comillas o " comillas dobles. El último carácter no puede ser dos puntos.
Para los nombres de página que coinciden, los títulos de sus subpáginas coinciden por definición.
El parámetro prefijo no permite un espacio antes de un espacio de nombre, pero permite espacios en blanco antes de un nombre de página.
This term always goes at the end, so that pagename characters may contain quotation marks ("
).
prefix:cow | Buscar páginas en mainspace cuyo título empiece por las tres letras c o w. |
domestic prefix:cow | Busca páginas en mainspace cuyo título empiece por las tres letras c o w, y que contengan la palabra "domestic". |
domestic prefix:cow/ | Enumera las subpáginas existentes de $vaca pero sólo si contienen la palabra "domestic". Esta es una búsqueda muy común y se construye con frecuencia utilizando un parámetro URL especial llamado prefix=. |
domestic prefix:Talk:cow/ | List any subpages of Talk:cow, but only if they contain the word "domestic". |
1967 prefix:Pink Floyd/ | List any subpages of Pink Floyd, but only if it also contains the word "1967". |
The Translate extension creates a sort of "language namespace" of translated versions of a page. However, unlike namespace or prefix, which create the initial search domain, the inlanguage parameter is a filter of it. (See the next section.)
Excluir contenido del índice de búsquedas
El contenido se puede excluir del índice de búsqueda añadiendo class="navigation-not-searchable"
. Esto le indicará a CirrusSearch que ignore este contenido del índice de búsqueda (ver T162905 para más contexto).
Además, el contenido puede ser marcado como información auxiliar añadiendo class="searchaux"
.
Esto le dará instrucciones a CirrusSearch para mover el contenido del texto principal a un campo auxiliar que tenga menor importancia para la búsqueda y la resaltación de fragmentos.
Esta distinción se utiliza para elementos como las descripciones de miniaturas de imágenes, las secciones "ver también", etc.
Filtros
Un filtro tendrá múltiples instancias, o instancias negadas, o puede ejecutarse como un filtro independiente de un dominio de búsqueda. Una consulta se forma como términos que filtran un dominio de búsqueda.
Agregar otra palabra, frase o parámetro filtra más. Un resultado de búsqueda altamente refinado puede tener muchos filtros Y/N cuando se dirigen a cada página en los resultados. (En este caso, el ranking es en gran medida irrelevante.) El filtrado se aplica de manera crítica a la adición de un término regex; se quieren tan pocas páginas como sea posible antes de añadir un regex (porque nunca puede tener un índice preparado para su búsqueda).
Un espacio de nombres es un dominio de búsqueda especificado pero no un filtro porque un espacio de nombres no se ejecutará de forma independiente. A prefix will negate so it is a filter. Los parámetros de búsqueda a continuación son filtros para los cuales puede haber múltiples instancias.
Insource (covered above) is also a filter, but insource:/regexp/ is not a filter. Filters and all other search parameters are lowercase. (Namespaces are an exception, being case insensitive.)
Intitle e incategory
Word and phrase searches match in a title and match in the category box on bottom of the page. But with these parameters you can select titles only or category only.
- cow*
- Encuentra artículos cuyo título o texto contiene palabras que comienzan con vaca
- intitle:foo
- Encuentra artículos cuyo título contiene foo. El voto está habilitado para el foo.
- intitle:"fine line"
- Find articles whose title contains fine line. Stemming is disabled.
- intitle:foo bar
- Busque artículos cuyo título contiene foo y cuyo título o texto contiene barra.
- -intitle:foo bar
- Busque artículos cuyo título no contiene foo y cuyo título o texto contiene barra.
- incategory:Music
- Encuentra artículos que estén en Categoría:Música
- incategory:"music history"
- Encuentra artículos que están en Categoría:Historia de la música
- incategory:"musicals" incategory:"1920"
- Encuentra artículos que se encuentran en la categoría:Música y la categoría:1920
- -incategory:"musicals" incategory:"1920"
- Busque artículos que no estén en la categoría:Música pero que estén en la Categoría:1920
Intitle and incategory are old search parameters. Incategory no longer searches any subcategory automatically, but you can now add multiple category pagenames manually.
≥ 1.31 Gerrit change 413896 |
Desde MediaWiki 1.31-wmf.23 Buscas regulares de expresión son compatibles con el título:
- intitle:/regex/, intitle:/regex/i
Everything written in the #Regular expression searches is also valid for these searches, including warnings.
Deepcategory
Deep category search allows to search in category and all subcategories. The depth of the tree is limited by 5 levels currently (configurable) and the number of categories is limited by 256 (configurable). The deep search uses SPARQL Category service from WDQS. Keywords are deepcategory or deepcat. Example:
- deepcat:"musicals"
- Find articles that are in Category:Musicals or any of the subcategories.
El dispositivo DeepCat que implementó previamente el parámetro fue puesto al atardecer en enero de 2020.
Linksto
Linksto finds wikilinks to a given name, not links to content. The input is the canonical, case sensitive, page name. It must match the title line of the content page, exactly, before any title modifications of the letter-case. (It must match its {{FULLPAGENAME}}, e.g. Help:CirrusSearch/es.)
Linksto does not find redirects. It only finds [[wikilinks]], even when they are made by a template. No encuentra un enlace hecho por una URL, incluso si esa URL es un enlace interno de wiki.
Para encontrar todos los enlaces wiki a un "Help:Cirrus Search", si "Help:Searching" y "H:S" son redirecciones a él:
- linksto: "Help:Cirrus Search"
- linksto: Help:Searching
- linksto: H:S
$linkto encuentra artículos que mencionan "CirrusSearch" pero no en un wikilink.
Hastemplate
You can specify template usage with hastemplate: template
. Input the canonical pagename to find all usage of the template, but use any of its redirect pagenames finds just that naming. Namespace aliases are accepted, capitalization is entirely ignored, and redirects are found, all in one name-search. (Compare boost-template no default namespace; linksto no namespace aliases, case-sensitive, no redirects; intitle no redirects.)
Hastemplate finds secondary (or meta-template) usage on a page: it searches the post-expansion inclusion. This is the same philosophy as for words and phrases from a template, but here it's for templates from a template. The page will be listed as having that content even though that content is not seen in the wikitext.
- hastemplate: "quality image", encuentra el uso de "Template:Quality image" en su dominio de búsqueda predeterminado (espacios de nombres).
- hastemplate: portal:contents/tocnavbar, encuentra el uso del espacio principal de una plantilla "Contents/TOCnavbar" en el espacio de nombres del Portal.
For installations with the Translate extension, hastemplate searches get interference wherever Template:Translatable template name wraps the template name of a translatable template. Use insource instead.
Inlanguage
Para las instalaciones con la extensión Translate, inlanguage es importante para búsquedas y recuentos de páginas altamente refinados.
- inlanguage: código de idioma
sólo producirá resultados de búsqueda en ese idioma.
Por ejemplo
- para contar todas las páginas japonesas en el wiki
- all: inlanguage: ja
- para filtrar páginas en alemán y español en el espacio de nombres de Ayuda
- help: -inlanguage: de -inlanguage: es
- para ignorar la traducción, y donde el inglés es el idioma base, añadir
- inlanguage:en
Contentmodel
The contentmodel: keyword allows to limit the search to pages of a specific content model. For possible models cf. Content handlers. E.g.:
- Para ver únicamente páginas JSON:
contentmodel:json
subpageof
Para encontrar subpáginas.
- subpageof: Página de padres
For example
- Para encontrar todas las subpáginas de CirrusSearch.
- subpageof:CirrusSearch
- Utilice citas dobles si la página principal contiene espacios.
- subpageof:"Requests for comment"
Articletopic
La palabra clave articletopic: permite filtrar los resultados de búsqueda por tema. Para posibles temas, vea Help:CirrusSearch/articletopic . Por ejemplo, articletopic:books filtrará los resultados de búsqueda a artículos sobre libros. articletopic:books|films filtrará los artículos sobre libros o películas. articletopic:books articletopic:films filtrará los artículos que se refieren a libros y películas.
Sólo los artículos del espacio principal pertenecen a los temas, y los temas solo están disponibles en las wikipedias. A diferencia de otros filtros, el tema de los artículos también hace la ponderación de páginas: los artículos que son un partido más fuerte para un tema estarán más altos en los resultados de búsqueda (mientras que los artículos que no se refieren a ese tema en absoluto se eliminarán del conjunto de resultados por completo).
Los modelos de temas se derivan a través del aprendizaje automático a partir de ORES. Cada artículo recibe una puntuación en docenas de temas diferentes, y por lo tanto puede aparecer bajo diferentes palabras clave. Por ejemplo, el artículo sobre Albert Einstein puede aparecer como un artículo de "física" y un artículo de"biografía". Todas las wikipedias tienen puntuaciones disponibles - algunas tienen modelos de temas en idioma local que tienen cobertura en todos los artículos. Otros idiomas no tienen modelos locales de ORES, y están utilizando puntuaciones en inglés asignadas a artículos en el idioma local que también existen en Wikipedia en inglés. Los idiomas con tales puntuaciones "cross-wiki" no tienen cobertura del 100% - dependiendo del idioma, sólo puede ser algo como el 60% de los artículos que tienen temas disponibles.
Los datos de búsqueda relacionados con temas se actualizan semanalmente, por lo que los artículos creados recientemente pueden no aparecer en consultas de búsquedas basadas en temas.
Pageid
La palabra clave pageid: restringe los resultados de búsqueda al conjunto de páginas de identificación. Esto no es realmente útil para la búsqueda manual; puede ser utilizado por herramientas de software para verificar si un conjunto de páginas coincide con el conjunto dado de condiciones de búsqueda (por ejemplo, para volver a validar los resultados de búsquedas almacenadas en caché).
Page weighting
El peso determina el fragmento, las sugerencias y la relevancia de la página. El peso normal es uno. Se da una ponderación adicional a través de multiplicadores.
If the query is just words, pages that match them in order are given a boost. If you add any explicit phrases to your search, or for certain other additions, this "prefer phrase" feature is not applied.
Morelike
- morelike:page name 1|page name 2|...|page name n
- Busque artículos cuyo texto se parezca más al texto de los artículos.
morelike:wasp|bee|ant
- Encuentra artículos sobre los insectos picantes.
morelike:template:search|template:regex|template:usage
- Encuentra plantillas sobre regex buscando el uso de plantillas en la wiki.
morelike
es una palabra clave "compulsiva", lo que significa que no puede combinarse con otras consultas de búsqueda. Si quieres usar otras consultas de búsqueda, usa morelikethis en tu búsqueda:
morelikethis:bee hastemplate:"featured article"
- Encuentra artículos sobre bees que también tengan la plantilla "featured article".
La consulta morelike: funciona seleccionando un conjunto de palabras en los artículos de entrada y ejecutando una consulta con las palabras elegidas. Puede ajustar la forma en que funciona añadiendo los siguientes parámetros a la URL de resultados de búsqueda:
- cirrusMltMinDocFreq: Número mínimo de documentos (por fragmento) que requieren un término para que se consideren.
- cirrusMltMaxDocFreq: Maximum number of documents (per shard) that have a term for it to be considered.
- cirrusMltMaxQueryTerms: Número máximo de términos a considerar.
- cirrusMltMinTermFreq: Número mínimo de veces que el término aparece en la entrada de doc a considerar. Para los campos pequeños ($ título) este valor debe ser 1.
- cirrusMltMinWordLength: La duración mínima de un plazo a considerar. Defaultes a 0.
- cirrusMltMaxWordLength: La longitud máxima de las palabras por encima de las cuales las palabras serán ignoradas. Defaultes hasta ilimitado (0).
- cirrusMltFields (lista de valores separada por vírgenes): Estos son los campos a utilizar. Los campos permitidos son title, text, auxiliary_text, opening_text, headings y all.
- cirrusMltUseFields (
true
false
): sólo utilice los datos de campo. Defaultes enfalse
: el sistema extraerá el contenido del campotext
para construir la consulta. - cirrusMltPercentTermsToMatch: El porcentaje de términos para coincidir. Los valores predeterminados para 0.3 (30 por ciento).
- Example:
&cirrusMtlUseFields=yes&cirrusMltFields=title&cirrusMltMinTermFreq=1&cirrusMltMinDocFreq=1&cirrusMltMinWordLength=2
These settings can be made persistent by overriding cirrussearch-morelikethis-settings
in System message.
Prefer-recent
Agregar prefer-recent: en cualquier parte de la consulta da a los artículos editados recientemente un aumento ligeramente mayor que el normal en las reglas de clasificación de páginas.
Prefer-recent is only applied when using the default relevance
sort order.
Por defecto, aumenta solo el 60% de la puntuación, en una ventana de tiempo grande de 160 días, que se puede ingresar en la consulta como prefer-recent:0.6,160. Esto juega bien con otras reglas de clasificación de páginas, y está destinado a la mayoría de las búsquedas.
Puedes manipular las reglas: prefer-recent:boost,recent Técnicamente, "boost" es la proporción de puntaje a escala, y "recent" es la mitad de vida en días. The boost is more than the usual multiplier, it is an exponential boost. El factor utilizado en el exponente es el tiempo desde la última edición.
For example
- prefer-recent:,7
Las páginas mayores de 7 días se incrementan la mitad, y las páginas mayores que 14 días se incrementarán la mitad de nuevo, y así sucesivamente. Para una simple " clasificación por fecha " en resultados de búsqueda altamente refinados, donde el ranking de páginas y el aumento son en gran parte sin sentido, simplemente aumenta la puntuación completa.
- prefer-recent:1,7 - weeks
- prefer-recent:1,1 - days
- prefer-recent:1,0.0007 - minutes
- prefer-recent:1,0.0001 - 8.64 seconds
- prefer-recent:1,0.00001 - seconds
Boost-templates
Puedes aumentar los puntajes de las páginas basándose en las plantillas que contienen. Esto se puede aplicar a todas las consultas de búsqueda declarando aumentos a través de MediaWiki:Cirrussearch-boost-templates, o ad-hoc en consultas individuales a través del operador boost-templates:""
. Si el operador boost-templates
se establece en una consulta, entonces el contenido de cirrussearch-boost-templates
es ignorado.
Similar to the prefer-recent feature, boost-templates is applied as part of the default relevance
sort order. It has no effect on other search orders.
La sintaxis del mensaje es la siguiente:
- Todo, desde un carácter de
#
hasta el final de la línea, se considera un comentario, y se ignora. - Cada línea no en blanco se interpreta como el nombre exacto de una plantilla que debe recibir un refuerzo (incluido el prefijo del espacio de nombres), seguido de un carácter de pipa "|", seguido de una cifra, seguido de "%" caracteres.
Good examples:
Template:Important|150% Template:Very_Very_Important|300% Template:Less_important|50%
Bad examples:
Template:Foo|150.234234% # No se permiten puntos decimales. Foo|150% # Técnicamente válido, pero actúa sobre transluciones de Foo (artículo espacial principal) en lugar de Template:Foo.
Algunos ejemplos:
- boost-templates:"Template:Quality_Image|200%" incategory:china
- Encuentra archivos en la categoría China, clasificando imágenes de calidad primero.
- boost-templates:"Template:Quality_Image|200% Template:Low_Quality|50%" incategory:china
- Encuentra archivos en la categoría China, clasificando imágenes de calidad primero y imágenes de baja calidad en último lugar.
- boost-templates:"Template:Quality_Image|200% Template:Low_Quality|50%" popcorn
- Encuentra archivos sobre palomitas de maíz, clasificando imágenes de calidad primero y imágenes de baja calidad último. Recuerde que mediante el uso del mensaje
cirrussearch-boost-templates
esto se puede reducir a sólopopcorn
.
No se permiten puntos decimales en valores porcentuales. La puntuación de búsqueda es tal que es poco probable que fracciones de un porcentaje hagan una diferencia.
Tenga cuidado de que si añade porcentajes muy bajos o muy altos a través de cirrussearch-boost-templates, pueden envenenar la puntuación de texto completo. Por ejemplo, si Wikipedia aumentara la plantilla "Article Featured" en un millón de por ciento, entonces, las búsquedas de cualquier término mencionado en artículos destacados, clasificarían el artículo destacado por encima incluso del artículo dedicado sobre ese término.
Phrase matching would be similarly blown away, so a search like brave new world
would return a featured article as first result even if it merely has those three words mentioned throughout it, instead of the more relevant article about Brave New World itself.
Regular expression searches
A basic indexed search finds words rendered visible on a page. Hyphenation and punctuation marks and bracketing, slash and other math and computing symbols, are merely boundaries for the words. It is not possible to include them in an indexed search. La mayoría de las veces, el usuario quiere ese comportamiento de búsqueda. Sin embargo, a veces uno quiere tener la capacidad de una búsqueda más precisa.
Para evitar la falta sintáctica de las búsquedas basadas en índices se pueden utilizar búsquedas regexp. Pero como las consultas con expresiones regexp son muy lentas y consumen recursos, siempre deben combinarse con una búsqueda basada en índices, de modo que el dominio de búsqueda regexp se limite a los resultados de una o más búsquedas basadas en índices.
Una búsqueda de regexp "estrecha exacta" es una búsqueda básica; simplemente "citará" toda la regexp, o "backslash-escape" todos los caracteres no alfanuméricos en la cadena. Todas las búsquedas regexp también requieren que el usuario desarrolle un filtro simple para generar el dominio de búsqueda para el motor regex para buscar (domaín de búsquedas basado en índice marcado con negrita, parte regexp marcada con cursiva):
- insource:"debian.reproducible.net" insource:/debian\.reproducible\.net/
- insource:"c:\program files (x86)" insource:/C\:\\Program Files \(x86\)/i
- insource:"<tag>{{template}}</tag>" insource:/"<tag>{{template}}<"\/"tag>"/
- insource:"[[title|link label]]'s" insource:/"[[title|link label]]'s"/
- insource:/regexp/ prefix:{{FULLPAGENAME}}
El último ejemplo funciona desde un enlace en una página, pero {{FULLPAGENAME}} no funciona en el cuadro de búsqueda.
For example: [[Special:Search/insource:/regex/ prefix:{{FULLPAGENAME}}]] finds the term regex on this page.
A query with no namespace specified and no prefix specified searches your default search domain, (settable on any search-results page, i.e. at Special:Search). Some users keep their default search domain at "all namespaces", i.e. the entire wiki. On a large wiki if this user does a bare regexp search it will probably fail, incurring a timeout, before completing the search.
Una búsqueda regex en realidad busca cada página en el dominio de búsqueda caracter por caracter. En contraste, una búsqueda indexada en realidad consulta algunos registros de una base de datos mantenida por separado de la base de datos wiki, y proporciona resultados casi instantáneos. Así que al usar un insource:// (un regexp de cualquier tipo), considere añadir otros términos de búsqueda que limitarán el dominio de búsquedas regex tanto como sea posible. Hay muchos términos de búsqueda que utilizan un índice y así proporcionan instantáneamente un dominio de búsquedas más refinado para el /regexp/. En orden de eficacia general:
- insource:"" with quotation marks, duplicating the regexp except without the slashes or escape characters, is ideal.
- intitle (without regex search), incategory, and linksto are excellent filters.
- hastemplate: is a very good filter.
- "word1 word2 word3", with or without the quotation marks, are good.
- namespace: is practically useless, but may enable a slow regexp search to complete.
To test a bare regexp query you can create a page with test patterns, and then use the prefix parameter with that fullpagename. El partido será destacado. Busca esa página (en la base de datos) y sus subpáginas.
Search terms that do not increase the efficiency of a regexp search are the page-scoring operators: morelike, boost-template, and prefer-recent.
Metacharacters
Esta sección abarca cómo escapar de metacaracteres utilizados en búsquedas de regexp. Para el significado real de los metacaracteres vea la [explicación de https://www.elastic.co/guide/en/elasticsearch/reference/current/regexp-syntax.html de la sintaxis].[9]
For example:
- para buscar un espacio de nombres, medir el número de páginas con un solo término que es un espacio de nombre. Esto listará el número de páginas en ese espacio de nombres.
- empezando a encontrar de nuevo lo que puede haber visto, como "wiki-link" o " (trans[in]clusion) " comienza con el espacio de nombres y filtros de fuente.
Hay algunas diferencias notables de los metacaracteres estándar de regex:
- El
\n
o\r\n
no están reservados para coincidir con una nueva línea. Para buscar una cadena que contiene una línea nueva, puedes hacer una búsqueda comoinsource:/[^\}]\}\}[^\} \|]{2}\<noinclude/i
lo que significa no un brace rizado, luego dos braces rizados, luego cualquier dos caracteres excepto un brace riñido, espacio o tubo, luego una etiqueta de<noinclude>
. El "cualquier personaje excepto" incluirá una nueva línea en la búsqueda. Nota que esta búsqueda fue diseñada para coincidir con la siguiente cadena:
}} <noinclude>
- El metacaracter de punto
.
representa cualquier carácter que incluya una línea nueva, por lo que.*
coincide entre líneas. - El número
#
significa algo y debe ser escapado.[10] - Los
^
y$
no se implementan. Como "grep" (global por línea, expresión regular, imprimir cada línea), cada insource:// es un "global por documento, expresión regular , resultados de búsqueda-lista cada documento" por documento. <
y>
soportan un rango numérico de varios dígitos como[0-9]
lo hace, pero sin importar el número de posiciones de caracteres, o el rango en cada posición, por lo que<9-10>
funciona, e incluso<1-111>
funciona.
Substitutions for some metacharacters
Aunque las clases de caracteres \n
, \s
, \S
no son compatibles, en caso de necesidad aguda de usarlas en una expresión regular, puede utilizar estas soluciones:
PCRE | CirrusSearch | Description |
---|---|---|
\n |
[^ -] |
A newline (also a tabulation character can be found)[11] |
[^\n] |
[ -] |
Any character except a newline and tabulation |
\s |
[^!-] |
Un carácter en espacio blanco: espacio, línea nueva o tablación |
\S |
[!-] |
Any character except whitespace |
In these ranges, " " (space) is the character immediately following the control characters, "!" is the character immediately following space, and "" is U+10FFFF, the last character in Unicode. Así, el rango de " " a "" incluye todos los caracteres excepto los caracteres de control (de los cuales los artículos pueden contener líneas nuevas y tablaje), mientras que el rango desde "!" a "$ 3" incluye todos las caracteres excepto para los caracteres y espacio de control.
Refining with an exact string
- refining an ongoing search process with what you want to see, like "2 + 2 = 4", or "site.org" This is ideally the best use of regex, because it adds it as a single regexp term while refining a search, the limited number of pages the regexp must crawl is can be seen.
Puedes empezar con la intención de buscar una cadena exacta, pero ten en cuenta:
- regex sólo busca el texto de wiki no el texto renderizado, por lo que hay algunas diferencias en torno al marcado, e incluso el número de caracteres del espacio debe coincidir con precisión.
- Se le obliga a proporcionar un filtro de acompañamiento.
- Debes aprender a escapar de los metacaracteres de Regex.
Hay dos formas de escapar de los metacaracteres. Ambos son útiles a veces, y a veces concatenados uno al lado del otro en la fuga de una cuerda.
- Backslash-escape one of them \char. The insource:/regexp/ uses slashes to delimit the regexp. Giving /reg/exp/ is ambiguous, so you must write /reg\/exp/.
- Put a string of them in double quotes "string". Because escaping a character can't hurt, you can escape any character along with any possible metacharacters in there. Escaping with quotes is cleaner.
- No se pueden mezclar métodos, pero se pueden encadenar.
Double-quotes escaping using insource:/"regexp"/ is an easy way to search for many kinds of strings, but you can't backslash-escape anything inside a double-quoted escape.
/"[[page/name|{{temp-late"/
en lugar de $pntem-template/"literal back\slash"/
es tan bueno como/literal back\\slash/
- But
/"This \" fails"/
always.
- Y $depende de esto. Encontrará el
\/
literalmente, que no es el/
que probablemente querías.
Backslash-escape using insource:/regexp/ allows escaping the " and / delimiters, but requires taking into account metacharacters, and escaping any:
- Para coincidir con un carácter delimitador
/
utilizar\/
. - Para coincidir con un carácter delimitador de
"
utiliza\"
. - Los metacaracteres que escaparon serían
\~\@\#\&\*\(\)\-\+\{\}\[\]\|\<\>\?\.\\
. - La expresión equivalente escapada con dobles cotizaciones es
"~@#&*()-+{}[]|\<>?.\"
.
The simplest algorithm to create the basic string-finding expression using insource:/"regexp"/, need not take metacharacters into account except for the " and / characters:
- Escriba
the/str"ing
fuera. (No se muestran los "delimitadores"). - Sustituir
"
con"\""
(citar doble anterior: parar, concatena, reiniciar la cita). - Remplazar
/
con"\/"
(parar, concatenar, comenzar). - Obtienes $source, mostrando concatenamiento de los dos métodos.
The square-bracket notation for creating your own character-class also escapes its metacharacters. To target a literal right square bracket in your character-class pattern, it must be backslash escaped, otherwise it can be interpreted as the closing delimiter of the character-class pattern definition.
The first position of a character class will also escape the right square bracket. Inside the delimiting square brackets of a character class, the dash character also has special meaning (range) but it too can be included literally in the class the same way as the right square bracket can.
Por ejemplo, ambos patrones apuntan a un carácter que es un guión o un bracket cuadrado derecho o un punto: [-.\]]
o [].\-]
.
Para ejemplos generales que utilizan metacaracteres:
- $source0 coincide con "2 + 2 = 4", con cero espacios entre los caracteres.
- $source01 coincide con cero o un espacio entre ellos. El signo = igual no es un metacaracter, pero el signo + es.
- insource:"<tag>[[link|2\3?]]\</tag>" insource:/"<tag>[[link|2\3?]]<"\/"tag>"/
Regex on titles
La palabra clave insource sólo busca el contenido de la página. Para ejecutar búsquedas regex en las cadenas de título se puede usar intitle:/regex/ .
Advanced example
For example, using metacharacters to find the usage of a template called Val having, inside the template call, an unnamed parameter containing a possibly signed, three to four digit number, possibly surrounded by space characters, and on the same page, inside a template Val call, a named argument fmt=commas
having any allowable spaces around it, (it could be the same template call, or a separate one):
hastemplate:val insource:"fmt commas" insource:/\{\{ *[Vv]al *\|[^}]*fmt *= *commas/ insource:/\{\{ *[Vv]al *\|[^}]*[-+]?[0-9]{3,4} *[|}]/
Tenga en cuenta que el signo = en "fmt comas" no es necesario, pero que agregarlo no cambiaría los resultados de búsqueda. Es rápido porque utiliza dos filtros para que cada página que rastrea el regexp tenga el mayor potencial posible.
Geobúsqueda
Buscar basándose en las coordenadas (primarias) asociadas a las páginas.
Depends on Extension:GeoData and {{#coordinates:}}
bounded
Es posible limitar la búsqueda a páginas que se hayan identificado como próximas a las coordenadas geográficas que indiques. Las coordenadas pueden especificarse como un par <lat>, <lon>, o proporcionando un título de página desde el que obtener las coordenadas. Se puede prependicular una distancia para limitar la búsqueda si se desea. Ejemplos:
- neartitle:"San Francisco"
- neartitle:"100km,San Francisco"
- nearcoord:37.776,-122.39
- nearcoord:42km,37.776,-122.39
boosted
Además, es posible aumentar el puntaje de las páginas cuya ubicación esté dentro de una zona geográfica específica. La sintaxis es la misma que la búsqueda limitada, pero con un impulso prependido a la palabra clave. Esto duplica efectivamente el puntaje de las páginas dentro del rango de búsqueda, dando una mejor oportunidad de que los resultados de búsquedas cercanos estén cerca de la cima.
- boost-neartitle:"San Francisco"
- boost-neartitle:"100km,San Francisco"
- boost-nearcoord:37.776,-122.39
- boost-nearcoord:42km,37.776,-122.39
File properties search
≥ 1.28 Gerrit change 311061 |
Desde MediaWiki 1.28, CirrusSearch admite la indexación y búsqueda de propiedades de archivos en el espacio de nombres de archivos $. Esto incluye:
- tipo de archivo de medios
- Tipo de MIME
- size
- ancho y altura
- resolution
- profundidad de bits para archivos que admiten estos
filetype
La búsqueda de tipo de archivo permite recuperar archivos de acuerdo a su clasificación, como documentos de oficina, videos, imágenes rasterizadas, imágenes vectoriales, etc. Actualmente existen los siguientes tipos:
UNKNOWN
BITMAP
DRAWING
AUDIO
VIDEO
MULTIMEDIA
OFFICE
TEXT
EXECUTABLE
ARCHIVE
3D
This list may be extended in the future. See also MEDIATYPE_*
constants in defines.php
.
La sintaxis de la búsqueda es: filetype:{type}. Ejemplo:
filetype:video - busca todos los vídeos
The filetype search is not case-sensitive.
filemime
Se ajusta al tipo de archivo MIME. La sintaxis es:
$filmeime - busque archivos de este tipo de MIME
El argumento puede ser citado para especificar la coincidencia exacta. Sin cotizaciones, también se aceptarán partial coincidencia de componentes de tipo MIME.
Examples:
- filemime:"image/png" - busque archivos con tipo MIME exactamente
image/png
- filemime:pdf - busque todos los documentos PDF
- -filemime:pdf - omite todos los documentos PDF (especialmente en Commons)
The MIME type search is not case-sensitive.
filesize
Buscar archivos de tamaño determinado, en kilobytes (kilobytes significa 1024 bytes). La sintaxis es:
- filesize:{number} o filesize:>{number} - archivo con tamaño por lo menos dado número
- filesize:<{number} - archivo de tamaño no superior al número dado
- filesize:{number},{number} - file with size between given numbers
Examples:
- filesize:>20 or filesize:20 - archivos de 20 KB y más
- filesize:<1024 - archivos menores de 1 MB
- filesize:100,500 - archivos de tamaño comprendido entre 100KB y 500KB
File measures
Es posible buscar medidas específicas de archivo: ancho, altura, resolución (que se define como raíz cuadrada de altura × ancho) y profundidad de bits. No todos los archivos pueden tener estas propiedades. La sintaxis es:
- {measure}:{number} - file with measure that equals to given number
- {measure}:>{number} - file with measure that is at least given number
- {measure}:<{number} - archivo con una medida que no sea mayor que el número dado
- {measure}:{number},{number} - archivo con medida que está entre los números dados
Where measure
can be:
- $filew1 o $filew2 - ancho de archivo
- $fileh1 o $fileh2 - altura del archivo
- fileres - $fres - resolución de archivo (ver arriba)
- filebits - $fbd - profundidad de bits de archivo
Ejemplos:
- filew:>800 fileh:>600 - $fw800 - archivos que tengan al menos 800×600 píxeles de tamaño
- filebits:16 - $fb16 - archivos con profundidad de color de 16 bits
- fileheight:100,500 - file between 100 and 500 pixels high
Wikibase search
The Wikibase extension defines some search keywords in order to make it easier to search for certain Wikibase items. This is useful on Wikidata and other Wikibase sites, including to search for images with Structured data on Wikimedia Commons . Consulte Help:WikibaseCirrusSearch para detalles.
Cross-wiki search results
Hay dos tipos de resultados entre wiki que se pueden mostrar al buscar en Wikipedia.
La búsqueda interproyecto (también conocida como búsqueda entre wiki, búsqueda de hermanas o búsqueda por proyectos hermanas) muestra resultados adicionales de otros proyectos (Wiktionary, Wikisource, Wikiquote, etc.) mostrados en el lado de la página de resultados de Wikipedia. La búsqueda entre proyectos está disponible en la mayoría de las wikipedias con proyectos hermanos.
Cross-language search (see blog post) refers to additional results shown below the main results that are from a Wikipedia in a different language. La búsqueda interlingüística utiliza una versión muy modificada y optimizada de un detector de lenguaje ligero llamado TextCat . La búsqueda translingüística está disponible actualmente solo en algunas wikipedias (ver enlace TextCat para más detalles).
Explicit sort orders
Además del orden por defecto basado en la relevancia, CirrusSearch puede proporcionar resultados utilizando algunos otros órdenes de orden explícitos.
Especificar un orden de clasificación diferente a relevance
desactivará todas las palabras clave de búsqueda que afectan a la puntuación, como prefer-recent
o boost-templates
.
Las palabras clave seguirán siendo analizadas, pero no tendrán ningún efecto.
Las opciones de clasificación están disponibles actualmente en la API de MediaWiki proporcionando el parámetro srsort
.
Orientación:
Las opciones de clasificación se pueden añadir manualmente a una URL de búsqueda añadiendo &sort=order
, por ejemplo:
Las órdenes de clasificación válidas incluyen:
&sort=incoming_links_asc
- El número de enlaces entrantes entre el mínimo y el máximo. Esto es aproximadamente de lo menos a lo más popular.
&sort=incoming_links_desc
- Highest to lowest number of incoming links. Esto es aproximadamente de la mayoría a la menos popular.
&sort=last_edit_asc
- Desde lo más reciente hasta lo más recientemente editado
&sort=last_edit_desc
- De la mayoría a la menos recientemente editado
&sort=create_timestamp_asc
- From least to most recently created
&sort=create_timestamp_desc
- From most to least recently created
&sort=just_match
- Un tipo de relevancia simple basado sólo en la coincidencia de texto
&sort=relevance
- Un tipo de relevancia que tenga en cuenta muchas características del documento
&sort=random
- Randomized
&sort=none
- Las listas no ordenadas, ordenadas arbitrariamente. Preferido para grandes conjuntos de resultados.
Interface for advanced options
The AdvancedSearch extension adds an improved interface to the search page allowing the use of several options described above in a user-friendly manner. See here for the user manual.
Véase también
- Completion Suggester - the incremental search feature of CirrusSearch
- Wikimedia Search Platform/Search/Glossary — las definiciones, el contexto y los enlaces de los términos relacionados con la búsqueda.
- Véase Ayuda:Búsqueda para MWSearch, utilizado por las muchas wikis que no tienen una extensión de búsqueda.
External links
- [$luceno de Luceno], documentación muy relevante.
- Las especificaciones completas en las pruebas de explorador de la extensión A partir de 2017
- Extension:CirrusSearch/Profiles – conjuntos de parámetros ajustables que influyen en varios aspectos de la indexación
- Wikimedia blog articles related to search
- WMF Global Search
Notes and references
- ↑ Nótese que el tagline no es parte del contenido real. Para ver el contenido susceptible de ser buscado para una página, anexa ?action=cirrusdump a la URL.
- ↑ Palabras de parón son raramente pedidas en CirrusSearch, excepto cuándo son en clases seguras de frases, cuando explicó abajo.
- ↑ Los parámetros de CirrusSearch no utilizan un método consistente para manipular estos términos de búsqueda.
- ↑ El mismo analyzer utilizó a índice el wikitext es también utilizado para interpretar la consulta.
- ↑ Por ejemplo, los términos comunes en este wiki, Mediawiki.org, se buscan de forma redundante:
- udp2registro o udp2registro2
- html2wt o wt2html
- Registro2ip o ip2registro
- ↑ La expresión regular CirrusSearch no aborda el carácter de nueva línea directamente, pero un punto . coincidirá con una nueva línea.
- ↑ Una búsqueda de expresiones regulares lenta no puede deshabilitar la búsqueda, pero puede deshabilitar la búsqueda de expresiones regulares de otra persona, ya que solo hay un número limitado de búsquedas de expresiones regulares permitidas a la vez.
- ↑ El prefijo no coincide con los primeros caracteres de los nombres completos, por lo que no se pueden buscar dos espacios de nombre a la vez sólo porque empiecen por las mismas letras, como por ejemplo namespace y namespace talk en una consulta.
- ↑ Para la definición formal vea la Gramática Lucene para expresiones regulares.
- ↑ Clase RegExp, Lucene RegExp sintaxis
- ↑ Para excluir el carácter de tablación también, copia y agregarlo al conjunto de caracteres.