Help:MediaSearch
Special:MediaSearch ist ein neues Back-End und Front-End für die Suche nach Dateien auf Commons, wobei Bilder in einer regalähnlichen Ansicht erscheinen, die von Bildsuchmaschinen im Internet genutzt wird. Rückmeldungen zu MediaSearch können auf der Diskussionsseite auf Commons hinterlassen werden.
Tue folgendes, um die Wahrscheinlichkeit zu erhöhen, dass Dateien über Special:MediaSearch gefunden werden:
- Füge einen relevanten und beschreibenden Titel hinzu
- Füge in so vielen Sprachen wie möglich Beschreibungen hinzu, mit denen du beschreibst, was die Datei darstellt
- Füge eine detaillierte Beschreibung hinzu, die erklärt, was die Datei darstellt und relevante Zusammenhänge aufzeigt
- Füge die Datei zu relevanten Kategorien hinzu
- Füge alle Aussagen zu Motiven hinzu, die deine Datei darstellt
Unten findet sich ein Überblick der Arten von Daten, die genutzt werden und wie sie dazu beitragen, Dateien zu finden. Es gibt zwei Hauptarten von Daten, die genutzt werden, um Dateien zu finden:
- Vollständiger Text
- Aussagen und strukturierte Daten
Volltextsuche
Wie
Dies ist eine traditionelle text-basierte Suche: Wenn der Text das Wort enthält, nach dem gesucht wird, ist die Datei ein Treffer.
Der Rang wird auf zwei Arten beeinflusst:
- Häufigkeit der Begriffe
- Position der Begriffe
- Häufigkeit der Begriffe
Der Suchalgorithmus wird versuchen, anhand der Häufigkeit der Suchbegriffe festzustellen, wie relevant ein Ergebnis ist.
Je häufiger der Suchbegriff in einem Dokument auftaucht, desto relevanter scheint er zu sein (Beispiel: Wenn ein Dokument häufiger "Mona Lisa" erwähnt, als ein anderes, ist es wahrscheinlich relevanter).
Je häufiger der Suchbegriff in allen Dokumenten auftaucht, desto weniger relevant wird der Begriff sein (Beispiel: Häufige Wörter wie "tut" werden zu der Platzierung nicht viel beitragen, da diese Wörter in sehr vielen Dokumenten vorkommen).
Für den Suchbegriff "Mona Lisa" im Wikitext der englischsprachigen Wikipedia hilft uns dies dabei, zu erkennen, dass der Artikel "Mona Lisa" (184 Erwähnungen des Begriffs) wahrscheinlich ein besseres Ergebnis ist, als der Artikel "Louvre museum" (7 Erwähnungen).
Auf Commons ergibt sich jedoch das Problem, dass diese Häufigkeit häufig nur von geringer Bedeutung ist, wenn es um den Vergleich der Relevanz geht: Es handelt sich nicht um lange Artikel, sondern kurze Beschreibungen. Begriffe kommen meist nicht häufiger als ein oder zwei Mal vor und es gibt nur wenig anderen Inhalt, mit dem verglichen werden kann. Daher berücksichtigen wir bei dem Ranking auch die Position der Begriffe.
- Position der Begriffe
Es gibt mehrere Wege, um Informationen zu einer Datei einzugeben. Alle tragen zur Relevanzeinstufung bei, jedoch auf unterschiedliche Art und Weise.
Wikitext-Beschreibungen werden traditionell als das wichtigste Mittel betrachtet, um Dateiinformationen zu präsentieren, jedoch enthalten sie manchmal so viele Informationen, dass die bedeutsamen Begriffe in der Suchrelevanz kaum hervorstehen. Manchmal enthalten sie hingegen so wenig Information, dass die Suche kaum die Möglichkeit hat, mit ihr zu arbeiten, um die Relevanz zu bestimmen.
Beispielsweise sind Details wie der Autor, der Ort oder das Datum, an dem die Mediendatei erstellt wurde, zu welchem Museum sie gehört oder unter welcher Lizenz sie veröffentlicht wurde – obwohl sie wichtig sind – häufig nicht die Begriffe, nach denen Personen suchen werden. Darüber hinaus sind wesentliche Teile der Beschreibung häufig "kontextbezogene" Informationen, die nicht direkt zum Hauptthema gehören.
Obwohl Beschreibungen häufig viele Informationen enthalten, die sehr wichtig sein könne, um die Datei zu finden, kann es schwierig sein, einzig anhand der Begriffe in der Beschreibung herauszufinden, was die Datei darstellt. Beschreibungen können lang sein (und in mehreren Sprachen vorliegen, sowie Informationen enthalten, die für den Suchbegriff irrelevant sind). Anders gesagt ist es schwierig, die Relevanz anhand der Beschreibungen festzustellen.
Zusätzliche Daten, die Dinge prägnanter beschreiben (wie Titel, Untertitel, Kategorien) fokussieren sich häufig auf sehr spezifische Informationen, was dabei hilft, festzustellen, was bei einer Mediendatei wichtig ist – in anderen Worten erleichtern es diese Daten, die Relevanz zu bestimmen. Daher ist auch die Position der Begriffe wichtig.
Beispiel: Wenn du nach "Mona Lisa" suchst, wird eine Datei, die "Mona Lisa" in der Beschreibung enthält, normalerweise in den Suchergebnissen weiter hinten auftauchen, als eine, die den Begriff als Teil des Titels und/oder Untertitels und/oder (eine der) Mona-Lisa-Kategorien enthält.
Beachte jedoch, dass die mehrfache Angabe von Informationen in Wikitext in unterschiedlichen Feldern ebenfalls unbeabsichtigte Auswirkungen haben kann, da die häufigkeitsbasierten Relevanzwerte gesenkt werden - stelle daher sicher, dass du die Datei durch einen relevanten Titel, eine detaillierte Beschreibung, Untertitel (idealerweise in mehreren Sprachen) und die angemessenen Kategorien genau beschreibst, ohne die gleiche Information an unterschiedlichen Orten zu wiederholen.
Einschränkungen
Der oben erwähnte Volltextsuchalgorithmus ist sehr gut, hat aber auch einige Probleme - insbesondere in unserem Kontext:
- Sprache
Bei einer traditionellen textbasierten Suche wollen Benutzer normalerweise keine Ergebnisse in anderen Sprachen sehen, als in der Sprache, in der sie suchen (es wird angenommen, dass der Benutzer andere Sprachen nicht verstehen würde). Das ist auf Commons anders, da die Leute nicht wirklich nach Beschreibungen suchen – sie wollen die Datei.
Wenn ein Benutzer also nach Bildern von Autos, würde eine ideale Suche auch Dateien finden und ausgeben, die Treffer in anderen Sprachen sind, wie cars in Englisch oder voiture in Französisch. Sofern jedoch die Beschreibungen und/oder Untertitel jedes Bildes nicht Übersetzungen für jede Sprache besitzen, wird eine textbasierte Suche Ergebnisse in anderen Sprachen nicht finden.
Ein weiteres Problem hierbei ist, dass manche Wörter in unterschiedlichen Sprachen gleich aussehen, aber unterschiedliche Bedeutungen haben. Zum Beispiel "Gift" in Englisch und Deutsch oder "Chat" in Englisch und Französisch; diese Unterschiede in den Sprachen bewirken aufgrund der unterschiedlichen Bedeutungen sehr unterschiedliche Ergebnisse in der textbasierten Suche.
- Synonyme
Gleiches gilt, wenn du in einer textbasierten Suche nach Fledertieren suchst, da die Suche keine Ergebnisse unter ihrem wissenschaftlichen Namen Chiroptera finden wird. Dies gilt auch für Abkürzungen, wie NYCbei der Suche nach New York City.
- Treffer für Wörter, keine Konzepte
Damit vergleichbar kann eine Textbeschreibung mehr implizite Informationen enthalten, die nicht einfach durch das Scannen des Wikitextes gefunden werden können.
Eine Britische Kurzhaar ist auch eine Katze und ein Volvo V40 ist ein Auto, sofern ihre Beschreibungen jedoch nicht ausdrücklich Katze oder Auto erwähnen, werden sie in einer traditionellen textbasierten Suche für diese Suchbegriffe nicht gefunden.
Aussagen und strukturierte Daten
Wikidata-Aussagen haben das Potenzial, viele der zuvor genannten Probleme textbasierter Suchen zu lösen: Sie sind mehrsprachig, haben Aliasse und sind mit allen Arten von verwandten Konzepten verlinkt.
Wie
Seitdem der Reiter "Strukturierte Daten" zu Dateiseiten hinzugefügt wurde, ist es möglich, Wikidata-Einträge mit einer Datei zu verknüpfen, darunter auch Aussagen darüber, was die Datei "abbildet".
Wenn ein Suchbegriff angegeben wird (wie "Anakonda"), durchsuchen wir auch Wikidata nach relevanten Einträgen. Hier sind einige der besten Ergebnisse für diesen Fall:
- Anaconda (Q483539): Stadt im US-Bundesstaat Montana
- Anakondas (Q188622): Gattung der Familie Boas (Boidae)
- Anaconda (Q17485058): Lied von Nicki Minaj
Zusätzlich zu Übereinstimmungen im Volltext wird die Suche auch Ergebnisse umfassen, die eine "Motiv"-Aussage für (eine oder mehrere der) Einträge enthalten. Sie wird auch Ergebnisse enthalten, die eine Aussage "digitales Abbild von" besitzen, die für Kunstwerke genutzt wird.
Potenziell können dadurch wesentlich mehr Suchergebnisse ausgegeben werden, da die Einträge auch Synonyme (über Wikidata-Aliasse) und sprachliche Unterschiede (über Bezeichnungen & Aliasse in mehreren Sprachen) abdecken: Eine Datei muss nur eine Motiv-Aussage besitzen und die Suche wird dazu in der Lage sein, diese Aussage und all ihre Aliasse und Übersetzungen zu finden.
Wenn später Übersetzungen oder Aliasse zu diesen Einträgen hinzugefügt werden, werden die Dateien, die mit ihnen markiert sind, automatisch davon profitieren, da sie auch über diese Begriffe zu finden sein werden. Deshalb ist es wichtig, zu Einträgen, die für Motiv-Aussagen auf Commons verwendet werden, auf Wikidata weitere Aliasse, Bezeichnungen und andere Informationen hinzuzufügen.
Hinweis: Nicht alle Einträge werden werden in den Suchergebnissen gleich behandelt. Wenn ein Benutzer nach "Iris" sucht, erwartet er wahrscheinlich, Medien zu finden, die die Pflanzengattung (Q156901) abbilden oder den Teil eines Auges (Q178748), aber wahrscheinlich nicht Iris Murdoch, die britische Autorin und Philosophin (Q217495).
Basierend auf der Ähnlichkeit zum Suchbegriff und der Wichtigkeit/Häufigkeit des Eintrags wird die Mediensuche mehr Multimedia-Dateien mit einem bestimmten Eintrag anzeigen, als mit anderen.
Einschränkungen
Wikidata-Einträge sind ein hervorragendes Signal, um dabei zu helfen, zusätzliche relevante Multimedia-Dateien zu finden:
- Es gibt weniger Störungen (z.B. enthalten Textbeschreibungen häufig falsch positive Ergebnisse wie "Iris" als Vornamen einer Fotografin, nicht als Thema der Datei).
- Sie enthalten viel mehr Informationen (Aliasse & Übersetzungen) als individuelle Dateibeschreibungen.
- Sie können an einem zentralen Ort (Wikidata) ergänzt werden.
Sie sind jedoch auch ein schlechter Indikator zur Einstufung der Ränge:
- Bei einer Datei mit mehreren Motiv-Aussagen ist es schwierig, festzustellen, welche Aussagen die wichtigsten oder relevantesten sind.
- Wikidata hat viele Einträge, die unterschiedlich detailliert sind.
- Relative Ränge
Bei einer Datei mit mehreren Motiv-Aussagen ist es schwierig, festzustellen, welche Aussagen die wichtigsten oder relevantesten sind.
Sind beide gleichwichtig oder ist eine von ihnen offensichtlich das Thema und und die andere ein weniger relevantes Hintergrunddetail? Wenn ja, welche? Ist eine Motiv-Aussage in einer Datei prominenter als die gleiche Motiv-Aussage in einer anderen Datei?
Sieh dir das Bild "Pale Blue Dot" an: Obwohl die Erde weniger als ein Pixel des Bildes ausmacht, ist sie ein signifikantes Thema des Bildes.
Aussagen haben grundsätzlich nur zwei Zustände: Sie sind in der Datei vorhanden oder nicht. Es gibt keine weitere Information darüber, wie relevant etwas in der Datei ist.
Die Funktion “Als prominent markieren” für Aussagen soll einige dieser Probleme lösen, wird derzeit jedoch nicht einheitlich genutzt. Zusätzlich kann die Nutzung von Qualifikatoren wie 'betroffener Teil des Subjekts' dabei helfen, die Zuordnung von Rängen zu verbessern., wobei diese auf Commons kaum genutzt werden, obwohl sie bereits auf Wikidata Anwendung finden. Beispielsweise haben die Motive im Wikidata-Datenobjekt für Mona Lisa Qualifikatoren 'betroffener Teil des Subjekts', die Vordergrund und Hintergrund kennzeichnen. Diese können sich auch auf den Algorithmus für die Suchränge auswirken, wenn sie auf Commons genutzt werden.
Während Motiv-Aussagen sehr hilfreich sind, um zusätzliche relevante Ergebnisse hervorzuheben, ist es schwierig, sie für die Zuweisung von Rängen zu verwenden: Textbeschreibungen vermitteln die relative Bedeutung von Themen häufig besser, als es diese einfachen Aussagen können.
- Detailgrad
Wikidata hat viele Einträge, die unterschiedlich detailliert sind. Während wir daran arbeiten, "Unterkonzepte" in Suchergebnisse aufnehmen zu können, ist es wichtig, die Gewichtung von bestimmten Einträgen, insbesondere im Vergleich mit der Volltextsuche, vorsichtig vorzunehmen.
Beispielsweise können die Aussagen Brücke (Q12280), Hängebrücke (Q12570), Golden Gate Bridge (Q44440) oder Sehenswürdigkeit (Q570116) genutzt werden, um ein Bild der Golden Gate Bridge zu beschreiben, jedoch beinhaltet die Aussage Golden Gate Bridge (Q44440) über unterschiedliche verwandte Einträge bereits alle anderen.
Es gibt jedoch auch Beispiele, bei denen dies nicht so einfach ist.
Deutscher Schäferhund (Q38280) ist eine Unterklasse von Hund (Q144), die eine Unterklasse von Heimtier (Q39201) ist - theoretisch sollten wir alle Bilder mit der Markierung "Deutscher Schäferhund" finden, wenn wir nach "Heimtier" suchen.
Einige Fotos mit der Markierung "Deutscher Schäferhund" zeigen jedoch Gebrauchshunde (Q1806324) und keine Heimtiere.