Структурированные Данные Викимедиа

This page is a translated version of the page Structured Data Across Wikimedia and the translation is 100% complete.

Структурированные Данные Викимедиа (коротко SDAW) — проект, который поможет нам структурировать контент на страницах вики-текста, улучшая его машиночитаемость и релевантность, а также упростит и сделает доступнее чтение, редактирование и поиск в проектах и в интернете.

Это поможет пользователям связать контент между проектами Викимедиа, поможет читателям глубже погрузиться в экосистему знаний «Викимедиа» и поможет участникам распространять информацию между проектами и за их пределами таким же способом, как Викиданные. Проект также предоставит площадку для экспериментов с компьютерными инструментами редактирования, чтобы упростить редактирование и сделать его доступнее для большего числа редакторов по всему миру.

Предыстория

Этот проект является продолжением аналогичного проекта, завершённого на Викискладе в рамках предыдущего гранта «Структурированные данные на Викискладе» (SDC) и будет частично финансироваться за счет трёхлетнего гранта «Sloan Foundation». Работа над SDC позволила нам осознать необходимость более продвинутых метаданных для всего контента и API для предоставления лучших результатов поиска, что в свою очередь, сделало бы контент более доступным, видимым, переводимым и пригодным для других нужд.

У проекта три основных цели:

  1. Позволить машинам распознавать контент Викимедиа и предлагать связь с другим контентом Викимедиа. Мы изучаем это в первую очередь в рамках проекта «рекомендаций по изображениям».
  2. Разработать способ выстраивания статей и страниц, позволяющий создавать новые форматы контента – контент, который легко предоставляемый в виде небольших, легко усваиваемых фрагментов, более доступным читателям для использования и обмена.
  3. Предоставить пользователям Викимедиа более привлекательный и эффективный способ поиска и нахождения контента, опираясь MediaSearch и изучая новые способы улучшения поиска в Википедиях с использованием структурированных данных.

Что меняется

Цель этого проекта - разработать и создать прототип новой системы, которая должна быть достаточно удобным, чтобы обслуживать все виды метаданных, которые нам могут понадобиться для поддержки в ближайшем будущем.

Мы определили три главных проекта, которые мы будем развивать в рамках нашей работы:

  1. Рекомендуемые изображения - инструмент для опытных пользователей, помогающая добавлять иллюстрации к статьям Википедии;
  2. Метаданные по разделам, также известен как Темы по разделам, для описания того, о чем раздел статьи Википедии;
  3. Улучшенный поиск, который будет использовать структурированный контент, чтобы предоставить пользователям более привлекательный и эффективный способ поиска и нахождения контента в Википедии.

Рекомендуемые изображения

Пользовательский интерфейс для инструмента «Рекомендуемые изображения» нацелен на разработку систем для структурированных данных во всех проектах Викимедиа.

Эта работа будет основываться на то, что уже начата в рамках проекта структурированной задачи «Добавить изображение». Однако, фокус нашего проекта будет смещен в сторону улучшения процессов для опытных участников. В частности, мы будем ориентироваться на пользователей, которые редактировали или смотрели определенную статью или набор статей, поскольку они, скорее всего, являются профи в данной тематике и заинтересованы в улучшении этой статьи (или статей).

Темы по разделам

Проект «Темы по разделам» определит разделы в статье и создаст соответствующие темы для этих разделов, опираясь на несколько элементов:

  • алгоритм, который обнаружит элементы Викиданных на основе синих ссылок раздела (который будет разработан в сотрудничестве с командами по Структурированным Данным, Исследованиям, Машинному Обучению и командой Платформа Данных);
  • возможность автоматического определения разделов в статье (которая будет разработана в сотрудничестве с командами по Структурированным Данным и Платформы Данных);
  • предложения по изображениям на уровне разделов, которые будут использовать алгоритм синих ссылок и инфраструктуру идентификации разделов, описанные выше, в следствии чего будут предоставлять рекомендации, как для новичков, так и через уведомления для опытных участников.

Этот последний пункт будет основан на предыдущей работе по «Рекомендуемым изображениям» и будет разработан в сотрудничестве с командами по Структурированным Данным, Исследованиям, Машинному Обучению, Платформа Данных, Поиску и Развитию.

Все эти элементы не изменят и не повлияют на текущий процесс правок для пользователей. Все эти действия будут выполняться автоматически и не будут зависеть от каких-либо действий пользователей, редактирующих статью. В настоящее время проект все еще находится на стадии исследования и все еще существуют аспекты, которые могут потребовать дальнейшего изучения и/или отзывов от пользователей.

Основываясь на дееспособность этих вариантов, проект также направлен на:

  • использование тем разделов для улучшения нашей поисковой оптимизации и охвата с помощью внешних поисковых систем (в партнерстве с Веб-командой)
  • налаживание партнерских отношений с более широким сообществом Викимедиа, чтобы продемонстрировать влияние наших новых инструментов (в партнерстве с командами Структурированных Санных, Развития и Общественных Программ (GLAM/Кампании)).

Улучшенный поиск

Проект «Улучшенный поиск», будет использовать структурированный контент, чтобы предоставить пользователям более привлекательный и эффективный способ поиска и нахождения контента в Википедии. Улучшая Special:Search, мы хотим дать пользователям возможность находить информацию, которую они ищут, или которую они, возможно, не заметили, или ранее сталкивались с помощью существующей функцией поиска.

Мы стремимся определить и конкретизировать постепенные улучшения «специального поиска», которые используют структурированный контент, чтобы помочь пользователям находить контент, который они ищут, особенно в тех языковых википедиях, в которых мало статей.

Чего мы не хотим сделать?

  1. Оставить пользователей вне процесса
  2. Перегружать пользователей слишком большим количеством нового контента для отслеживания
  3. Добавить любую дополнительную предвзятость к проектам Викимедиа
  4. Добавить дополнительные возможности для вандализма
  5. Внести слишком много сложностей в наши системы

Последние новости

(2022-03)

  • Страницы проекта обновлены, чтобы отразить (новый) текущий статус инициативы и три основных проекта, которые предстоит разработать.

(2022-02)

  • Установили контакт с сообществами португальской и русской Википедии в качестве первых тестовых сообществ для инструмента «Рекомендуемые изображения».

(2021-11)

  • Проект переходит к первому этапу тестирования, стартует эксперимент с использованием уведомлений для оповещения пользователей о возможных полезных изображениях для статей Википедии.

Май-Август 2021

(2021-02)

  • Получение отзывов об этих идеях.
  • Работа над первичными скелетами и макетами, чтобы помочь изучить эти идеи.
  • Изучение инфраструктуры для поддержки этой работы в рамках процесса «Форума по Принятию Технических Решений». Проверьте задача T274181.

Вторая половина 2020 года

  • Создание «MediaSearch» на Викискладе.
  • MediaSearch A/B test - проводится в период с 10 по 17 сентября 2020 года.

Отзывы

Отзывы по проекту всегда приветствовались и будут приветствоваться. Нас особенно интересуют ваши идеи о том, в какой степени вы хотите поддержать идею «человека в цикле» на протяжении всего процесса создания тематических метаданных. Мы ожидаем от вас получить ответы на следующие вопросы:

  1. Ваши ожидания относительно проекта
    1. Чего пользователи ожидают от этого проекта? Какие необходимые шаги необходимо предпринять?
    2. Как вы представляете себе использование этих метаданных? Можете ли вы подумать о том, как это могло бы помочь вам в вашей работе?
  2. Модерация метаданных
    1. Необходима ли модерация, чтобы избежать вандализма и/или предвзятости?
    2. Если необходима модерация, то как ею можно эффективно управлять?
  3. Добавление и подтверждение метаданных
    1. Хотят ли пользователи иметь возможность подтверждать или отклонять метаданные, предлагаемые автоматизированной системой?
    2. Хотят ли пользователи иметь возможность добавлять дополнительные метаданные сверх того, что предлагается автоматизированной системой?
    3. Считаете ли вы, что пользователям может быть полезной иметь возможность отправлять отзывы с предложениями о том, как улучшить метаданные, созданные автоматизированной системой, когда это необходимо?
  4. Преимущества для визуализации и редактирования
    1. Хотим ли мы, чтобы метаданные были видны всем пользователям или только определенным пользователям?
    2. Хотим ли мы, чтобы метаданные были доступны для редактирования, для всех пользователей или только для конкретных пользователей?

Кроме этого, более конкретные отзывы о проектах, можно оставить на страницах обсуждения проектов:

Финансирование

Частичное финансирование предоставлено грантом Фонда Альфреда П. Слоана для продолжения работы, проделанной в рамках первого раунда финансирования по разработке Структурированных Данных на Викискладе.