Структурированные данные Викимедиа
Structured Data Across Wikimedia
Проект, который поможет нам структурировать контент на страницах вики-текста, улучшая его машиночитаемость и релевантность, а также упростит и сделает доступнее чтение, редактирование и поиск в проектах и в интернете.
|
SDAW[1] - это проект, который поможет нам структурировать содержимое страниц Викитекста таким образом, чтобы оно было распознаваемо и соотносимо с машиной, что сделает чтение, редактирование и поиск более простым и доступным в проектах и в Интернете.
Это поможет пользователям связать контент между проектами Викимедиа, поможет читателям глубже погрузиться в экосистему знаний «Викимедиа» и поможет участникам распространять информацию между проектами и за их пределами таким же способом, как Викиданные. Проект также предоставит площадку для экспериментов с компьютерными инструментами редактирования, чтобы упростить редактирование и сделать его доступнее для большего числа редакторов по всему миру.
The project ran from February 1, 2021 to June 30, 2023.
Предыстория
Этот проект является продолжением аналогичного проекта, завершённого на Викискладе в рамках предыдущего гранта «SDC» [2] и будет частично финансироваться за счет трёхлетнего гранта «Sloan Foundation». Работа над SDC позволила нам осознать необходимость более продвинутых метаданных для всего контента и API для обеспечения лучших результатов при поиске, что, в свою очередь, сделало бы контент более доступным, находчивым, переводимым и используемым для других нужд.
У проекта три основных цели:
- Позволить машинам распознавать контент Викимедиа и предлагать связь с другим контентом Викимедиа. Сначала мы исследуем этот вопрос в рамках проекта имиджевого предложения.
- Разработать способ выстраивания статей и страниц, позволяющий создавать новые форматы контента – контент, который легко предоставляемый в виде небольших, легко усваиваемых фрагментов, более доступным читателям для использования и обмена.
- Предоставить пользователям Викимедиа более привлекательный и эффективный способ поиска и нахождения контента, опираясь MediaSearch и изучая новые способы улучшения поиска в Википедиях с использованием структурированных данных.
Что меняется
Цель этого проекта - разработать и создать прототип новой системы, которая должна быть достаточно удобным, чтобы обслуживать все виды метаданных, которые нам могут понадобиться для поддержки в ближайшем будущем.
Мы определили три главных проекта, которые мы будем развивать в рамках нашей работы:
- Рекомендуемые изображения - инструмент для опытных пользователей, помогающая добавлять иллюстрации к статьям Википедии;
- Метаданные по разделам, также известен как Темы по разделам, для описания того, о чем раздел статьи Википедии;
- Улучшенный поиск, который будет использовать структурированный контент, чтобы предоставить пользователям более привлекательный и эффективный способ поиска и нахождения контента в Википедии.
Рекомендуемые изображения
Пользовательский интерфейс для инструмента «Рекомендуемые изображения» нацелен на разработку систем для структурированных данных во всех проектах Викимедиа.
Эта работа будет основываться на то, что уже начата в рамках проекта структурированной задачи «Добавить изображение». Однако, фокус нашего проекта будет смещен в сторону улучшения процессов для опытных участников. В частности, мы будем ориентироваться на пользователей, которые редактировали или смотрели определенную статью или набор статей, поскольку они, скорее всего, являются профи в данной тематике и заинтересованы в улучшении этой статьи (или статей).
Темы по разделам
Проект «Темы по разделам» определит разделы в статье и создаст соответствующие темы для этих разделов, опираясь на несколько элементов, таких как:
- алгоритм, который обнаружит элементы Викиданных на основе синих ссылок раздела (который будет разработан в сотрудничестве с командами по Структурированным Данным, Исследованиям и командой Платформа Данных);
- возможность автоматического определения разделов в статье (которая будет разработана в сотрудничестве с командами по Структурированным Данным и Платформы Данных).
Одним из первых вариантов использования, которые мы предусмотрели для «Темы по разделам», будут предложения изображений на уровне разделов, которые будут использовать алгоритм синих ссылок и инфраструктуру идентификации разделов, описанную выше, и будут предоставляться как через интерфейс новичков, так и через уведомления для опытных участников. Это будет основано на работе проделанной для «рекомендуемых изображений» и будет разработано в партнерстве с командами Структурированных Данных, Data Platform, Research, Search, Android и Growth.
Все эти элементы не изменят и не повлияют на текущий процесс правок для пользователей. Все эти действия будут выполняться автоматически и не будут зависеть от каких-либо действий редакторов. В настоящее время проект находится на стадии разработки и все еще существуют аспекты, которые могут потребовать дальнейшего изучения и/или отзывов от пользователей.
Улучшенный поиск
Проект «Улучшенный поиск», будет использовать структурированный контент, чтобы предоставить пользователям более привлекательный и эффективный способ поиска и нахождения контента в Википедии. Улучшая Special:Search, мы хотим дать пользователям возможность находить информацию, которую они ищут, или которую они, возможно, не заметили, или ранее сталкивались с помощью существующей функцией поиска.
Мы стремимся определить и конкретизировать постепенные улучшения «специального поиска», которые используют структурированный контент, чтобы помочь пользователям находить контент, который они ищут, особенно в тех языковых википедиях, в которых мало статей.
Чего мы не хотим сделать?
- Оставить пользователей вне процесса
- Перегружать пользователей слишком большим количеством нового контента для отслеживания
- Добавить любую дополнительную предвзятость к проектам Викимедиа
- Добавить дополнительные возможности для вандализма
- Внести слишком много сложностей в наши системы
Обновления состояния
- Предвадительный просмотр поиска был развернут в каталонской, голландской, венгерской, норвежской и украинской Википедии.
- «Рекомендуемые изображения для разделов» развернуто в португальской, русской, индонезийской, каталонской, финской, венгерской и норвежской Википедии.
- Был опубликован итоговый отчет проекта DPLA[3], финансируемого SDAW[1], направленный на стимулирование повторного использования описанных изображений.
- Опрос об уведомлениях «Рекомендуемые изображения» проводится в португальской, русской и индонезийской Википедии.
- Новая функция «Предварительный просмотр поиска» развернута в португальской, русской и индонезийской Википедии.
- Начата работа над «Рекомендуемые изображения для разделов», основанная на работе, проделанной для Темы для разделов.
- Тестовая фаза инструмента «Рекомендуемых изображений» началась в каталонской, финнской, венгерской и норвежской Википедии.
- Первый раунд тестирования «Рекомендуемых изображений» в португальской, русской и индонезийской Википедиях успешно завершен.
- Страницы проекта обновлены, чтобы отразить новый текущий статус инициативы.
- Отчет за второй год по Структурированным Данным Викимедиа опубликован.
- DPLA[3] предоставила грант для «SDAW[1]», для стимулирования повторного использования описанных и приписываемых изображений. Подробнее об этом вы можете прочитать в объявлении «DPLA» о проекте «SDAW» на 2022 год.
- Начата общая консультация по улучшению поиска.
- Страницы проекта обновлены, чтобы отразить (новый) текущий статус инициативы и три основных проекта, которые предстоит разработать.
- Индонезийская Википедия присоединилась к нам в качестве третьего сообщества для тестирования.
- Установили контакт с сообществами португальской и русской Википедии в качестве первых тестовых сообществ для инструмента «Рекомендуемые изображения».
- Проект переходит к первому этапу тестирования, стартует эксперимент с использованием уведомлений для оповещения пользователей о возможных полезных изображениях для статей Википедии.
Май-Август 2021
- Получение отзывов о проекте «Рекомендации по изображениям» при помощи индивидуальных приглашений и месячного обсуждения в RFC, специально предназначенного для 4 Википедий + Викисклада
- Получение отзывов об этих идеях.
- Работа над первичными скелетами и макетами, чтобы помочь изучить эти идеи.
- Изучение инфраструктуры для поддержки этой работы в рамках процесса «Форума по Принятию Технических Решений». Просмотрите задача T274181.
Вторая половина 2020 года
- Создание «MediaSearch» на Викискладе.
- MediaSearch A/B test - проводится в период с 10 по 17 сентября 2020 года.
Отзывы
Отзывы по проекту всегда приветствовались и будут приветствоваться. Нас особенно интересуют ваши идеи о том, в какой степени вы хотите поддержать идею «человека в цикле» на протяжении всего процесса создания тематических метаданных. Мы ожидаем от вас получить ответы на следующие вопросы:
- Ваши ожидания относительно проекта
- Чего пользователи ожидают от этого проекта? Какие необходимые шаги необходимо предпринять?
- Как вы представляете себе использование этих метаданных? Можете ли вы подумать о том, как это могло бы помочь вам в вашей работе?
- Модерация метаданных
- Необходима ли модерация, чтобы избежать вандализма и/или предвзятости?
- Если необходима модерация, то как ею можно эффективно управлять?
- Добавление и подтверждение метаданных
- Хотят ли пользователи иметь возможность подтверждать или отклонять метаданные, предлагаемые автоматизированной системой?
- Хотят ли пользователи иметь возможность добавлять дополнительные метаданные сверх того, что предлагается автоматизированной системой?
- Считаете ли вы, что пользователям может быть полезной иметь возможность отправлять отзывы с предложениями о том, как улучшить метаданные, созданные автоматизированной системой, когда это необходимо?
- Преимущества для визуализации и редактирования
- Хотим ли мы, чтобы метаданные были видны всем пользователям или только определенным пользователям?
- Хотим ли мы, чтобы метаданные были доступны для редактирования, для всех пользователей или только для конкретных пользователей?
Кроме этого, более конкретные отзывы о проектах, можно оставить на страницах обсуждения проектов:
Финансирование
Частичное финансирование предоставлено грантом Фонда Альфреда П. Слоана для продолжения работы, проделанной в рамках первого раунда финансирования по разработке SDC[2].