維基媒體應用程式/iOS 系統建議編輯專案/替代文本實驗

This page is a translated version of the page Wikimedia Apps/iOS Suggested edits project/Alt Text Experiment and the translation is 89% complete.
Outdated translations are marked like this.

背景

我們為什麼要進行這個專案?

圖像越來越普遍,並且可以提供資訊: 最近的研究表明,維基百科文章中的圖像可以提高文章的參與度,並提供插圖以外的資訊。[1] 如果用戶因視力障礙或網路連線而無法查看圖像,他們可以使用替代文本(或稱替代文字)。 替代文本是可以與圖像相關聯的文本,其具有相同的目的並傳達與圖像相同的基本訊息。[2]

維基百科文章中的許多圖像缺少替代文本: 2021年,研究表明,英文維基百科上46%的圖像有標題,10%的圖像有替代文本,而只有3%有有效的替代文本。[3] 解決維基百科文章和維基共享資源中圖像缺乏替代文本的問題長期以來一直是討論、研究和組織的主題。 波蘭,愛爾蘭和阿根廷的維基媒體自治體以及透過 2022 年圖像描述活動週等全球活動組織了各種替代文本編輯活動。

提高維基百科的可訪問性: 維基媒體運動策略的建議 #2 是透過支援使用自由開源軟體(如:Web WCAG、W3C 行動 Web 最佳實踐等等)遵守最先進的可訪問性指南來改善使用者體驗。 最近對維基百科上跨語言圖像可訪問性的一項研究表明,解決方案的一部分是投資可以在沒有可訪問性覆蓋的情況下顯示文章和圖像的工具。[4]

維基百科iOS系統應用程式因其用戶輔助功能而在 2017 年成為蘋果品牌編輯的選擇。 可訪問性是我們應用程式團隊的設計和開發過程的一個重要因素,因此用高品質替代文本填充圖像空白的任務適合我們的團隊。

我們的早期原型顯示出希望:我們創建了概念驗證實驗版本,用於在維基百科文章的文理中向圖像添加替代文本,並在 2023 年維基媒體館聯會議上與用戶分享。

獲得回饋後,我們對在應用程式的生產版本中擴展我們的實驗充滿信心。此實驗的一部分建立在我們最近添加到 iOS 應用程式「添加圖像」建議編輯的基礎上。

User stories

  • As a Spanish Wikipedia editor in LATAM using the Add an Image feature for the first time on the Wikipedia iOS app, I would like to build confidence to add alt-text while on the bus, so that I can add alt-text to future image related tasks without concern of making the state of alt-text worse on Wikipedia for low vision users.
  • As a Portuguese Wikipedia editor in Brazil, I would like to become aware of opportunities to add alt-text to images in articles I care about, so that I can ensure all editors are able to gain the full context of those articles
  • As a user navigating articles with a screen reader, I want quality alt-text to be available , so that I have the same additional context about an article as users that are not using screen readers
  • As a user with limited data, I want to read alt-text, so even if images are not loaded, I am aware of what is in the image

目的

如果我們在 iOS 應用程式的生產版本中使用替代文本建議編輯原型進行 A/B/C 測試,我們可以了解向圖像添加替代文本是否是新成員成功完成的任務,並最終決定這是否有影響力足以作為建議的編輯在網路和/或應用程式中實施。

這項工作是維基媒體年度計劃2024-2025維基體驗 1 的一部分,重點在於貢獻者體驗。

實驗不會提供需要替代文本的圖像。相反,我們會提示使用者在進行相關編輯後為圖像添加替代文本:使用「圖像推薦」添加相關的圖像,或在編輯文章後添加圖像。如果用戶接受提示,他們將透過專用流程向圖像添加替代文本,並附有指導和範例。

透過這個實驗,我們有機會

  • 了解新成員和經驗豐富的編輯是否可以在指導下透過結構化任務成功添加替代文本
  • 嘗試在兩個不同的時刻向使用者建議其他編輯:
    • 使用者完成建議的編輯後
    • 使用者完成文章編輯後
  • 增加目標維基百科上包含有用替代文本的圖像數量

實驗設計

研究問題

  • 提醒用戶添加替代文本是否證明是增加帶有替代文本的圖像數量,以及包含替代文本的「添加圖像」編輯數量的有效方法?
  • 為文章中的圖像添加替代文本是否應該被設定為獨立的建議編輯? (如果是這樣,這對新成員來說是否合適?)
  • 使用者是否會喜歡提示他們可以對正在編輯的文章進行其他改進?
  • 指導是否可以幫助新成員和經驗豐富的編輯完成任務?

實驗 B:在「添加圖像」流程後添加替代文本提示

目前,透過「圖像推薦」完成的編輯中只有大約 16% 添加了替代文本。我們想了解提醒用戶添加替代文本是否增加包含替代文本編輯次數的有效方法。編輯者只會看到一次提示。

  • 假設: 如果我們在用戶使用圖像推薦建議的編輯發佈圖像後提示用戶向其圖像添加缺失的替代文本,我們將看到 60% 的編輯者選擇另外發佈替代文本,10% 的用戶會在接下來的 15 天內為後續圖像推薦編輯添加替代文本。
  • 受眾: 已登入的編輯者,並已在「添加圖像」功能中完成編輯,其中「替代文本 = 沒有」,並且尚未被分類到實驗組 C
  • 實驗組 A = 50% 的「添加圖像」編輯者在忘記替代文本時會被分類到對照組。系統不會提示他們添加缺少的替代文本。
  • 實驗組 B = 50% 的「添加圖像」編輯者在忘記替代文本時會被分類到實驗組。系統會提示他們一次添加缺少的替代文本。
  • 當使用者完成「添加圖像」建議編輯(其中「替代文本 = 沒有」)時,會被指派到 A/B 群組。

實驗 C:標準編輯流程後添加替代文字提示

我們想了解用戶是否願意收到對他們正在編輯的文章進行其他改進的提示。這是一種及時建議的編輯。編輯者只會看到一次提示。

  • 假設: 如果我們在用戶對任何包含需要替代文本的圖像的文章發表編輯後提示他們添加缺失的替代文本,4% 的編輯者會繼續向圖像添加替代文本。
  • 受眾: 對圖片缺乏替代文字的文章進行任何類型的編輯,並且尚未被分類到實驗組 B 的已登入編輯者
  • 實驗組 D = 50% 的編輯者會被分類到對照組,他們在完成符合條件的編輯後看不到任何提示
  • 實驗組 C = 50% 的編輯者會被分類到實驗組,他們在完成符合條件的編輯後看到一個替代文本的提示。
  • 在使用者發佈符合提示條件的編輯後,應立即採樣到 D/C 群組中。
  • 後續提示的合格編輯:已登入使用者對主命名空間中的文章所做的任何編輯

功能要求

必備條件

  • 切入點將根據實驗組而有所不同(請見下文)
  • 如果使用者對「添加替代文本」提示回答「否」,請了解背後的原因
  • 編寫優秀替代文本的重要指導
  • 使用者能夠從文章中獲取有關圖像的前文後理
  • 使用者存取相關元數據的能力(可以將使用者帶到Web)
  • 檢測哪些圖像沒有替代文本
  • 能夠發佈替代文本
  • 僅當單獨提交時,替代文本編輯才應算作單獨編輯
  • 發佈替代文本並自動編輯摘要
  • 應提示使用者提供有關該功能的回饋
  • 允許我們評估提交的替代文本的工具
  • 圖像前文後理中替代文本的輸入字段,現有編輯器前文後理中替代文本的預覽
  • 當替代文本超過 125 個字元時發出警告
  • 輸入欄位不應允許使用者添加換行符

不是必備條件,但我們很高興能符合以下這些條件

  • 正向強化
  • 不允許使用者複製並貼上圖像標題
  • 建議替代文本(如:機器輔助文章描述)
  • 可以回放預覽中寫入的內容
  • 表面類別和描述


實驗 B 必備條件 實驗組 B (50% 的「圖像推薦」建議編輯使用者)。使用圖像推薦將圖像添加到文章後,他們將進入替代文本的專用流程。

切入點:圖片推薦編輯提交後;如果「替代文本 = 沒有」:

  1. 教育使用者替代文本的重要性,並詢問他們是否願意將替代文本添加到圖像中
  2. 如果使用者選擇「是」;為最近添加的圖像啟動替代文本添加流程

任務完成後:

  1. 顯示調查以詢問使用者是否認為這應該是一個單獨的任務
  2. 讓使用者回到下一張圖片推薦建議


實驗 C 必備條件 實驗組 C :50% 的編輯者在編輯帶有圖像的文章時受到鼓勵向圖像添加替代文本

切入點:

  • 編輯後,以下任一條件為真實
  1. 未對圖像進行任何編輯,但文章中有一張圖像沒有替代文本
  2. 對圖像進行編輯,但「替代文本 = 沒有」
  • 顯示提示文章中的圖片需要替代文本,並解釋添加替代文本的重要性,並詢問用戶是否願意添加替代文本
  • 如果使用者選擇「是」,則為文章中需要替代文字的一張圖像啟動替代文字添加流程

任務完成後

  1. 詢問滿意度
  2. 詢問這是否應該被標記為專門的任務
  3. 讓使用者回到他們正在閱讀的文章

實驗 C ——不是必備條件,但我們很高興能符合以下這些條件

  • 能夠顯示/審查文章中圖像上的替代文本
  • 如果有人放棄編輯,且編輯次數超過 50 次,啟動添加圖像的提示

目標的維基專案

雖然我們歡迎每個人的回饋,但我們特別有興趣聽取以下人士的意見:

  • 美洲(北美洲、南美洲和中美洲)和加勒比海地區西班牙語、法語和葡萄牙語的用戶
  • 北美地區華語的用戶

我們計劃與以下維基專案合作執行此實驗:

  • 西班牙语维基百科
  • 法语维基百科
  • 葡萄牙语维基百科
  • 中文维基百科

我們如何知道自己是否成功?

評估替代文本的品質:

在我們的初步研究中,我們了解到替代文本的添加並未受到正式巡查,因此我們可能無法僅依靠回應率來了解所添加的替代文本的品質。我們計劃與無障礙組織合作,評估透過此實驗產生的替代文本的品質。我們將要求他們對每個替代文字條目進行 1 到 5 的評分,其中 5 表示最高品質,1 表示最低品質。他們同時將提供預測的恢復分數,並回答以下問題:如果他們看到替代文字添加到圖像中,他們會將其從維基百科中刪除嗎?

15日之後需要測試的領先指標

  1. 與對照組相比,實驗組中新用戶未還原的編輯數量平均增加了 10%*
  2. 100 次帶有替代文本值的編輯,來自至少 25 位不同的編輯者。至少 25 次的編輯是來自新成員。
  3. 每個實驗組均分配超過 15 位獨特的編輯
  4. 實驗組 B 70% 的任務接受率,實驗組 C 至少10% 的接受率(進入流程的人數百分比/提示的印象數)
  5. 實驗組 A 和實驗組 B 新編輯的回覆率不超過18%
  1. More than 15 unique editors have been assigned to each experiment group
  1. 70% task acceptance rate for group B, at least 10% acceptance rate for group C (# of people who enter the flow / impressions of prompt)
  1. Revert rate for newer editors edits in any single group does not exceed 18%

關鍵指標

  1. 60% 的實驗組 B 編輯針對提示的圖像發佈了帶有替代文本的附加編輯
  2. 4% 的實驗組 C 使用者在編輯文章後出現提示時添加替代文本
  3. 在接下來的 15 天內進行後續圖片推薦編輯的實驗組 B 編輯中,25% 的用戶在編輯過程中添加了替代文本
  4. 至少 50 位獨特的編輯使用替代文本改進了 200 張圖像

後續步驟的決策條件

  1. If 71% of edits are scored a 3 or higher* we will scale the feature. If less than 70% of edits are scored a 3 or higher we will improve guidance or use AI to better assist users.
  2. If quality scores* for newer editors are more than 50% worse than quality scores for experienced editors, we will not recommend this task be available to newer editors.
  3. If we see at least 60% say they would use feature that provided a feed of images in need of alt text, then we will have the confidence to pursue a feed of alt-text suggested edits
  4. If 60% or more of respondents say they would be interested in similar edit notifications for articles they are working on, and 60% of respondents are satisfied with the feature (Group C survey responses), we share this information and consider future edit prompts.

護軌指標

  1. 收到替代文本提示的實驗組 B 或實驗組 C 編輯的編輯回報率與對照組相差不超過10%
  2. 實驗組編輯的恢復率不超過對照組 5%
  3. 實驗組中新成員的人工評分*或實際回覆率不超過 18%
  4. 新成員的替代文本任務完成率高於 25%(完成率 = 發佈的替代文本編輯數量 / 對提示說「是」並開始流程的用戶)

求知的問題

  1. 新成員替代文本編輯的任務完成率和回應率與經驗豐富的編輯相比如何?與成長建議編輯的可比較比率相同嗎?
  2. 與 Android 系統的圖像標題建議編輯相比,人工評分* 恢復率如何?
  3. 不同語言和地理位置的指標是否有差異?(如:將拉丁美洲與歐洲的西班牙語編輯進行細分)
  4. 使用者決定不按照提示採取行動的最常見原因是什麼?

* 注意:對於品質分數和人工評分的恢復分數,我們將與輔助功能組織合作,該組織將審查替代文本並對其進行評分。

Definition of newer editors: Editors who had fewer than 10 edits on that wiki they are currently editing at the point they entered the experiment

設計

實驗 B(圖像推薦流程)

實驗C(文章編輯流程)

如何跟隨

我們創建了 T357437,iOS系統上的替代文本建議編輯規模實驗,以作為我們在 Phabricator 上的長篇敍事。我們鼓勵您在那裡或在我們的討論頁面上合作。隨著實驗取得進展,此頁面同時會定期更新。

更新

2024 年 6 月

  • 我們以英語完成了流程 B 和 C 的可用性測試分析,並將根據這些結果和設計審查來更新設計。 T360567
    • 結果摘要:
      • 用戶清楚地了解替代文本提示的要求
        • 對於流程 B:5/5 的用戶了解到他們被要求將替代文本添加到上一張圖像中,因為圖像缺少文本
        • 對於流程 C:5/5 的用戶了解到他們正在為他們剛剛更正拼寫錯誤單字的文章中的圖像添加替代文本。
      • 入門指南、工具提示和指導對使用者來說清晰且有幫助,還有一些小的改進空間
        • 10/10 認為入門指南很明確
        • 9/10 認為工具提示清晰且有幫助
      • 用戶可以縮放,但不支援他們的第一選擇
        • 5/10 先點選影像,然後捏合併縮放
        • 5/10 會先捏合併縮放圖片,然後點選開啟
      • 大多數使用者可以找到他們需要的指導
        • 6/10 將開啟「替代文字編寫指南」鏈接
      • 用戶可以找到有關該圖像的其他信息
        • 6/10知道點擊圖片旁邊的info-i,1/10在提示後找到了。
        • 1/10 首先點擊圖像,然後找到 info-i 按鈕 - 大多數測試者認為提供的圖像資訊是完整的,而其他測試者則指出還有小的改進空間
        • 6/10 感覺訊息很完整,沒有遺漏任何重要的東西
      • 測試人員了解任務,並能夠在事後成功總結任務
      • 所有測試人員都確信他們可以將替代文本添加到新圖像中

2024年11月

  • The alternative text experiment ended on November 4. We are analyzing the results, and the edits are being graded and reviewed by accessibility experts. The edits were also shared with moderators who are active on the iOS app for additional review and feedback.
  • For the duration of the experiment, all editors could access the “Add an image” feature on Spanish, French, Portuguese, and Chinese Wikipedias. The edit requirement has now been restored. Only users with more than 50 edits can access image recommendations in these languages.
  • We have preliminary analysis to share (full results to be shared in December updates
    • Our assumption was correct that users prompted on an image they have just added would be more likely to complete the alternative text task (18% completion rate), compared with users who were prompted on an unrelated image within the same article (6% completion rate).
    • The revert rate for Alt text edits was 3.4%, lower than iOS app’s overall revert rate during the same period of 8.1%. However we know that alt text edits are often less patrolled, so we will be calculating another revert rate based on grading results.
    • The completion rate for newer editors was 28% overall. We saw a lower completion rate for group C (article editing) for newcomers, compared to group B (add an image). Our KR was to see a completion rate above 25%.
    • We were curious to see if opening up Image Recommendations to editors with under 50 edits would impact constructive activation. We were not able to confirm if this was the case. There was only a difference of -0.13 percentage points between pre and post experiment overall iOS app constructive activation rate, however we did see an overall increase in total constructive activated users.

2024年10月

  • The experiment continued to run on Spanish, French, Chinese, and Portuguese Wikipedias. After not seeing sufficient edits made at the 15 day point, we made adjustments to the experiment set-up to motivate more alt text edits including:
    • Showing the "Add an image" new feature announcement again for Alt text target audiences T375416
    • Updating the test logic so that all eligible users see the treatment T376229
    • Extending the Alt text experiment end date to 4 November (now 60 days in length instead of 30). T375452
  • We saw 16 successful alt-text edits from the first 30 days of the experiment, and we will do a full analysis after 60 days.

2024年9月

  • The alternative text experiment is now live in production! You can view the work that went into this release on this task: T357440
  • Our preliminary 15-day analysis shows that:
    • 150 app users have been assigned into the experiment.
    • For those shown the prompt to add alt text, 55.3% are accepting the task after having completed an Image recommendation, and 16.0% are accepting the task after making an article edit. The acceptance rate for image recommendations was lower than we expected, but for article editing it was higher than expected.
    • 7 successful alternative text edits have been published by 7 unique users, and 0% have been reverted so far.
  • We are planning to extend the length of the experiment to 60-days, and to display another announcement about “Add an image” to motivate more users to enter the experiment. The experiment is now scheduled to run until 5 November.
  • We will be partnering with the accessibility organization, Fundación Dalat, for evaluating the results of the experiment. Native speakers for Chinese, French, Spanish, and Portuguese who will grade the respective alternative text entered, and review the edits.

2024年8月 Special Update

  • The alt text experiment has been released to Beta Testers, on Spanish, Portuguese, French, and Chinese Wikipedias. Editors making edits on articles containing images without alt text, or adding images using “Add an Image” may see one prompt asking them to add alternative text to an image. The experiment will run until early November.
  • Check out a demo of the flow on Portuguese Wikipedia:
    Two A/B tests running in the iOS App that prompt users to add alternative text after a relevant edit
  • If you would like to download the beta version of the app to test, please follow these testing instructions.

2024年8月

  • We began work on the Alternative Text experiment. We added a new capability in the app: developer settings. This will allow us to move quickly and deploy things behind feature flags more in the future. Tasks completed included:
    • Add developer settings option in the app. T334848
    • Add feature flag and toggle into Developer settings for alt text experiment. T370221
    • Update ABTestsController, Assign groups for alt text experiment. T370228
    • Publish Wikitext for Alt Text experiment - Flow B. T370236
    • Trigger Alt-Text task from Image Recommendations (flow B) and create Modal. T370229
    • Bypass edit count logic in existing explore feed card logic for target wikis. T370224
    • Add ability to send analytics events to wmflabs. T371412
  • All tasks are visible in Sub epic: T357437

2024年7月

  • We held a Deep dive meeting with the team and stakeholders from the GLAM and Research teams to review the experiment plan, designs, and timeline. Most recent designs have been added above
  • We defined our comparison group for learning how newer editors performed on the task as: editors who had fewer than 10 edits on that wiki they are currently editing at the point they entered the experiment. We’ll use the term “newer editors” to refer to this group, as not to confuse them with brand new accounts.
  • The team began development on the Alt text experiment, you can follow our work on the Engineering Epic: T357440
  • We learned that in iOS, the baseline for image recommendation edits that contain alt text is 16%.
  • We reviewed a sample of the alt text that had been entered by users in Image Recommendations. We saw that 15% of edits evaluated repeated the exact same text in the image caption as in the alt text, and that only 14% of edits evaluated had alt text of reasonable quality. This stresses the importance of adding guidance for writing effective alt text in our flow, and for preventing users from copy / pasting between the fields.
  • We learned about a new form of AI that is creating alt text for images on the London Museum’s website. If results from this experiment show that users struggle with writing alt text, this could be an avenue to explore for adding AI assistance.

2024年6月

  • We completed analysis of usability testing for flows B and C in English, and will be updating the designs based on these results and design review. T360567
    • Summary of results:
      • There was clear understanding on what the alt text prompt was asking them to do
        • For flow B: 5/5 understood that they were being asked to add alt text to the previous image because it's missing
        • For flow C: 5/5 understood that they were adding alt text for an image from the article you just corrected the misspelled word in.
      • The onboarding, tooltips, and guidance were clear and helpful to users, with some room for small improvements
        • 10/10 thought the onboarding was clear
        • 9/10 thought the tooltips were clear and helpful
      • Users would be able to zoom, but their first choice was not supported
        • 5/10 tapped on the image first, then pinch and zoom
        • 5/10 would pinch and zoom first on thumbnail, then tap to open
      • Most users could find the guidance they needed
        • 6/10 would open the "Guidance for writing alt text" link
      • Users could find additional information about the image
        • 6/10 knew to click on the info-i next to the image, 1/10 found it after being prompted.
        • 1/10 tapped on the image first, then found the info-i button -Most testers thought the image information provided was complete, while others noted room for small improvements
        • 6/10 felt the information was complete and not missing anything important
      • Testers understood the task, and were able to successfully summarize it afterwards
      • All testers felt confident they could add alt text to a new image

2024年5月

  • 正在進行中文和英文用戶測試分析。測試是透過添加替代文本的兩個流程原型完成的:
    • 流程 B 提示使用者將替代文本添加至他們剛剛使用「添加圖片」添加完成的圖片中
      替代文本實驗流程 B 的原型
    • 流程 C 提示使用者將替代文本添加至他們剛剛修復拼字錯誤或進行編輯的文章中的圖像:
      替代文本實驗流程 C 的原型

2023年9月至2024年4月

有關替代文本建議編輯的早期更新,請參閱概述頁面的更新資訊

以下是截至 2024 年 4 月的實驗設計:

References