Growth/肯定的な動機づけ

This page is a translated version of the page Growth/Positive reinforcement and the translation is 59% complete.

このページでは Growth 機能セットに含まれる「肯定的な動機づけ」の作業を述べます。主な利点、設計、未解決の疑問、決定事項を載せます。

進行中の増分更新のほとんどは全般的なGrowthチームの更新ページに投稿されます。このページにはいくつかの大規模または詳細な更新を掲載します。

現状

  • 2021-03-01: 新しく作成したプロジェクトのページ
  • 2022-02-25: チームの協議を経てプロジェクトが発足
  • 2022-03-01: プロジェクトのページを拡充
  • 2022-05-11: コミュニティの議論
  • 2022-08-12: 利用者テスト実施済み
  • 2022-11-24: 現状の設計および実験案と計測計画を追加
  • 2022-12-01: 新機能の影響度モジュールを早期導入ウィキ群に展開
  • 2023-02-07: レベルアップと個人に向けた賞賛の作業開始、コミュニティとの第2回協議始まる
  • 2023-02-14: 初学者向けタスクのマイルストン分析を公表、レベルアップ 作業の指針になると期待
  • 2023-03-22: レベルアップ機能の A/B テスト用。Growth 早期導入ウィキにリリース
  • 2023-03-24: 感謝機能の使用状況の分析結果を公開
  • 2023-05-25: Growth 早期導入ウィキに個別の賞賛モジュールを展開
  • 2023-10-01: released new Impact module on all Wikipedias & published Leveling up experiment results
  • Next: 個人用に整えた表彰モジュールを全ウィキペディアに展開

概要

Growth チームでは、新規参加者にはウィキメディアの行動するコミュニティに参加する手助けとなる要素があると考え、それを使う「きっかけ」(access)となる「一連の新規参加者の経験」の設計に注目してきました。 一例として、新規参加者タスク参加のチャンスが手に入り、指導役のモジュール mentorship module では、指導役との出会いの機会が実現します。 また「お勧め編集」は初めての編集作業を完了する新規参加者の数を増やしてきました。 これらの成功によって、新規参加者にはもっと編集作業を続けてほしいと願って、力づけるような方策を実施したいと考えます。 ここから新規参加者が使いたいのに、まだ十分に開発できていない要素に注目しました。つまり、パフォーマンスの評価です。 当チームではこのプロジェクトを「肯定的な肯定的な動機づけ」“positive reinforcement” と名づけました。

新規参加者にはウィキペディアで投稿を続けること自体に進歩と価値がある点を理解してもらい、編集作業の第一歩を踏み出した利用者の定着率を向上させたいと考えています。

ここで私たちには大きな疑問があります。私たちのホームページを訪れて新規参加者がその機能をいくつか試してみたとして、もっと編集を続けたり前向きな勢いをつけるにはどのように励ますことができるでしょうか?

背景

新規参加者ホームページは2019年に導入されました。これには新規参加者が編集したページの閲覧数を一覧にする、基礎的な「影響モジュール」が含まれていました。これはGrowth 機能のうち、自分自身がどんな影響を与えたか新規参加者に感じさせる唯一のパーツであり、これを導入して以来、改善していませんでした。

 
英語版ウィキペディアにおける影響モジュールのスクリーンショット

ここをスタート地点と考え、肯定的な動機づけに関する重要な学びを以下のように集めてみました。

  • コミュニティの皆さんからモジュールに寄せられた感想は良好で、熟練の編集者からも興味を引かれるし価値を認めるとのご意見でした。
  • 他の利用者から感謝されると定着率が上がる傾向があり、例えば「感謝」ボタン(これこれ)やドイツ語版ウィキペディアが行った実証実験で見られました。当チームは実在する人々からこれらの心理的な強化(reinforcements)を受ける方がシステムの自動的な反応よりも効果が高いと考えています。
  • コミュニティの皆さんのご意見では、新規参加者が簡単なタスクから始めた後、もっと価値のあるタスクに移行することの優先順位は高く、いつまでも容易なタスクを続けない方が良いとのことです。
  • 他のプラットフォーム、例えば Google(グーグル)、Duolingo(デュオリンゴ)、Github(ギットハブ)などでは、バッジや中間ゴールなど、肯定的な動機づけのためにいくつもの仕組みを採用しています。
  • 不健全な編集に報償を与えるようではいけないとコミュニティでは心配しています。 編集コンテストで賞金がもらえるとき、あるいは「拡張承認された利用者」のような有用な役割が編集回数に依拠しているとき、多くの問題のある編集を行う動機となりうることをこれまで見てきました。

利用者の人物像

 
図=編集初学者の道のりに訪れる肯定的な動機づけ

初学者が進む道のりには、定着率の向上を試せそうな場面がたくさんあります。着目するなら1回前後で編集をやめてしまった初学者にするか、もっと先へ進んだ初学者で数週間後に編集をやめてしまった人を選ぶか。当プロジェクトでは1回目の編集一式を完了した人の中から、また戻ってきて2回目に進んでほしいと当方が期待する人に焦点を当てました。以下の図式では、矢印と黄色い星印で示してあります。

注目点はこの段階の初学者であり、そこは編集者定着率向上の取り組みにとって一つの通過点だと考えます。 また現状でここは離脱率がとても大きい場所でもあるので、この段階で新規参加者の活動を維持できれば、長い目で見て編集者の成長は有意義に増すと見込まれます。

調査と設計

これまでにさまざまな仕組みを用いてオンウィキとオフウィキの両面で利用者に投稿を促してきた わけですが、調査ではそれらを対象にしました。 そして以下のようないくつかの発見が鍵になりました。

  • ウィキペディアの編集者のやる気の元は多面的で、時間が経ち、経験が増えるにつれて変化します。 編集初学者はどちらかというと好奇心や社会的なつながりが起因になり、理想論は二の次です。
  • 内部プロジェクトでは本質的なインセンティブに焦点を当て、利他的な動機にアピールするものの、適用はシステム化されていません。
  • ウィキペディアの魅力を広げて観念的な動機を超えると、定着する編集者の多様性が増するかもしれません。
  • 先輩利用者やメンター(指導役)から肯定的なメッセージを受け取ると、短期的には活動を続ける効果が証明されています。

現状で集まった肯定的な動機づけに関する設計案の概要は、この設計のまとめ Design Brief をご参照ください。 コミュニティのフィードバックや、利用者テストを数回、重ねると、設計はますます進化すると見込まれます。

アイデア類

肯定的な動機づけには主に3つの発想があります。このプロジェクトの進行につれて、複数案を念頭に置くかもしれません。

影響

  • 影響力:統計や図表を盛り込んだり、その他の投稿データを示すようにして影響力モジュール全体を点検修理。 編集初学者は影響力モジュールの改訂版に自分自身の影響を知る文脈を増やしてもらうと、投稿を続けようという励みになります。 今後の探究の対象分野は以下の通り。
    • おすすめ編集のマイルストンは、利用者におすすめ編集をするようにちよっと働きかけます。
    • 一定時間に特定の編集者が実施した編集件数(X ツールの項目に類似)。
    • 「感謝の受信」回数は、コミュニティの承認を受ける可能性を注視します。
    • 最近の編集活動 - 編集初学者が連続して活動した日数("streaks")を示し、活動を続けよう、または投稿を再開しようと励まします。
    • 編集初学者が一定期間に編集した記事について、閲覧状況を見てください(ページ閲覧統計に類似。)

レベルを上げる

  • レベル・アップ:コミュニティにとって、編集初学者がだんだん価値の高いタスクへと進んでいくことに意味があります。 簡単なタスクを大量に済ませる人には、もう少し難しめのタスクへ進んではどうかと穏やかにお勧めしたいところです。 これはそのような人たちが完了した簡単なタスクが特定の件数に達した画面で対応するのか、それとも各人の利用者ホームページに告知するか検討中です。 今後の探究の対象分野は以下の通り。
    • 編集初学者が編集を保存すると、成功メッセージが表示されて作業を続けるように呼びかけ、難易度が同じタスクか、あるいは難易度を変えるか選べるようにします。
    • おすすめ編集モジュールでは、もう少し難しい編集に挑戦するチャンスを示し、技能を身につけた編集者になってもらう道をつけます。
    • 影響モジュールに、マイルストン計測器もしくは授賞エリアを組み込む。
    • 利用者ホームページに新しいモジュールを追加、賞を目指して挑戦する課題を示す(賞とはバッジや証明を検討。)
    • 通知を増やし、編集初学者にもう少し難しいタスクを試してみるように呼びかける。

個別の賞賛

  • それぞれの人に贈る称賛:調査結果の示すところでは、他の利用者から励ましや称賛を贈られた編集初学者は定着率が上がります。 経験を積んだ利用者の皆さんにお声がけして、編集初学者がよい投稿をした時には感謝を示したり言葉をかけたりしてはどうかとお勧めする方法も考えたいのです。 メンターの皆さんには各自のメンターダッシュボードもしくは通知機能を使い、この作業に取り組むよう お願いしたいところです。 これまでの調査研究で、肯定的な効果がある程度はあるとされた既存の意思疎通の仕組みを利用できます。 今後の探究の対象分野は以下の通り。
    • 新規参加者のメンターから、個人用ホームページに個別にメッセージが届く。
    • メンターまたはウィキメディア Growth チーム発の利用者ページへの通知。
    • 特定の編集に「感謝」する
    • バッジを新設、特定の編集を行うと、そのマイルストン到達に対してメンター(指導役)もしくはウィキメディア財団 Growth チームからデジタルのバッジを進呈。

コミュニティの議論

アラビア語版ウィキペディア、​ベンガル語版ウィキペディア、​チェコ語版ウィキペディア および フランス語版ウィキペディア コミュニティの皆さんと肯定的な動機づけプロジェクトをめぐり、このページならびにmediawiki.orgで話し合ってきました。

3つの主要な発想には直接、フィードバックを受け付け、新規参加者の定着率向上に関するたくさんのアイデアを加えました。

以下にフィードバックの概要をまとめてあり、それぞれにフィードバックに基づく繰り返し開発の方向性を示しました。

影響

小耳に挟んだところによると…… フィードバックを基にした繰り返し開発案
😊 よさそう! このアイデアは最も議論の余地がなく、最も支持されているようです。 開発対象はこれを最初にして、他の発想にもっと時間を使えるようにします。
😐 影響度モジュールをもっと改善するには、編集者の習熟の度合いに対応できることが必要かもしれません。 現状では新規参加者に注目しますが、今後は新しい影響度モジュールに改善の余地を盛り込んで設計する見込みです。

レベルを上げる

小耳に挟んだところによると…… フィードバックを基にした繰り返し開発案
😊 レベル上げは新規参加者が簡単なタスクに「囚われたまま」になるのを防ぎます。 同じ種類の編集で巻き戻しのない投稿を一定数まで積み上げると、利用者にもう少し難易度のレベルを上げませんかとお薦めするべきです。
😊 新規参加者には(訳注:賞などで)認められたいと願う人がかなりいます では賞や表彰を出すなら新規参加者にとって意味のあるもの、理想としてはオンウィキ(当人の利用者ページ)もしくはオフウィキで共有できるものがふさわしいでしょう。
❌ 目的達成が条件の動機づけでは功を焦って質の低い編集を量産するという問題を招きがちです。 動機づけ(インセンティブ)として経過時間を計数するタイプ(サービス賞に類似)だと、単に回数ではなく参加日数も考慮に入れる点が適切かもしれません。

編集しても差し戻されることが続くようなら、特定の「品質のチェックポイント」を使って新規参加者にスピードダウンしてもらい説明ができるはず 現状では、「レベル上げ」に関して賞や表彰という考え方はしばらく棚上げにして、容易なタスクで成功率を増やした利用者に、難易度を上げてみないかと励ますことに注力していきます。

❌ 日課としてゴールを設けるのでは、ストレスになってしまう人がいて、やる気を失う危険がありそうです。 この発想は今後も見直しを重ね、もし適切と判断したら個人ごとにゴールを設定する方向性を試します。

個別の賞賛

小耳に挟んだところによると…… フィードバックを基にした繰り返し開発案
😊 賞賛の言葉があちこちに広まって前向きな受容を感じると、新規参加者の定着率が上がるかもしれません。 新規参加者の貢献に感謝ボタンを押したり個人的に送る賞賛の言葉の呼びかけに関しては、まだ設計に改善の余地があるものの、あまり時間を置かずに設計案を提示できるよう努めています。
😐 個人からの賞賛を計測するのは難しいと考えられる理由は、経験を積んだ利用者にとって時間を食うことからです。 メンターは普通でも忙しいため、私たちの方で「勝算に値する」新規参加者をどのように表面化すればよいか、方法を探しています。 メンターにばかり負担を寄せる方法ばかりでなく、他の方法もブレインストームをしていきます。
😐 既存のシステムの応用を検討するべきです(感謝ボタン、WikiLoveボタンなど。) 計画としては未完成でも、既存のシステムを応用する線で立案する方向性に変わりはありません。

その他の発想:

参加者の新規登録や定着について、コミュニティの参加者からその他の発想がいくつか寄せられました。 どれも価値のある発想であり(すでに当チームで進行中もしくは将来の採用検討中の案を含む)、それでも以下の発案はプロジェクトの現状の視点には適合しないようです。

  • 新規参加者に勧誘と歓迎メッセージをメールで送信(現状で当 Growth チームはマーケティング部門と募金活動部門と連携して参加のお願いメールの可能性を探索中です。)
  • 新規参加者の興味に合わせて、ウィキプロジェクトを紹介。
  • 新規参加者向けホームページには、カスタマイズ可能なウィジェットが設定してあり、それぞれのウィキはこれを利用すると、新規参加者対象のタスクやイベントの呼びかけができます。
  • 新規参加者が特定のマイルストンに到達するたび、その人を歓迎した利用者に向けて通知を送る(それをきっかけに、感謝ボタンやWikiloveボタンをもう一度、押してもらう)

第2回コミュニティの聞き取り調査

2023年2月にコミュニティ聞き取り調査が完了、Growth 早期導入ウィキで試した直近のレベルアップ用設計を評価してもらいました。 今回の聞き取り調査は英語を使ってメディアウィキで実施し、同じくウィキペディアはアラビア語版、ベンガル語版、チェコ語版、スペイン語版でも実施しました。 (T328356) 全般にフィードバックはとても肯定的でした。 These two tasks help address feedback mentioned by those that responded to our questions:

  • レベルアップ:コミュニティ単位の設定 (T328386)
  • レベルアップ: 「新しいタスクに挑戦」ダイアログの2番目の設計作業 (T330543)

In March 2023, we completed a community consultation in which we reviewed the most recent Personalized praise designs with the Growth Pilot wikis. This consultation was completed on English Wikipedia, Arabic Wikipedia, Bengali Wikipedia, Czech Wikipedia, French Wikipedia, Spanish Wikipedia, and at MediaWiki in English. (T328356) Most feedback was supportive of Personalized praise features, but several further improvements were requested. We've created Phabricator tasks to address these further improvements.

  • アラビア語ウィキペディアと、フラッグ付き改版のあるウィキでは、特定の編集者が完了した編集の回数に加えて、編集の評価状況の詳細が参考になる (T333035)
  • メンターは指導相手の編集のうち差し戻しの回数または割合の参照、編集初学者の差し戻し回数をカスタム化して上達を認める閾値としたい (T333036)
  • 指導相手のどの編集が感謝を贈られたかメンターの参考になる (T51087)

ユーザー テスト

コミュニティの合意形成と並行して、仮説として評価し初期の設計案に盛り込めないか、読者と編集者を対象に複数の国でテストを実施できないか検討しました。 設計調査担当では、この肯定的な動機づけプロジェクトが新人編集者の投稿にどう影響するか把握するため、複数言語で利用者テストを実施しました。

肯定的な動機づけの設計案を統計的にテストし、対象はウィキペディアの読者と編集者、言語はアラビア語版、スペイン語版、英語版としました。 Along with testing Positive Reinforcement designs we introduced data visualizations from xtools as a way to better understand how these data visualizations are perceived by newcomers.

 
肯定的動議づけの利用者テストの概要

ユーザーテストの結果

  • Make impact data actionable: Impact data was a compelling feature for participants with more experience editing, which several related to their interest in data—an unsurprising quality for a Wikipedian. For those new to editing, impact data, beyond views and basic editing activity, may be more compelling if linked to goal-setting and optimizing impact.
  • Evaluate the ideal editing interval: Across features, daily intervals seemed likely to be overly ambitious for new and casual editors. Participants also reflected on ignoring similar mechanisms on other platforms when they were unrealistic. Consider consulting usage analytics to identify “natural” intervals for new and casual editors to make goals more attainable.
  • Ensure credibility of assessments: Novice editor participants were interested in the assurance of their skills and progress the quality score, article assessment, and badges offer. Some hoped that badges could lend credibility to their work reviewed by more experienced editors. With that potential, it could be valuable to evaluate that the assessments are meaningful measures of skill and further explore how best to leverage them to garner community trust of newcomers.
  • Reward quality and collaboration over quantity: Both editor and reader participants from esWiki were more interested in recognition of their knowledge or expertise (quality) than the number of edits they have made (quantity). Similarly, some Arabic and English editors are motivated by their professional interests and skill development to edit. Orienting goals and rewards to other indicators of skilled edits, such as adding references or topical contributions, and collaboration or community involvement may also help mitigate concerns about competition overtaking collaboration.
  • Prioritize human recognition: While scores and badges via Growth tasks is potentially valued, recognition from other editors appears to be more motivational. Features which promote giving, receiving, and revisiting thanks seemed most compelling, and editors may benefit from selecting impact data which demonstrates engagement with readers or editors most compelling to them.
  • Experiment with playfulness of designs: While some positive reinforcement features can be seen as the product of “gamification”, some participants (primarily from EsWiki) felt that simple, fun designs were overly childish or playful for the seriousness of Wikipedia. Consider experimenting with visual designs that vary in levels of playfulness to evaluate broader reactions to “fun” on Wikipedia.

設計

 
影響モジュールの設計

以下に、「肯定的な動機づけ」に関する現行の設計をご紹介します。上記の主要な発想3件を改良したものの、試案の視点と実際の設計はコミュニティの皆さんが議論したフィードバックとユーザテストを基準にしました。

影響

影響評価のモジュールを改訂、編集初学者が自分の与えた影響をより文脈から知ることができるようにします。旧来と比較すると、新しい設計は個人化された情報を増やしデータを視覚化しました。(訳注:今回の版は)コミュニティとの協議によりこれまでに共有した設計と類似しています。ベータウィキで技術面の進捗状況をご確認いただけますし、Growth の早期導入ウィキ群には早晩、展開できる見通しです。

レベルを上げる

レベルアップ機能の焦点は初学者を励まして、もっと有意義なタスクに進んでもらう点にあります。おすすめ編集に取り組むように初学者を励ます発案もあり、構成化タスクは初学者の活動率と定着率の向上を示しているからです。

  • 後編集のダイアログのメッセージを「レベルアップ」:初学者の皆さんが以前と異なるタイプの作業をはじめる契機として、後編集のダイアログにメッセージを追加しました。これを受けた利用者の中から別の編集技能も習得する人が増え、タスクの幅を広げて難易度を上げてもらいたいと期待しています。
  • おすすめ編集以外の後編集のダイアログ:初学者で「通常の」編集を完了した人に、おすすめ編集をご紹介。実験案では初学者が通算3回目と7回目の編集を保存したとき、通知を表示します。デスクトップ版利用者なら、おすすめ編集を試して画面を遷移すると、各人の影響度モジュールが表示される仕様で、これにより初学者の皆さんに参加を続けてもらうこと、自動化とは言え肯定的な動機付けを多少なりとも提供できることを期待しています。この実験は慎重に評価して、意図せずになにがしかの否定的な効果を及ぼさないようにします。
  • 新しい通知:かつて「エコー echo」と呼んだ通知で、新規参加者にお薦め編集を始めたり続けるよう伝えていました。このプロキシは通知を受けた人、つまりメールアドレスを登録していて通知受信を設定した人が、その後、メールが「必ず返ってくる」と確認するチャンスにもなります。

個別の賞賛

この機能は調査結果に基づいており、他の利用者から激励されたり感謝された編集者は、引き続き活動を続けることがわかりました。

  • メンターから激励を受ける:新規のモジュールをメンター用ダッシュボードに追加、新規参加者が一定のカテゴリに該当した場合、メンターの人に個人的な賞賛を贈ってくれるように呼びかけます。

新規参加者が「賞賛に値する」かどうか表面化する条件は、メンターの皆さんに決めて管理してもらうつもりです。

計測と成果

仮説

The Positive Reinforcement features aim to provide or improve the tools available to newcomers and mentors in three specific areas that will be described in more detail below. Our hypothesis is that once a newcomer has made a contribution (say by making a structured task edit), these features will help create a positive feedback cycle that increases newcomer motivation.

Below are the specific hypotheses that we seek to validate across the newcomer population. We will also have hypotheses for each of the three sets of features that the team plans to develop. These hypotheses drive the specifics for what data we will collect and how we will analyse that data.

  1. The Positive Reinforcement features increase our core metrics of retention and productivity.
  2. Since the Positive Reinforcement features do not feature a call to action that asks newcomers to make edits, we will see no difference in our activation core metric.
  3. Newcomers who get the Positive Reinforcement features are able to determine that making un-reverted edits is desirable, and we will see a decrease in the proportion of reverted edits.
  4. The positive feedback cycle created by the Positive Reinforcement features will lead to a significantly higher proportion of "highly active" newcomers.
  5. The Positive Reinforcement features increase the number of Daily Active Users of Suggested edits.
  6. The average number of edit sessions during the newcomer period (first 15 days) increases.
  7. "Personalized praise" will increase mentor’s proactive communication with their mentees, which will lead to increase in retention and productivity.

実験のプラン

Similarly as we have done for previous Growth team projects, we want to test our hypotheses through controlled experiments (also called "A/B tests"). This will allow us to establish a causal relationship (e.g. "The Leveling Up features cause an increase in retention of xx%"), and it will allow us to detect smaller effects than if we were to give it to everyone and analyze the effects pre/post deployment.

In this controlled experiment, a randomly selected half of users will get access to Positive Reinforcement features (the "treatment" group), and the other randomly selected half will instead get the current (September 2022) Growth feature experience (the "control" group). In previous experiments, the control group has not gotten access to the Growth features. The team has decided to move away from that (T320876), which means that the current set of features is the new baseline for a control group.

The Personalized Praise feature is focused on mentors. There is a limited number of mentors on every wiki, whereas when it comes to newcomers the number increases steadily every day as new users register on the wikis. While we could run experiments with the mentors, we are likely to run into two key challenges. First, the limited number of mentors could mean that the experiments would need to run for a long time. Second, and more importantly, mentors are well integrated into the community and communicate with each other, meaning they are likely to figure out if some have access to features that others do not. We will therefore give the Personalized Praise features to all mentors and examine activity and effects on newcomers pre/post deployment in order to understand the feature’s effectiveness.

In summary, this means we are looking to run two consecutive experiments with the Impact and Leveling up features, followed by a deployment of the Personalized Praise features to all mentors. These experiments will first run on the pilot wikis. We can extend this to additional wikis if we find a need to do that, but it would only happen after we have analyzed the leading indicators and found no concerns.

Each experiment will run for approximately one month, and for each experiment we will have an accompanying set of leading indicators that we will analyze two weeks after deployment. The list below shows what the planned experiments will be:

  1. Impact: treatment group gets the updated Impact module.
  2. Leveling up: treatment group gets both the updated Impact module and the Leveling up features.
  3. Personalized praise: all mentors get the Personalized praise features.

先行指標と対策案

While we believe that the features we develop are not detrimental to the wiki communities, we want to make sure we are careful when experimenting with them. It is good practice to define a set of leading indicators together with plans of what action to take based if a leading indicator suggests something isn't going the way it should. We have done this for all our past experiments and do so again for the experiments we plan to run as part of this project.

影響

Impact of the Impact module - results published on Jan 24, 2023.
指標 Expected result Plan of action 結果
Impact module interactions No difference or increase If Impact module interactions decrease, then this suggests that we might have performance or compatibility issues with the new Impact module. If the proportion of newcomers who interact with the new Impact module is significantly lower than the old module we investigate the cause, reverting back to the old module if necessary. Significant decrease
Mentor module interactions 差異なし The new Impact module takes up more screen real estate than the old module, which might lead to newcomers not finding the Mentor module as easily as before. If the number of newcomers who interact with the Mentor module is significantly lower for those who get the new Impact module, we investigate the need for design changes. No signifiant difference
Mentor module questions 差異なし Similar concerns as for interactions with the Mentor module, if the number of questions asked to mentors is significantly lower for newcomers who get the new Impact module, we investigate the need for design changes. No signifiant difference
Edits and revert rate No difference in both edits and reverts, or an increase in edits and a decrease in revert rate If there is an increase in the revert rate, this may suggest that newcomers are making unconstructive edits in order to inflate their edit or streak count. If the revert rate of newcomers who get the new Impact module is significantly higher than the old, we investigate their edits and decide whether changes are needed. No signifiant difference (once outliers are removed)

Impact module interactions: We find that the proportion of newcomers who interact with the old module (6.1%) is significantly higher than for the new module (5.0%):   This difference showed up early on in the experiment, and we have examined the data more closely understand what is happening. One issue we identified early on was that not all interaction events were instrumented, which we subsequently resolved. Examining further, we find that many of those who get the old module click on links to the articles or the pageviews. In the new module, a graph of the pageviews is available, thus removing some of the need for visiting the pageview tool. As a result, we decided that no changes were needed.

Mentor module interactions: We find no significant difference in the proportion of newcomers who interact with the Mentor module. The proportion for newcomers who get the old module is 2.4%, for those who get the new module it's 2.2%. A Chi-square test finds this difference not significant:  

Mentor module questions: We do not see a substantial difference in the number of questions asked between the old module (269 edits) and the new module (281 edits). The proportion of newcomers who asks their mentor a question is also the same for both groups, at 1.5%.

Edits and revert rate: We do not see a substantial difference in the number of edits nor in the revert rate between the two groups measured on a per-user average basis. There are differences between the groups, but these are driven by some highly prolific editors, particularly on the mobile platform.

レベルを上げる

Leading indicators for the Levelling up experiment
指標 Expected result Plan of action 結果
Levelling up post-edit dialog: interactions No difference or increase The percentage of users who click / tap on a Levelling up post-edit dialog should be similar or higher than the percentage of users who click / tap on the standard post-edit dialog. If there is a decrease, then we need to investigate what causes this difference. Higher on mobile, no difference on desktop
Levelling up post-edit dialog: "Try a suggested edit" click through >10% click through to suggested edits If the "try a suggested edit" dialog isn't resulting in more newcomers exploring suggested edits, then this notice is just extra noise for newcomers and we should investigate or consider removing the feature. Significantly higher than 10%
Levelling up post-edit dialog: "Increase your skill level" click through >10% click through to Try new task If the "increase your skill level" isn't resulting in more newcomers trying more difficult tasks, then this notice is just extra noise for newcomers and we should investigate or consider removing the feature. Significantly higher than 10%
Levelling up notifications: "get started" click through >5% of users who view this notification click on it We don't have a great baseline to compare this to, but if this number is too low we should investigate if there are technical issues or an issue with the language used. More than 5% on desktop, less than 5% on mobile
Levelling up notifications: "keep going" click through >5% of users who view this notification click on it We don't have a great baseline to compare this to, but if this number is too low we should investigate if there are technical issues or an issue with the language used. More than 5% on desktop, less than 5% on mobile
Activation No difference or increase If we see a significant decrease in the treatment group, similar to what we discovered for the New Impact Module experiment, then we examine monitoring and event data to try to identify a cause of this difference. Decrease

Levelling up post-edit dialog interactions: We find a higher proportion of newcomers interacting with the post-edit dialog in the Levelling Up group (90.8%) compared to the standard post-edit dialog (86.5%). This is largely driven by mobile where the Levelling Up interaction proportion (88.0%) is a lot higher than the other group (81.6%). The proportion is still higher for the Levelling Up group on desktop (93.6%) compared to the control (92.2%), but we regard it as "virtually identical" because the high proportion in the control group means there is little room for an increase.

Try a suggested edit click through rates: 21.9% of newcomers who see the "Try a suggested edit" post-edit dialogue chooses to click through, which is significantly higher than the threshold set. The proportion is higher on desktop (24.0%) than on mobile (19.7%), but in neither case is there a reason for concern.

Increase your skill level click through rates: We find that 73.1% of newcomers who see the "increase your skill level" dialog click through to see the new task, which is a lot higher than our expected threshold of less than 10%. Proportions are high on both desktop (71.1%) and mobile (77.3%).

Get started click through rates: 3.8% of newcomers who get the "Get started" notification clicks through to the Homepage. Users who registered on desktop are more likely to click the notification (5.5%) than those on mobile (2.5%). Because the threshold of 5% is met, we are investigating further to understand this difference between desktop and mobile behaviour, particularly to understand if our 5% threshold is reasonable.

Keep going click through rates: We find that 9.6% of users who get the "Keep going" notification clicks through to the Homepage. Similarly as we do for the "Get started" notifications, we find a much higher proportion on desktop (16.2%) compared to mobile (4.7%). Our investigations into differences in notification behaviour by platform will hopefully give us more insight into this difference.

Activation: We find a decrease in constructive article activation (making a non-reverted article edit within 24 hours of registration) of 27.0% compared to 27.7%. As soon as we noticed this we opened T334411 to investigate the issue, with a focus on patterns in geography (countries and wikis) and technology (devices and browsers). We did not find clear patterns explaining the issue. The investigation of this decrease in activation will be investigated further: T337320.

個別の賞賛

先行指標と個別の賞賛実験
指標 結果の予測 対策案 結果
個別の賞賛通知と、クリックして対応した結果 個別の賞賛通知を読んだメンターのうち 10% 超はクリックして遷移 他の通知に反応したクリック処理と対照して、この数値がもし非常に低かった場合には、何か技術的な問題がなかったか、あるいは説明が通じなかったか分析の必要があります。 73% of Mentors who received a notification clicked on it
メンター用ダッシュボードにある個別の賞賛モジュールと、クリックして遷移した結果 各人のメンター用ダッシュボードに個別の賞賛候補が表示されると、10% 超のメンターはクリック重ねていき、実際に賞賛を送信しています この閾値に達した段階で、何か技術的な問題はないか、あるいは行動の呼びかけに対してメンターの皆さんが応じた点に課題はないか分析をする必要があります。 27.5% of Mentors who view a Personalized praise list click through

データ抽出(2023-06-13)はこの機能を早期導入したウィキ4件を対象としました(パイロットウィキとはウィキペディアのアラビア語版とベンガル語版、チェコ語版、スペイン語版。)

Personalized praise notification click through: サンプル数としてまだ小さいものの、分析結果は健全に見え、またメンターの皆さんに通知が届くこと、クリックを重ねて賞賛に値する相手がいるかどうか閲覧していることがわかります。

Personalized praise mentor dashboard module click through: クリックを重ねて、特定の指導相手のトークページまで遷移するメンターは 27.5% と限定的ですが、指導を受ける側であっても褒めてもらう気のない人もいる点は想定に入れるべきです。 メンターの皆さんからの回答ならびにこのデータに基づき、当 Growth チームでは以下のタスクを実行し機能改善に取り組む予定です。

  • 個別の賞賛モジュールに差し戻しスコアカードを追加(メンター用ダッシュボード) (T337510)
  • 個別の賞賛推薦から、ブロックされたアカウントを除去 (T338525)

Experiment Results

Many of the experiments that the Growth team runs will focus on the same set of key metrics (commonly referred to as KPIs), and this includes all of the Positive Reinforcement experiments. The key metrics are defined as follows:

  • Constructive activation is defined as a newcomer making their first edit within 24 hours of registration, and that edit not being reverted within 48 hours.
    • Activation is similarly defined as constructive activation, but without the non-revert requirement.
  • Constructive retention is defined as a newcomer coming back on a different day in the two weeks after constructive activation and making another edit, with said edit also not being reverted within 48 hours.
    • Retention is similarly defined as constructive retention, but without the non-revert requirements.
  • Constructive edit volume is the overall count of edits made in a user's first two weeks, with edits that were reverted within 48 hours removed.
  • Revert rate is the proportion of edits that were reverted within 48 hours out of all edits made. This is by definition 0% for users who made no edits, and we generally exclude these users from the analysis.
Impact module experiment results
 
The New Impact module reduced activation for mobile web newcomers

We initially found a significant decrease in constructive activation for newcomers who registered on mobile web and got the New Impact module. There was no difference in activation for newcomers who registered on desktop. This was quite surprising as the empty state for the old Impact module was nearly identical to the empty state of the new Impact module.

First-day activity correlates strongly with later activity, and as a result we also found a significant decrease in edit volume for mobile web users. Again, there was no difference for desktop users.

We found no difference in retention rates and revert rates. While there are features in the New Impact module that focuses on staying active and making good contributions, such as the number of thanks received and the streak counter, we often do not see significant impacts on metrics unless there's a clear call to action or we are able to isolate a specific subgroup motivated by the feature.

 
Activation is identical between the experiment and control group

As soon as we learned about the decrease in activation we started investigations into probable causes of this in T330614. Unfortunately we could not identify a specific reason and we also found that the issue was not replicated in another dataset. We decided to add activation as a leading indicator to the Levelling Up experiment so that we could take action more quickly. When we noticed that the issue persisted, we started a new investigation in T334411 and created an "epic" task that connects all relevant subtasks: T342150. We restarted experiment data collection after making several small changes, and we now see that activation is identical between the experiment and control group, which is what we would expect.

Although we are pleased that we have received positive feedback from new editors regarding the new Impact module, we have found that the Impact module alone hasn't resulted in significant changes in newcomer retention, edit volume, or revert rates. Our next experiment will combine the new Impact module with the Leveling up features. We hope that this combination of Positive Reinforcement features will lead to substantial improvements in activation, retention, and edit volume. We will soon publish a detailed report that highlights the outcomes of this experiment.

Levelling up experiment results

For this experiment, we completed both an analysis of the overall effects across the whole newcomer population, and individually for each of the four components of the Levelling up features. These consist of the two notifications sent to newcomers 48 hours after registration, and two post-edit dialogues. The notifications are based on the number of suggested edits a newcomer might have done. If the newcomer has not made any suggested edits they get the "Get started" notification, and if they have made one to four suggested edits they get the "Keep going" notification. Newcomers who have made five or more suggested edits do not get any notifications.

The post-edit dialogues are shown after completed edits to articles based on certain criteria. If a newcomer has made three or eight article edits and not yet made any suggested edits, they get the "Try suggested edits" dialogue asking them if they want to try that feature. If a newcomer has completed five suggested edits of a specific task type, they get the "Try new task" dialogue suggesting a different type of task.

 
The Get Started notification increased editing within one week after receiving it.

Our overall analysis did not find any significant effects on the team's key metrics (described above), and so we focus instead on the individual components. For the "Get started" notification, we find that this is sent to the vast majority of newcomers as making suggested edits is fairly uncommon. In our dataset, more than 97% of newcomers got this notification. We find that the notification leads to a significant increase in newcomer activity in the week following the notifications being sent. Newcomers are more likely to return and make an edit, which also increases the average number of edits made during that week. We also find that this effect is lower for those who registered on mobile web, and reduced or negative for highly active newcomers. Based on this, we decided to introduce a threshold so that those who make ten or more edits will not receive the notification (that work was tracked in T342819).

 
The Keep Going notification increased editing within one week for desktop users.

When it comes to the "Keep going" notification, we again find a significant increase in newcomer activity in the week following notifications being sent for those who registered on the desktop platform. For users who registered on mobile web, we find that it does not increase their probability of returning to edit but does increase the average number of edits made.

For the "Try suggested edits" dialogue, our analysis finds that while it has a reasonably high click-through rate it does not lead to newcomers successfully completing suggested edits. In our leading indicators report above, the click-through rate was 21.9%, and in a dataset from late July 2023 we found the rate to be higher at 25.3%. Using event data, we find that few newcomers find a task they are interested in, and subsequently only a fraction of newcomers go through and complete an edit. We plan to make a few improvements to this "Try suggested edits" dialog to see if we can increase the percentage of editors who click through and go on to complete an edit (this work is tracked in T348205).

For the "Try new task" dialogue, which is shown to users who complete five suggested edits of a given task type, we find both high click-through rates and a reasonably high rate of completed edits. We reported a click-through rate of 73.1% in our leading indicators, and in our more recent dataset from late July 2023 the rate is 81.9%. Our analysis of subsequent edits shows that 33.3% of desktop users and 20.0% of mobile web users go through and complete a suggested edit of the new task type. One thing to keep in mind is that this dialogue is not shown to a large number of newcomers, and we therefore cannot draw conclusions about whether there are meaningful differences between platforms. What we can conclude, is that this dialogue is successful in introducing new task types. In order to show the dialogue to a larger number of newcomers, we decided to reduce the number of edits needed to see it from five to three (this work was tracked in T348814).

Personalized praise experiment results

For this experiment, we focused on the effect of praise on newcomer retention and productivity. Since praise is a response to editing activity, it means there will be some time period between registration and receiving a praise message. We therefore started with an analysis of the time between registration and a mentor clicking the "Send praise" button. In that analysis, we found that most newcomers get it within 30 days of registration. This led us to redefine the time period for retention and productivity to also use this 30-day period (instead of our default of 14 days).

The Personalized praise feature was deployed to the Arabic, Bangla, Czech, and Spanish Wikipedias in late May 2023. We analyzed the Spanish Wikipedia separately from the other three because on the Spanish Wikipedia 50% of newcomers are randomly assigned a mentor, which means the feature is part of a controlled experiment. All newcomers are assigned a mentor on the other three Wikipedias.

Using a Difference-in-Differences analysis approach, we compared a three-month period prior to deployment (January through March) with a similar period after deployment (June through August), and compared data from 2023 with data from 2022 and 2018. We use two comparison time periods as a robustness check since 2022 was affected by the COVID pandemic.

For the Arabic, Bangla, and Czech Wikipedia, we found no significant impact of Personalized praise on neither retention nor productivity. Digging further into this we found that usage of the feature was limited (we're not releasing specific counts in accordance with our data publication guidelines). In discussions with wiki ambassadors we learned that sending praise is a time-consuming process as the mentors need to check a mentee's edits, thus explaining why the feature isn't more widely used.

 
Personalized praise increased number of non-reverted edits made within 30 days of registration on Spanish Wikipedia.

When it comes to the Spanish Wikipedia, we found the feature has been more widely used. While we again found no significant impact on retention, we found a significant positive impact on newcomer productivity. This finding is encouraging since our preliminary analysis of mentorship found conflicting results of none or a negative impact.

As these results were not positive enough to justify the time investment from Mentors, we have decided to start conversations with our ambassadors and communities and consider further improvements before releasing the feature more widely. We will consider improvements related to reducing the amount of work needed by Mentors, potential design improvements, and improvements to how newcomers are selected to be displayed in the Personalized praise module.