ساعن

This page is a translated version of the page ORES and the translation is 48% complete.

Outdated translations are marked like this.

هشدار:

The ORES infrastructure is being deprecated by the Machine Learning team, please check wikitech:ORES for more info.

ساعن یا ORES (/ɔɹz/)^[1] یک سرویس و واسط برنامه‌نویسی کاربردی است که یادگیری ماشینی را در قالب سرویس برای پروژه‌های ویکی‌مدیا فراهم می‌کند و نگهداری از آن بر عهدهٔ تیم یادگیری ماشینی است. این سامانه به‌منظور کمک به خودکارسازی کارهای ویکیایی طراحی شده است – برای مثال، شناسایی و حذف خرابکاری‌ها. در حال حاضر دو نوع امتیاز عمومی که توسط ساعت تولید می‌شوند در زمینهٔ «کیفیت ویرایش» و «کیفیت مقاله» هستند.

ساعن یک سرویس پسانه است و راهی مستقیم برای استفاده از امتیازها را ارائه نمی‌دهد. اگر تمایل به استفاده از امتیازهای ساعت دارید، فهرست ابزارهایی که از امتیاز ساعن استفاده می‌کنند را ببینید. اگر ساعن هنوز از ویکی شما پشتیبانی نمی‌کند، راهنمای درخواست پشتیبانی ما را ببینید.

برای پرسش‌های خود دربارهٔ ساعن به‌دنبال پاسخ هستید؟ پرسش‌های رایج دربارهٔ ساعن را ببینید.

کیفیت ویرایش

روند کیفیت ویرایش ساعن. نموداری توصیفی از ویرایش‌های در جریان در «اینترنت» به سمت ویکی‌پدیا که نشان‌گر کیفیت «ناشناخته» ویرایش‌ها پیش از ساعن، و برچسب زدن به‌عنوان «خوب»، «نیازمند بازبینی» و «مخرب» که پس از در دسترس قرار گرفتن ساعن امکان‌پذیر است.

یکی از نگرانی‌های حیاتی دربارهٔ پروژه‌های باز ویکی‌مدیا، بازبینی مشارکت‌های («ویرایش‌های») بالقوه مخرب است. همچنین لازم است که مشارکت‌کنندگان دارای حسن نیت (که ممکن است ناخواسته مرتکب تخریب صفحه‌ها شوند) شناسایی شده و به آن‌ها پیشنهاد پشتیبانی داده شود. این مدل‌ها برای سهولت بیشتر پالایش ویرایش‌ها در صفحهٔ «ویژه:تغییرات اخیر» طراحی شده‌اند. ما برای مدل‌های پیش‌بینی کیفیت ویرایش دو سطح از پشتیبانی را ارائه می‌دهیم: ابتدایی و پیشرفته.

پشتیبانی ابتدایی

با این فرض که بیشتر ویرایش‌های مخرب برگردانده خواهند شد و ویرایش‌هایی که مخرب نیستند دارای برچسب reverted نخواهند بود، می‌توانیم با کمک تاریخچهٔ ویرایش‌ها (و ویرایش‌های برگردانده شده) از یک ویکی، کار خود را آغاز کنیم. راه‌اندازی این مدل ساده است، اما با این مشکل هم مواجه است که بسیاری از ویرایش‌ها به دلایل دیگری به‌جز تخریب و خرابکاری برگردانده می‌شوند. برای کمک به حل این مشکل، مدلی مبتنی بر واژه‌های نامناسب ایجاد می‌کنیم.

reverted – پیش‌بینی می‌کند که آیا ویرایش در نهایت برگردانده می‌شود یا خیر

پشتیبانی پیشرفته

به‌جای فرض کردن، می‌توانیم از ویرایشگران بخواهیم تا به ساعن آموزش دهند که کدام ویرایش‌ها به واقع (مخرب) damaging هستند و کدام ویرایش‌ها به‌نظر با حسن نیت (goodfaith) ذخیره شده‌اند. این کار نیازمند کار بیشتر از سوی داوطلبان حاضر در اجتماع است، اما با توجه به کیفیت یک ویرایش، پیش‌بینی دقیق‌تر و ظریف‌تری را ارائه خواهد داد. بسیاری از ابزارها تنها زمانی کار می‌کنند که پشتیبانی پیشرفته برای ویکی هدف در دسترس باشد.

damaging – پیش‌بینی می‌کند که آیا ویرایش موجب تخریب می‌شود یا خیر
goodfaith – پیش‌بینی می‌کند که آیا ویرایش با حسن نیت ذخیره شده است یا خیر

کیفیت مقاله

جدول ارزیابی ویکی‌پدیای انگلیسی. نماگرفتی از جدول ارزیابی ویکی‌پدیای انگلیسی (تا تاریخ ژوئن ۲۰۲۴)

کیفیت مقاله‌های ویکی‌پدیا یکی از دغدغه‌های مهم ویکی‌نویسان است. صفحه‌های تازه باید بازبینی شوند تا اطمینان حاصل شود که مقاله‌های حاوی هرزنگاری، خرابکاری یا حمله در ویکی باقی نمی‌مانند. برخی ویکی‌نویسان به‌طور دوره‌ای کیفیت مقاله‌هایی که از بازبینی اولیه سربلند بیرون می‌آیند را ارزیابی می‌کنند، اما این کار بسیار سنگین و فشرده است و ارزیابی‌ها معمولاً قدیمی هستند.

ارزیابی مقاله تازه

هرچه انواع واقعاً مشکل‌دار مقاله‌های پیش‌نویس سریع‌تر حذف شوند، بهتر است. بازبینی صفحه‌هایی که به تازگی ایجاد شده‌اند کار زیادی می‌برد. مشابه مشکل مبارزه با خرابکاری در ویرایش‌ها، پیش‌بینی‌های ماشینی می‌توانند به بازبینی‌کنندگان نیز در زمینهٔ تمرکز بر مشکل‌دارترین صفحه‌های تازه کمک کنند. با اتکا بر توضیحات ارائه‌شده توسط مدیران در زمان حذف صفحه‌ها (جدول logging را ببینید)، ما می‌توانیم مدلی را آموزش دهیم که صفحه‌هایی که نیازمند حذف سریع خواهند بود را پیش‌بینی کند. برای مشاهدهٔ فهرستی از دلایل حذف سریع در ویکی‌پدیای فارسی، وپ:محس را ببینید. برای مدل انگلیسی، ما از G3 "vandalism" و G10 "attack" و G11 "spam" استفاده کرده‌ایم.

draftquality – پیش‌بینی می‌کند که آیا مقاله نیازمند حذف سریع (هرزنگاری، خرابکاری، حمله یا OK) است یا خیر

ارزیابی مقاله از پیش موجود

برخی از ویکی‌پدیاهای بزرگ به‌طور دوره‌ای کیفیت مقاله‌هایی که از بازبینی‌های اولیه سربلند بیرون می‌آیند را با استفاده از مقیاسی که تقریباً متناظر با مقیاس رتبه‌بندی ویکی‌پدیای انگلیسی نسخه ۱.۰ ("articlequality") است، ارزیابی می‌کنند. داشتن این ارزیابی‌ها بسیار سودمند است؛ زیرا به ما کمک می‌کند تا میزان پیشرفت خود را بسنجیم و فرصت‌های از دست رفته (مانند مقاله‌های پربازدیدی که دارای کیفیت پایین هستند) را شناسایی کنیم. با این حال، به‌روز نگه داشتن این ارزیابی‌ها چالش‌برانگیز است و از همین روی پوشش آن‌ها نیز دقیق نیست. اینجا همان جایی است که مدل یادگیری ماشینی articlequality به کمک ما می‌آید. به‌واسطهٔ آموزش یک مدل برای تکرار ارزیابی‌های انجام‌شده توسط انسان بر روی کیفیت مقاله‌ها، می‌توانیم به‌طور خودکار هر مقاله و هر نسخه‌ای را به‌وسیلهٔ رایانه ارزیابی کنیم. این مدل برای کمک به ویکی‌پروژه‌ها در زمینهٔ رسیدگی به کارهای ارزیابی مجدد مقاله‌ها و شناخت روندهای ویرایشی که منجر به بهبود کیفیت مقاله‌ها می‌شوند، به‌کار رفته است.

پیش‌بینی‌های مدل articlequality مبتنی بر ویژگی‌های ساختاری مقاله است. برای مثال، مقاله چند بخش دارد؟ آیا جعبهٔ اطلاعات دارد؟ چند ارجاع دارد؟ و آیا ارجاعات از یک الگوی {{Cite xxx }} استفاده کرده‌اند؟ مدل articlequality کیفیت نگارش و مشکلات موجود در لحن نوشتار (برای مثال، زورچپانی یک دیدگاه خاص) را ارزیابی نمی‌کند. با این حال، به‌نظر می‌رسد که بسیاری از ویژگی‌های ساختاری مقاله‌ها قویاً با نگارش و لحن خوب در ارتباط هستند و بنابراین، این مدل‌ها در عمل خیلی خوب کار می‌کنند.

articlequality – * articlequality – درجه کیفیت مقاله یا پیش‌نویس را (مشابه مقیاس ویکی‌پدیا نسخهٔ ۱.۰) پیش‌بینی می‌کند

مسیریابی موضوعی

پیاده‌روی موضوعی تصویری از فرایند برچسب‌زنی بیناویکیایی در اینجا نشان داده شده است. ویکی‌پروژه‌های ویکی‌پدیای انگلیسی مقاله‌ها را بر پایهٔ ارتباط موضوعی برچسب می‌زنند. ویکی‌پروژه‌ها در سلسله مراتبی از برچسب‌های موضوعی مرتب شده‌اند. برچسب‌های موضوعات در ویکی‌های دیگر به‌واسطهٔ پیوندهای وبگاه در ویکی‌داده به مقاله‌ها اعمال می‌شوند.

ORES' article topic model applies an intuitive top-down taxonomy to any article in Wikipedia -- even new article drafts. This topic routing is useful for curating new articles, building work lists, forming new WikiProjects, and analyzing coverage gaps.

ORES topic models are trained using word embeddings of the actual content. For each language, a language-specific embedding is learned and applied natively. Since this modeling strategy depends on the topic of the article, topic predictions may differ between languages depending on the topics present in the text of the article.

New article evaluation

New article routing. A diagram maps the flow of new articles in Wikipedia with the 'draftquality' and 'articletopic' ORES models used for routing.

The biggest difficulty with reviewing new articles is finding someone familiar with the subject matter to judge notability, relevance, and accuracy. Our drafttopic model is designed to route newly created articles based on their apparent topical nature to interested reviewers. The model is trained and tested against the first revision of articles and is thus suitable to use on new article drafts.

drafttopic – predicts the topic of an a new article draft

Topic interest mapping

Article tagging example (Ann Bishop). Ann Bishop is tagged by WikiProjects East Anglia, Women scientists, Women's history, and Biography. The topic taxonomy translation and predictions are presented. Note that the predictions include more relevant topic information than the taxonomy links.

The topical relatedness of articles is an important concept for the organization of work in Wikipedia. Topical working groups have become a common strategy for managing content production and patrolling in Wikipedia. Yet a high-level hierarchy is not available or query-able for many reasons. The result is that anyone looking to organize around a topic or make a work-list has to do substantial manual work to identify the relevant articles. With our articletopic model, these queries can be done automatically.

articletopic – predicts the topic of an article (more details )

Support table

The ORES support table reports the status of ORES support by wiki and model available. If you don't see your wiki listed, or support for the model you'd like to use, you can request support.

API usage

ORES offers a Restful API service for dynamically retrieving scoring information about revisions. See https://ores.wikimedia.org for more information on how to use the API.

If you're querying the service about a large number of revisions, it's recommended to batch no more than 50 revisions within a given request as described below. It's acceptable to use up to 4 parallel requests. Please do not exceed these limits or ORES can become unstable. For even larger number of queries, you can run ORES locally

Example query: http://ores.wikimedia.org/v3/scores/enwiki/?models=draftquality|wp10&revids=34854345|485104318

{
  "enwiki": {
    "models": {
      "draftquality": {
        "version": "0.0.1"
      },
      "wp10": {
        "version": "0.5.0"
      }
    },
    "scores": {
      "34854345": {
        "draftquality": {
          "score": {
            "prediction": "OK",
            "probability": {
              "OK": 0.7013632376824356,
              "attack": 0.0033607229172158775,
              "spam": 0.2176404529599271,
              "vandalism": 0.07763558644042126
            }
          }
        },
        "wp10": {
          "score": {
            "prediction": "FA",
            "probability": {
              "B": 0.22222314275400137,
              "C": 0.028102719464462304,
              "FA": 0.7214649122864883,
              "GA": 0.008833476344463836,
              "Start": 0.017699431000825352,
              "Stub": 0.0016763181497590444
            }
          }
        }
      },
      "485104318": {
        "draftquality": {
          "score": {
            "prediction": "OK",
            "probability": {
              "OK": 0.9870402772858909,
              "attack": 0.0006854267347843173,
              "spam": 0.010405615745053554,
              "vandalism": 0.0018686802342713132
            }
          }
        },
        "wp10": {
          "score": {
            "prediction": "Stub",
            "probability": {
              "B": 0.02035853144725939,
              "C": 0.021257471714087376,
              "FA": 0.0018133076388221472,
              "GA": 0.003447287158958823,
              "Start": 0.1470443252839051,
              "Stub": 0.8060790767569672
            }
          }
        }
      }
    }
  }
}

Result

Example query: https://ores.wikimedia.org/v3/scores/wikidatawiki/421063984/damaging

{
  "wikidatawiki": {
    "models": {
      "damaging": {
        "version": "0.3.0"
      }
    },
    "scores": {
      "421063984": {
        "damaging": {
          "score": {
            "prediction": false,
            "probability": {
              "false": 0.9947809563336424,
              "true": 0.005219043666357669
            }
          }
        }
      }
    }
  }
}

Result

EventStream usage

The ORES scores are also provided as an EventStream at https://stream.wikimedia.org/v2/stream/revision-score

Local usage

To run ORES locally you can install the ORES Python package by:

pip install ores # needs to be python3, incompatible with python2

Then you should be able to run it through:

echo -e '{"rev_id": 456789}\n{"rev_id": 3242342}' | ores score_revisions https://ores.wikimedia.org (your user-agent string goes here) enwiki damaging

You should see output of

017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Reading input from <stdin>
2017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Writing output to from <stdout>
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9889349126544834, "true": 0.011065087345516589}}}}, "rev_id": 456789}
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9830812038318183, "true": 0.016918796168181708}}}}, "rev_id": 3242342}

Result

Footnotes

↑ در ابتدا با نام سامانه ارزیابی عینی نسخه‌ها یا Objective Revision Evaluation Service شناخته می‌شد، اما این نام بلند اکنون منسوخ شده است

[1] در ابتدا با نام سامانه ارزیابی عینی نسخه‌ها یا Objective Revision Evaluation Service شناخته می‌شد، اما این نام بلند اکنون منسوخ شده است

[1]