ساعن
ساعن یا ORES (/ɔɹz/)[1] یک سرویس و واسط برنامهنویسی کاربردی است که یادگیری ماشینی را در قالب سرویس برای پروژههای ویکیمدیا فراهم میکند و نگهداری از آن بر عهدهٔ تیم یادگیری ماشینی است. این سامانه بهمنظور کمک به خودکارسازی کارهای ویکیایی طراحی شده است – برای مثال، شناسایی و حذف خرابکاریها. در حال حاضر دو نوع امتیاز عمومی که توسط ساعت تولید میشوند در زمینهٔ «کیفیت ویرایش» و «کیفیت مقاله» هستند.
ساعن یک سرویس پسانه است و راهی مستقیم برای استفاده از امتیازها را ارائه نمیدهد. اگر تمایل به استفاده از امتیازهای ساعت دارید، فهرست ابزارهایی که از امتیاز ساعن استفاده میکنند را ببینید. اگر ساعن هنوز از ویکی شما پشتیبانی نمیکند، راهنمای درخواست پشتیبانی ما را ببینید.
برای پرسشهای خود دربارهٔ ساعن بهدنبال پاسخ هستید؟ پرسشهای رایج دربارهٔ ساعن را ببینید.
کیفیت ویرایش
یکی از نگرانیهای حیاتی دربارهٔ پروژههای باز ویکیمدیا، بازبینی مشارکتهای («ویرایشهای») بالقوه مخرب است. همچنین لازم است که مشارکتکنندگان دارای حسن نیت (که ممکن است ناخواسته مرتکب تخریب صفحهها شوند) شناسایی شده و به آنها پیشنهاد پشتیبانی داده شود. این مدلها برای سهولت بیشتر پالایش ویرایشها در صفحهٔ «ویژه:تغییرات اخیر» طراحی شدهاند. ما برای مدلهای پیشبینی کیفیت ویرایش دو سطح از پشتیبانی را ارائه میدهیم: ابتدایی و پیشرفته.
پشتیبانی ابتدایی
با این فرض که بیشتر ویرایشهای مخرب برگردانده خواهند شد و ویرایشهایی که مخرب نیستند دارای برچسب reverted
نخواهند بود، میتوانیم با کمک تاریخچهٔ ویرایشها (و ویرایشهای برگردانده شده) از یک ویکی، کار خود را آغاز کنیم.
راهاندازی این مدل ساده است، اما با این مشکل هم مواجه است که بسیاری از ویرایشها به دلایل دیگری بهجز تخریب و خرابکاری برگردانده میشوند. برای کمک به حل این مشکل، مدلی مبتنی بر واژههای نامناسب ایجاد میکنیم.
reverted
– پیشبینی میکند که آیا ویرایش در نهایت برگردانده میشود یا خیر
پشتیبانی پیشرفته
بهجای فرض کردن، میتوانیم از ویرایشگران بخواهیم تا به ساعن آموزش دهند که کدام ویرایشها به واقع (مخرب) damaging
هستند و کدام ویرایشها بهنظر با حسن نیت (goodfaith
) ذخیره شدهاند.
این کار نیازمند کار بیشتر از سوی داوطلبان حاضر در اجتماع است، اما با توجه به کیفیت یک ویرایش، پیشبینی دقیقتر و ظریفتری را ارائه خواهد داد.
بسیاری از ابزارها تنها زمانی کار میکنند که پشتیبانی پیشرفته برای ویکی هدف در دسترس باشد.
damaging
– پیشبینی میکند که آیا ویرایش موجب تخریب میشود یا خیرgoodfaith
– پیشبینی میکند که آیا ویرایش با حسن نیت ذخیره شده است یا خیر
کیفیت مقاله
کیفیت مقالههای ویکیپدیا یکی از دغدغههای مهم ویکینویسان است. صفحههای تازه باید بازبینی شوند تا اطمینان حاصل شود که مقالههای حاوی هرزنگاری، خرابکاری یا حمله در ویکی باقی نمیمانند. برخی ویکینویسان بهطور دورهای کیفیت مقالههایی که از بازبینی اولیه سربلند بیرون میآیند را ارزیابی میکنند، اما این کار بسیار سنگین و فشرده است و ارزیابیها معمولاً قدیمی هستند.
ارزیابی مقاله تازه
هرچه انواع واقعاً مشکلدار مقالههای پیشنویس سریعتر حذف شوند، بهتر است. بازبینی صفحههایی که به تازگی ایجاد شدهاند کار زیادی میبرد. مشابه مشکل مبارزه با خرابکاری در ویرایشها، پیشبینیهای ماشینی میتوانند به بازبینیکنندگان نیز در زمینهٔ تمرکز بر مشکلدارترین صفحههای تازه کمک کنند. با اتکا بر توضیحات ارائهشده توسط مدیران در زمان حذف صفحهها (جدول logging را ببینید)، ما میتوانیم مدلی را آموزش دهیم که صفحههایی که نیازمند حذف سریع خواهند بود را پیشبینی کند. برای مشاهدهٔ فهرستی از دلایل حذف سریع در ویکیپدیای فارسی، وپ:محس را ببینید. برای مدل انگلیسی، ما از G3 "vandalism" و G10 "attack" و G11 "spam" استفاده کردهایم.
draftquality
– پیشبینی میکند که آیا مقاله نیازمند حذف سریع (هرزنگاری، خرابکاری، حمله یا OK) است یا خیر
ارزیابی مقاله از پیش موجود
برخی از ویکیپدیاهای بزرگ بهطور دورهای کیفیت مقالههایی که از بازبینیهای اولیه سربلند بیرون میآیند را با استفاده از مقیاسی که تقریباً متناظر با مقیاس رتبهبندی ویکیپدیای انگلیسی نسخه ۱.۰ ("articlequality") است، ارزیابی میکنند.
داشتن این ارزیابیها بسیار سودمند است؛ زیرا به ما کمک میکند تا میزان پیشرفت خود را بسنجیم و فرصتهای از دست رفته (مانند مقالههای پربازدیدی که دارای کیفیت پایین هستند) را شناسایی کنیم.
با این حال، بهروز نگه داشتن این ارزیابیها چالشبرانگیز است و از همین روی پوشش آنها نیز دقیق نیست.
اینجا همان جایی است که مدل یادگیری ماشینی articlequality
به کمک ما میآید.
بهواسطهٔ آموزش یک مدل برای تکرار ارزیابیهای انجامشده توسط انسان بر روی کیفیت مقالهها، میتوانیم بهطور خودکار هر مقاله و هر نسخهای را بهوسیلهٔ رایانه ارزیابی کنیم.
این مدل برای کمک به ویکیپروژهها در زمینهٔ رسیدگی به کارهای ارزیابی مجدد مقالهها و شناخت روندهای ویرایشی که منجر به بهبود کیفیت مقالهها میشوند، بهکار رفته است.
پیشبینیهای مدل articlequality مبتنی بر ویژگیهای ساختاری مقاله است. برای مثال، مقاله چند بخش دارد؟ آیا جعبهٔ اطلاعات دارد؟ چند ارجاع دارد؟ و آیا ارجاعات از یک الگوی {{Cite xxx }} استفاده کردهاند؟ مدل articlequality کیفیت نگارش و مشکلات موجود در لحن نوشتار (برای مثال، زورچپانی یک دیدگاه خاص) را ارزیابی نمیکند. با این حال، بهنظر میرسد که بسیاری از ویژگیهای ساختاری مقالهها قویاً با نگارش و لحن خوب در ارتباط هستند و بنابراین، این مدلها در عمل خیلی خوب کار میکنند.
articlequality
– *articlequality
– درجه کیفیت مقاله یا پیشنویس را (مشابه مقیاس ویکیپدیا نسخهٔ ۱.۰) پیشبینی میکند
مسیریابی موضوعی
ORES' article topic model applies an intuitive top-down taxonomy to any article in Wikipedia -- even new article drafts. This topic routing is useful for curating new articles, building work lists, forming new WikiProjects, and analyzing coverage gaps.
ORES topic models are trained using word embeddings of the actual content. For each language, a language-specific embedding is learned and applied natively. Since this modeling strategy depends on the topic of the article, topic predictions may differ between languages depending on the topics present in the text of the article.
New article evaluation
The biggest difficulty with reviewing new articles is finding someone familiar with the subject matter to judge notability, relevance, and accuracy.
Our drafttopic
model is designed to route newly created articles based on their apparent topical nature to interested reviewers.
The model is trained and tested against the first revision of articles and is thus suitable to use on new article drafts.
drafttopic
– predicts the topic of an a new article draft
Topic interest mapping
The topical relatedness of articles is an important concept for the organization of work in Wikipedia.
Topical working groups have become a common strategy for managing content production and patrolling in Wikipedia.
Yet a high-level hierarchy is not available or query-able for many reasons.
The result is that anyone looking to organize around a topic or make a work-list has to do substantial manual work to identify the relevant articles.
With our articletopic
model, these queries can be done automatically.
articletopic
– predicts the topic of an article (more details )
Support table
The ORES support table reports the status of ORES support by wiki and model available. If you don't see your wiki listed, or support for the model you'd like to use, you can request support.
API usage
ORES offers a Restful API service for dynamically retrieving scoring information about revisions. See https://ores.wikimedia.org for more information on how to use the API.
If you're querying the service about a large number of revisions, it's recommended to batch no more than 50 revisions within a given request as described below. It's acceptable to use up to 4 parallel requests. Please do not exceed these limits or ORES can become unstable. For even larger number of queries, you can run ORES locally
Example query: http://ores.wikimedia.org/v3/scores/enwiki/?models=draftquality|wp10&revids=34854345|485104318
{
"enwiki": {
"models": {
"draftquality": {
"version": "0.0.1"
},
"wp10": {
"version": "0.5.0"
}
},
"scores": {
"34854345": {
"draftquality": {
"score": {
"prediction": "OK",
"probability": {
"OK": 0.7013632376824356,
"attack": 0.0033607229172158775,
"spam": 0.2176404529599271,
"vandalism": 0.07763558644042126
}
}
},
"wp10": {
"score": {
"prediction": "FA",
"probability": {
"B": 0.22222314275400137,
"C": 0.028102719464462304,
"FA": 0.7214649122864883,
"GA": 0.008833476344463836,
"Start": 0.017699431000825352,
"Stub": 0.0016763181497590444
}
}
}
},
"485104318": {
"draftquality": {
"score": {
"prediction": "OK",
"probability": {
"OK": 0.9870402772858909,
"attack": 0.0006854267347843173,
"spam": 0.010405615745053554,
"vandalism": 0.0018686802342713132
}
}
},
"wp10": {
"score": {
"prediction": "Stub",
"probability": {
"B": 0.02035853144725939,
"C": 0.021257471714087376,
"FA": 0.0018133076388221472,
"GA": 0.003447287158958823,
"Start": 0.1470443252839051,
"Stub": 0.8060790767569672
}
}
}
}
}
}
}
|
---|
Result |
Example query: https://ores.wikimedia.org/v3/scores/wikidatawiki/421063984/damaging
{
"wikidatawiki": {
"models": {
"damaging": {
"version": "0.3.0"
}
},
"scores": {
"421063984": {
"damaging": {
"score": {
"prediction": false,
"probability": {
"false": 0.9947809563336424,
"true": 0.005219043666357669
}
}
}
}
}
}
}
|
---|
Result |
EventStream usage
The ORES scores are also provided as an EventStream at https://stream.wikimedia.org/v2/stream/revision-score
Local usage
To run ORES locally you can install the ORES Python package by:
pip install ores # needs to be python3, incompatible with python2
Then you should be able to run it through:
echo -e '{"rev_id": 456789}\n{"rev_id": 3242342}' | ores score_revisions https://ores.wikimedia.org (your user-agent string goes here) enwiki damaging
You should see output of
017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Reading input from <stdin>
2017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Writing output to from <stdout>
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9889349126544834, "true": 0.011065087345516589}}}}, "rev_id": 456789}
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9830812038318183, "true": 0.016918796168181708}}}}, "rev_id": 3242342}
|
---|
Result |
Footnotes
- ↑ در ابتدا با نام سامانه ارزیابی عینی نسخهها یا Objective Revision Evaluation Service شناخته میشد، اما این نام بلند اکنون منسوخ شده است