ORES/BWDS审核
< ORES
本页面简要介绍如何归类BWDS生成的字词列表。
BWDS的工作原理
BWDS扫描一个wiki的历史记录,找到哪些被添加的字词通常被回退,并且在没有被回退的编辑中不常见。因此本系统倾向于那些侮辱性或不适合条目的非正式字词(如"hello"、"woohoo"、"yolo"等)。本系统也输出在所有编辑中很常用的字词,以备在处理文本时作为停用词。
如何归类
BWDS将生成一个wiki页面,其中包含自动生成的字词列表。可以对magyar语言的字词研究为例。我们需要以目标语言为母语的使用者来帮助我们对列表进行归类、去除被错误抓取的字词。
- list-generated(生成的列表)
- 该列表包含在已回退编辑中添加的字词。该列表内容需要向“不良字词”和“非正式”归类。
- list-stop(停用列表)
- 该列表包含所有编辑中最常用的字词。该列表不需要人力审核,可以忽略。
- badwords(不良字词)
- 该列表应该包含在任何页面上都不受欢迎的字词,从“生成的列表”摄取。这包括侮辱用语、垃圾信息和其他总应该被回退的内容。此列表可随时补充,包括添加BWDS未检测到的不良字词。
- informals(非正式)
- 该列表应该包含在所有条目上都不受欢迎的字词,但这些字词可用于讨论页面。这包括如“你好”、“哈哈哈”等讨论中可以使用但不太适合条目的字词。随时可添加BWDS未检测到的非正式用语到此列表。
在哪能找到我的BWDS列表?
我们已经为许多较大wiki提供了预生成的列表。查阅我们的字词列表查看是否已为您的wiki生成了列表。如果还没有,使用下面的按钮请求生成列表。另见如何获得支持。
(例子)