本期作者

1. 管理背景和目标

1.1管理背景

B站作为一个有用风趣的归纳性视频社区，每个用户都是在与内容的互动进程中构成单向/双向关注和身份上的集体联合，具有相同兴趣爱好的小伙伴集合在一起构成不同圈子，所以，当小部分用户在社区中有降低或许拉踩其他用户的行为，乃至出现人生进犯等歹意讲话，社区气氛很容易被损坏。

社区文明和价值的体现来源于内容的创作和沟通，其中谈论作为B站用户沟通互动最重要的阵地之一，天然也是社区气氛的重要组成部分。依据2022年6月谈论的告发理由分布，现在B站负向谈论的首要来源为引战和人身进犯。

1.2 管理目标

社区一直面对一个挑战便是：削减贬损、侮辱、诽谤等粗俗人身进犯内容的曝光另，一方面能够促进正向内容和心情的流转；一方面期望通过管理引导用户正向讲话，进一步促进社区友好互动、建造社区气氛，从而让用户看到良好的社区环境和气氛。

2.平台人身进犯内容现状

2.1 人身进犯短词

首先需求关注的是无差别的纯人身进犯文本，此类文本是不会跟着社会或许站内热点事情而改变的包含谩骂、进犯性质的文本。

惯例的进犯性短词是有限且可控的，但是其变体形式是管理的难点。进犯性短词的变体首要包含：

1) 同音同形类（如伞兵、剑冢）；

2) 首字母匹配类（如出生、我测你码）；

3) 特别字符、表情、罕见字变体类（如大乃√、）。

图2.1.1 ：人身进犯短词变体剖析

2.2 部分分区人身进犯问题杰出

因为分区生态与用户习惯的不同，对所有分区一刀切的管理模式是不可取的。为了既能有针对性地解决问题，又能有用引导社区心情正向发展，咱们对日子、文娱、影视、知识、科技、运动、游戏以及音乐这八个区的人身进犯以及引战的告发情况的摸底，从可评价性、可管理性两个视点发现文娱、影视区和游戏区的问题更为杰出，详细体现在以下两个方面：

在游戏、文娱、影视三个分区中，人身进犯告发的数量远高于平均值，是总人身进犯告发量的大头。
在游戏、文娱、影视三个分区中，人身进犯告发谈论的前 100 个关键字里面，实体词的占比分别为 45%、57%、63%，比较于其他论题丰厚的区域，这些分区的论题集合度更强、可管理性更高。

3.专项管理进程

咱们首先结合问题谈论锁定要管理的目标是人身进犯。需求特别阐明的是，引战谈论当然也是问题谈论中需求去管理的，但引战问题相对而言愈加杂乱，定义问题难度更高，因而，在本次管理进程中咱们更侧重于更能引发负向心情的人身进犯谈论。整个管理进程见下图3.1：

图3.1 ：人身进犯管理进程

3.1 无差别覆盖管理

1.词匹配辨认

针对变形体的辨认，依靠已经积累的大量的技术手段包含：拼音辨认、数字同音辨认、汉字类似辨认、单词检测辨认、汉字关键词辨认、变形体映射等文本预处理才能。通过对用户谈论进行文本预处理，咱们能够对谈论进行归一化，然后运用汉字或拼音进行辨认。

图3.1.1 ：问题和相应文本预处理才能

举例其中的汉字类似才能，咱们引进了“音形码“的概念（音形码的概念非自创，常用于输入法产品），凭借音形码能够快速计算出汉字的类似成果，这里凭借这个概念能够把汉字转化成机器能够理解的数字串，数据结构大体上如下图：

（图片来源于网络，如有侵权请联系删去）

这个结构涵盖了一个字的拼音和字形数据，能够很好的辨认音似例如“傻”和“杀”，形似例如“娘”和“狼”等。详细的上线作用如下：

接口直接依据设置好的类似阈值回来危险文本。

模型辨认

依据数据显现，不同分区中人身进犯告发谈论的精确度在10%到40%之间，其中绝大多数为古里古怪或许对线进程中稍稍过火的言论。为此，咱们在前期预备了多种算法模型，包含人身进犯模型、对线模型以及古里古怪模型。依靠模型的言语理解才能，咱们能够阻拦覆盖掉一部分的纯人身进犯以及引战文本。

图3.1.1 ：人生进犯专项依靠的模型才能

第一类文本分类模型

在分类问题上，Fasttext、DPCNN、TextRCNN、Attention、Bert等模型都是比较经典的可用于文本而分类问题上的模型。在 NLP 领域，BERT 的强大毫无疑问，但因为模型过于庞大，单个样本计算一次的开销也会比较大，因而，咱们运用比较多的是体量更小、速度更快的tiny_bert。在模型练习的进程中，咱们或许面对的一个问题是样本质量不够高导致模型作用不佳，在已有样本的基础上，咱们会先通过Bert进行样本提纯，再喂给tiny_bert，以进步模型精确度。而在在对线模型中，咱们将输入样本写成“[CLS] 当前谈论 [SEP] 父谈论 [SEP] “跟谈论” [SEP]”的格式，让模型学习到对线进程，并采用bert与图神经网络结合的方法进行对线文本的分类，将预练习模型BERT与图网络GCN（GAT）相结合用于文本分类，能充分交融二者处理数据、提取特征的才能，使得模型有比较好的猜测作用。

第二类文本类似模型

分类模型能帮咱们覆盖掉大部分的特别case，而在B站这个社区平台上，不同的分区有着不一样的文明符号，而且跟着各类社会舆情的发生，部分人身进犯文本会具有必定的特别性，而文本类似模型能依据输入的负向样本种子，快速精确地覆盖掉同关键词、同中心思想文本。

为了使模型继续有用，咱们每周对召回数据和告发数据进行校准，一方面用于评价模型的可用性，另一方面及时向算法侧回来Bad Case和供给新的练习样本，以实现模型对用户多变地发评习性及时作出反应。因为模型的更新并不是实时的，关于突发的高告发事例，咱们将相关的数据通过挑选后放入模型后台的黑模型样本会集，对相关负向内容进行阻拦。

3.2 要点分区打破

因为不同分区的人身进犯谈论的发评人、谈论论题、稿件信息特性不一致，因而问题的严峻程度也不一样，词模型并不能彻底解决问题，关于无法覆盖的部分，咱们需求对单点问题进行要点打破。

咱们把这一部分的管理分红了以下几个过程：

确认每个分区的管理内容；

依据每个分区特性，对要点分区深入剖析，结合社区知识图谱体系，对要点分区的问题进行细致梳理并归纳。

区分管理等级；

对不同分区的不同问题进行严峻程度分级。

确认管理战略。

结合社区阿瓦隆体系，对线上进行定向管控管理。

3.2.1 确认分区管理内容

结合社区知识图谱体系的抽象归纳，并通过剖析上半年的的告发数据，得到要点分区现存人身进犯的需管理的问题，其中文娱区4个，影视区3个，游戏区2个。

3.2.2 区分管理等级

综上，结合告发数据和谈论内容，咱们区分红两个管理方向：

一是针对某一详细目标（人或集体）的带有歹意引导性质或进犯性的谈论，这类谈论需求予以阻拦；

二是削减引战类型且容易被告发的戏弄或负向梗的曝光度。

3.2.3 确认以及施行管理战略

咱们的战略围绕着三个维度展开，分别是关键词、人群、稿件以及up主。1.关键词维度。关于人身进犯言论，抨击或谩骂的目标通常是实体。依据此，除了人身进犯短词外，咱们还分区维护了一个“实体——关键词”知识库。咱们结合谈论内容和稿件信息进行精准匹配，依据匹配情况决策处置战略。别的，为了及时发现谈论的论题和实体，咱们线上运用高谈论度的事情人物辨认模型，再依据报表展现谈论实体，以确保文档信息的继续更新。2.人群维度。从发评者视点来看，可按进犯目标分为两种：一种针对的是非实际个别(明星、游戏、视频内容等），占有大部分，第二种进犯的目标是站内用户或UP主。在大多数情况下，第一类用户群更具稳定性和集合性，因而咱们考虑归纳行为等多重维度来辨认第一类人群。咱们通过互动内容、联系等标记出第一类人群，并采纳相应的管理战略。通过管理，被告发用户的重复率下降了40%。被告发用户的重复率指的是被重复告发用户与被告发用户总数的份额，这个下降趋势表明晰极点用户的极点互动行为削减了。

图3.4 人群包战略施行前（上）后（下）被告发用户重复率

3.稿件维度和UP主维度。

某些稿件自带引战或许人身进犯危险，需求及时干进行干预。关于不同的管理内容，咱们结合了关键词、人群稿件以及UP主信息这几维度来布置相应战略。被战略辨认为高危险的内容中包含较高浓度的进犯性谈论，从中施行高召能够到达精准扩召的作用。

咱们进步召回的方法通常包含两种，分别是调整单一模型分的阈值和依据多个模型（如古里古怪、对线、文本质量分、立场分）练习一个交融模型的方法。交融模型方法包含常见的线性交融（如多元回归、逻辑回归）和非线性交融（树模型）。而交融模型能够较大程度地丰厚召回样本的多样性。

3.3 回查以及跟进

继续搜集模型练习样本：数据同学依据标注规范，对每周的告发数据进行抽样打标，漏召回case放入模型重新学习，构成良性循环；
灵敏词体系类似模型召回：漏召回的人身进犯样本清洗一遍以后，作为类似模型的种子，对问题文本召回；
依据告发数据线上回查删去：被告发过屡次的人身进犯文本，文本的人身进犯模型分>阈值，直接删去；
战略的迭代和更新：更新的内容除模型外还有负向词、人群等，依据战略的集合内容或被反馈的误召回事例对战略进行回查并迭代；
数据探查：通过报表展现或告警危险稿件、人群、单评以及各项告发数据的反常动摇。

4. 管理作用

通过管理，影视、文娱以及游戏三个要点分区23年12月份相较于23年6月份，人身进犯告发占比绝对下了31.97%，引战的告发占比24.77%。

图4.1 影视、文娱和游戏区的归纳人身进犯引战告发占比

5. 总结与展望

通过管理，人身进犯告发占比下降趋势比较明显，但是数值上仍有下探空间。互联网不是法外之地，为了维护一个正向和谐的社区气氛，咱们还能够从以下几方面去进行优化：

考虑优化稿件下的内容展现逻辑，丰厚内容排序规范。
关于“黑话”、负向关键词的发掘需求更自动化；
怎么引导用户正确挑选告发理由或对告发理由进行二次判定以进步告发数据的精确度；
模型短周期的自动化练习和上线；
…….

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

人身攻击与引战类评论的社区治理