本次共享主题是小红书社区反做弊探究与实践，首要评论事务风控作业落地的解题思路。内容环绕下面四点展开：社区反做弊的含义、社区黑灰产生态、做弊防控战略和社区反做弊实践。以下全文根据费栋在 DataFun 智能风控论坛中的共享整理。

费栋：小红书社区风控战略算法担任人。本科毕业于南京大学，硕士就读于巴黎高科。现就职于小红书，从零到一建立社区反做弊辨认框架，担任社区风控安全战略算法体系建设。

1. 社区反做弊的含义

在评论社区反做弊之前，咱们先清晰一下什么是做弊以及做弊会带来的职业危险。

1. 做弊的界说和职业危险

发现危险和界说问题是风控作业中十分要害的一环，但也是经常被咱们疏忽的一环。本文给出个人的界说，即“一切经过非正常方法去乱用产品功用，以获取利益的行为”。要害词“牟利”，不管哪个职业，做弊必定是趋利的。

不同职业的做弊危险方法并不固定，其需求结合产品形态和事务方法来界定。比方，电商场景下做弊或许带来的危险有刷单、薅羊毛和黄牛等。付出场景的首要危险有买卖欺诈，洗钱以及信用卡套现等。

那么，社区场景下又面临着哪些危险呢？

小红书 UGC 社区的环境下，面临的首要危险有如下几类，数据刷量（数据造假）、内容引流、欺诈以及虚伪种草。

2. 社区反做弊的含义

多数场景下，反做弊的价值经过拯救 XX 资损来衡量。比方，电商的薅羊毛，付出的反信用卡套现，活动的骗补贴等，衡量标准能够是为渠道节省了多少资损。那在社区中，该如何去衡量价值呢？或者说社区反做弊的含义是什么？

• 产品生计

面向监管：假如反做弊做得不到位，相应危险问题的浓度就有或许会变高，比方欺诈和刷单问题。近期，有关部门针对互联网欺诈展开行动，如断卡行动、清网行动等等。假如这些问题得不到有用处理，会给渠道带来监管的危险。

机器资源：大量的做弊行为或许占用网络资源，造成服务的堵塞，影响用户运用功用。

从以上两个视点考虑，做弊在短期内是有或许影响产品和渠道生计。

• 数据精确率

做弊行为会产生大量的垃圾数据，而数据是产品乃至战略决议计划的重要支撑。如无法分辩虚伪数据，当其量级和占比到达必定程度时，或许导致剖析、决议计划的误差和失误，影响事务的判别。

• 渠道生态

健康和真挚的内容生态和实在的数据是用户体验的保障。

咱们将 C 端用户分为两类，一类用户无法分辩虚伪数据和内容，于他们而言不实在的内容或数据会带来决议计划的误导；另一类用户能分辩虚伪数据和内容，不至于被误导，但分辩和筛选的进程大大添加获取有用信息的本钱。从长时间来看，做弊或许会带来对渠道的不信任和用户丢失。

关于作者来说，作者是社区内容出产的核心原动力。假如做弊者的数据虚伪、虚高的话，对其他作者不公平。长时间来看，做弊会导致“劣币”驱逐“良币”。

• 流量价值

最终一层，做弊行为会影响流量的价值，内容和数据的不实在，自身会下降大众对渠道的认可度，长时间来看会影响用户运用渠道的兴致。从商业化的视点，最关怀流量价值的是投进者，关于投进者，假如数据不精确会影响商业剖析的定论误差，导致投进作用不如预期，轻视品牌的流量价值。

举例来说，某投进方经过数据剖析挑选与其内容匹配且有流量的博主，认可其带货才能。假定该博主的数据是经过做弊刷出来的，投进后会发现作用欠安，ROI 不如预期，久而久之会引出渠道互动 ROI 低的定论，导致关于渠道流量价值的轻视。

综上，不管是从渠道生态还是流量价值的层面来看，虚伪数据和内容都会影响渠道发展潜力。做好社区反做弊，能够进步产品长时间发展的上限。

2. 社区黑灰产生态

1. 做弊背面的产业链：分工清晰

做弊背面牟利者的产业链是什么？黑灰产的产业链分工十分清晰，大致能够分上中下流三个部分。

上游首要来担任提供核心物料，比方，申请账号，如手机号（猫池、接码渠道）、IP 资源（署理IP，秒波 IP）、设备的（模拟器改机、云控手机）。

中游担任技术的完结，比方做号：注册账号 –> 养号 –> 将号卖给下流、封装刷量自动化脚本、营销东西等。

下流完结变现，一般是运营人员，对错技术的部分。一般，在黑灰色产业链中技术人员不会直接参与服务的变现。比方刷量服务中，常见经过网站裂变的方法发展署理和下线，完结刷量服务运营。在欺诈职业中，欺诈团伙中各司其职：运营人员一部分担任引流，一部分担任引流后培养用户信任，最终引导完结欺诈。

2. 做弊方法迭代：从自动化东西逐渐演变为真人众包，做弊本钱添加，辨认难度变大

早期大多数的攻击是脱机类接口做弊，经过对立渐渐衍生出虚拟机和群控的方法。近些年众包做弊的方法也渐渐成为主流。关于黑产做弊方法的迭代，能够看出做弊本钱变得越来越高。脱机仅需求账号和 IP，一旦突破防护即可完结大量做弊行为；群控则需求购买实在设备；众包则是依靠真人以使命分包的方法到达目的。虽然众包技术含量没有那么高，但全量辨认的本钱和难度是更高的。

从上述产业链能够看出，整个做弊职业的趋利性对错常显着的，背面往往会有着比较清晰的变现思路和方法。而黑产的专业性也是在利益的驱动下敏捷提升。不管从上游的资源到下流的获利，都分工清晰，协同高效，渐渐地衍生出辨认难度越来越大的做弊方法。这也要求做风控的同学跟进职业的局势和进展，做到知己知彼，在辨认对立的进程中不断的完善自我，做到迭代的优化。

3. 做弊防控战略

1. 做弊防控思路

面对已知危险和产业链，下面来评论下整个做弊防控的战略。所谓战略须先清晰做弊防控的方针，以及到达方针的要害途径。

首要清晰关于反做弊的预期。 反做弊的本质是与做弊者本钱的对立，任何反做弊体系都无法做到 100% 的精确和召回。前面提到，不管何种方法做弊，它都是以牟利为目的的，而利益的来源是做弊本钱和收益之间的价值差异。反做弊的作业便是进步做弊本钱，尽量压缩做弊利益空间，下降做弊者的动机。因此，合理的方针设定是下降做弊行为在正常行为中的占比，操控危险的浓度。

要害途径是化被动辨认为自动防护，假如长时间作为被动方，或许没办法有全盘微观的概念。 要做到自动防护，一是构建危险的感知才能，尽早发现危险并且快速反应迭代；二是操控黑产的核心资源（账号，设备），建立高门槛设置准入壁垒，并将有问题的账号进行存量整理。缩短做弊者能运用的账号量和设备量，相应的新账号本钱也会变高，这就操控了核心资源。

下面对做弊防控思路做进一步的拆解，也是一个比较通用的方法论，个人认为能够应用到各类危险操控场景里。首要事务风控最大的难点是对立，不管做弊变成何种方法，仅有不变的便是对立，它是一直存在的。 环绕对立抽象出几个模块：危险感知、才能建设、危险辨认、危险处置、作用评价。在遇到新的对立时，这几个环节间会进行不断的循环迭代。下面以小红书社区反做弊为例，详细介绍这几个模块的设置。

危险感知层担任更快发现危险，化被动救火为自动防护。 详细分为情报运营，黑产卧底和红蓝军对立，帮助危险辨认更早的发现问题，能够说情报是整个危险防控体系的眼睛，处理“看得见”的问题。

才能建设是面向对立的快速响应才能。 这部分触及的模块，一是端+云联防，在合法合规前提下经过端获取设备信息，并进一步加工为可用特征，供云防战略和算法运用。二是能够快速接入且可灵敏装备的风控体系，以完结战略规矩的快速迭代。三是为更快的完结从零到一的落地风控场景，建立可跨场景协同使⽤的危险画像渠道，在新危险场景里快速搬迁和运用数据基建才能。

危险辨认模块，面向对立需进步辨认的准召。 从几个视点拓宽才能，首要扩充数据，结合设备特征、账号特征、行为特征，以及其他场景下辨认的危险画像，做联合运用剖析。其次，从发掘的视点，运用官方渠道和做弊者之间的信息不对称性，寻找做弊用户相较于正常用户的反常点：① 测验由点到线，从剖析单个行为变成剖析一串行为即行为序列发掘；② 从单点到面，经过账号、IP 或设备等节点之间的拓扑联系进行团伙发掘，能够带来很大的增益。

危险处置方面需求挑选更有用的方法进步绕过本钱。 首要分为两个层面，一是处置方针，二是处置方法。在每个场景下该怎样处置，并没有一个标准答案，主张结合详细事务和事务中的危险来判别，了解危险背面的动机，再考虑应该采纳怎样的处置方法才能进步绕过本钱。作用评价能够评价危险水位，一般来说常用的方针有做弊漏过量、漏过率、做弊服务价格、账号价格等。

2. 完结计划——风控体系：⽀持快速接入剖析、灵敏装备与才能搬迁

小红书的风控体系，分为事务数据接入层，数据加工层，剖析决议计划层，数据收集才能沉积及运营和评价模块。

事务数据层，覆盖用户全场景的行为风控。从设备激活->账号注册\登录->内容浏览 ->交互->内容发布，从多场景层面完结联防联控。关于清晰的做弊用户，直接回绝访问然后加强准入的防护壁垒; 关于疑似反常用户或高难度做弊注册，主张做延迟处理或在后续要害环节上做阻拦处置，能够到达添加绕过本钱的目的：详细来说，假如在注册时直接阻拦，做弊者可快速验证阻拦原因；延迟阻拦后做弊者定位辨认方法的难度变大，找到绕过方法的本钱也更高。

数据接入层，风控引擎支撑实时恳求接入，也支撑准实时流式接入和离线数据接入。

数据加工层重点针对身份特征，网络环境，设备信息、行为数据、时序特征，累计因子等去做加工和发掘，并输入至决议计划剖析层。

决议计划剖析层由战略引擎、模型引擎和数据引擎组成。其间战略引擎完结实时的规矩产出和返回，支撑灵敏的战略装备和战略上下线。模型引擎，关于简单模型，能够做到线上 Serving；关于杂乱模型或需求剖析的模型，需经过近线或离线完结。

数据收集的才能沉积层，包含设备指纹收集、名单体系、危险画像、联系图计算和危险事件模块。一方面，作为剖析决议计划层的数据源做输入。另一方面，完结辨认才能的搬迁、运用等等。决议计划剖析层也会向才能沉积层做输出，将新辨认危险点落到才能沉积里复用至其他危险场景。

4. 社区反做弊实践

这部分首要共享小红书社区数据刷量危险的辨认和管理作业。

1. 数据刷量反做弊实践——危险管理

危险管理环节至关重要，在实践中咱们发现，同样的辨认结果，在挑选不同的管理方针和方法时，作用差异性十分大。

共享下咱们的理解，能够从影响、完结链路以及做弊动机三个层面剖析数据刷量的问题：

Q：数据刷量带来的影响是什么？

A：博主的虚伪粉丝，笔记的虚伪点赞、收藏、共享、阅览等。

Q：完结刷量的链路是什么？

A：买量者购买刷量服务，或在众包渠道发单等；刷单者提供服务来牟利。

Q：做弊背面的实在动机是什么？

A：买量者期望经过刷假数据进步自我流量的价值，但该价值是假的，他想营造出一种虚伪的高价值，然后去完结商业化的流量变现。

咱们有一些不同的管理计划：

一、关于影响的管理计划是整理这部分做弊的行为所得。 可是，仅整理虚伪流量，仅有的丢失便是买量付出的钱。但关于买量者，还能够测验其他做弊服务。由于做弊买量价位不会十分高，不断测验的或许性就很强。要害点在于测验做弊是没有边沿本钱的，比方某人偷东西后只是要求把偷盗所得还回去，而不会把他抓起来，只要不被发现就赚了。

二、关于完结链路，针对刷量做弊的账号做管理。 比方辨认到一个用于刷量的机器账号，渠道将该账号封禁。从账号的本钱上考虑，提供刷量服务者手上的账号量会变得越来越少，做账号本钱就会变高，刷量的服务价格就会上涨，刷量者测验新方法时本钱也会变高。

三、从做弊动机视点考虑，按做弊程度作流量分发降权或商业权益约束。 对买做弊流量的笔记做流量分发约束，做弊后能够获得的流量比不做弊更少。其次是约束买做弊流量博主的商业权益，由于很多买量者想经过商业化完结流量变现，对商业权益约束使其无法做商业协作，对做弊者来说是很大的丢失。该模块管理作用，能够大大下降买量者的做弊志愿。从实践来说，从管理【危险影响】转变为管理【完结链路】与【做弊动机】，做弊志愿下降，做弊量级下降显着。

2. 数据刷量反做弊实践——危险辨认

数据刷量的危险辨认实践分为三个阶段，随着对立的展开辨认计划不断迭代。

第一个阶段，在没有风控没有对立的情况下，发现危险是相对简单的，危险隐蔽性不强，该阶段根据行为的主体特征做反常辨认，根本假定是做弊主体有清晰的特征反常。相应的辨认方法如限速战略、参数校验、环境反常、设备假造改机等辨认，以及根据计算特征的监督学习。长处是辨认方法解释性十分强。缺陷是比较简单绕过。拿限速战略举个例子，上线初期阻拦作用显着，但很快做弊者就会摸到限速阈值，只要将速度降下来就可绕过。可是从对立层面来说，阈值是不或许无限下压的，当速度与正常用户重合时，阈值就无法下调了。

由于第一阶段辨认冲击收效，呈现了对立，单点剖析已不能覆盖大部分危险。所以第二阶段，根据群组行为主体的特征剖析发掘反常。根本假定是做弊团伙存在显着的特征相似性。辨认方法上，测验无监督的聚类算法或频频项发掘等。长处是对专家常识的依靠度比较低，能够经过无监督方法找到新团伙；缺陷是经过特征假造、养号、真机可必定程度上绕过辨认。

第二阶段上线后，黑灰产又调整了一次做弊方法。意识到，一是需求加强设备改善参数的实在性。二是经过署理做IP打散，乃至测验真人众包的做弊方法。

在该阶段咱们再次探究数据刷量背面不变的方法是什么？刷量的本质是自身没有流量的人，期望给自己的数据做作假。做弊用户倾向于给正常用户不喜欢的笔记/作者互动，且这类做弊互动是具有批量性质的。为了到达作用，买量者不会只买一个做弊行为。在这个假定下，咱们根据拓扑联系设计图的构建和图相关算法。在构建进程中，测验构建同构图，比方人与人之间的联系，有相似行为的人构边，或运用过相同介质的人构边。也测验构建异构图，异构图中很多实体都是能够构点，不限于人或设备，能够是IP、手机号、行为的方针等。在构图完结后，能够在拓扑结构上完结图分割、高密子图发掘、社群发现模型或者标签传达模型等。

这类计划的长处是不太简单被绕过；缺陷是假如做弊者不断进步做弊本钱，每个做弊账号和IP用的次数很少，在只做少数行为的情况下，关联联系很有或许在构边的进程中丢失，导致辨认漏过。

不过这种情况下，每个做弊行为的本钱十分高，进步做弊本钱的方针也根本到达了。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

小红书社区反作弊探索与实践

1. 社区反做弊的含义

2. 社区黑灰产生态

3. 做弊防控战略

4. 社区反做弊实践

近期文章

近期评论