你们认为绿洲会「火」还是「凉」呢
iPhone 11 预熱页面开启!新品消息持续更新~
最新爆料称:iOS 13 实锤苹果将推出 AR 眼镜?
戳下方小程序卡片看最新的爆料消息
这两天互联网圈最大的热门事件昰小红书风控书下架了。
7月29日晚间各大安卓应用市场的小红书风控书APP暂时不提供下载。
作为国民级种草APP小红书风控书的Bug在于:C2C模式使得笔记内容可以随意发布,任何人用任何方法都可以发布任何内容
正常人可以,微商可以特殊工作者可以,黑产也可以
对于一切C2C嘚工具类平台产品,只要能发布内容其实内容失控的风险都是存在的,不仅是小红书风控书
之前的即刻,Soul乃至网易云音乐,都存在內容失控的情况话题广场,论坛评论区,用户昵称甚至私人对话,只要可以录入文字图片和语音的地方就存在着失控的风险。
毕竟产品是简单的人性是复杂的。
平台治理和内容安全也归属于大风控的范畴作为一名风控从业者,在这方面我有一些实战经验。
这篇文章我打算从内容风控和平台治理的角度来谈谈行业当前的现状与困境。
内容失控对于所有电商和社区类产品而言,都是致命的
尤其在互联网文明越来越重要的今天。
小红书风控书作为C2C的工具类平台用户是可以自己上传图片和笔记的。同时小红书风控书又是Top的种艹平台用户逛小红书风控书就是买东西的。自由的规则配合精准的潜在消费者二者一结合,就成了一块超级美妙的流量蛋糕肥得流油。
于是各种违禁黑产色情交易,非法医美就都来了。
在下架前小红书风控书通过一些关键词索引可以获得各种神奇的服务,例如粉毒和非法医美;比基尼和特殊服务;增高减肥和黑五类保健品;银行卡电话卡和黑产资料当然,现在已经开始大规模屏蔽
这些笔记嘚特点都是打着攻略分享的名义,往卖家的私人微信号上导流然后用话术诱导成交。
这种自发性的C2C传播也是小红书风控书产品本身的朂大特点。
很多不法商家在利用小红书风控书这个平台大发横财。
小红书风控书作为平台方有苦难言。
我不想去讨论小红书风控书作為平台有没有责任毕竟内容是用户自发的,这块我不够专业
我想讨论的是,用什么方法可以有效治理掉这些垃圾内容小红书风控书嘚风控和平台治理们也在头疼这件事情。
作为风控同行我想提一些建议,这些源自我的一些实战经验希望能对他们以及读者有所帮助。
OK小红书风控书当前面临的核心问题是,C端用户上传的内容具有很大的不可控性里面可能夹杂了大量的违法违禁内容,需要有效识别這些人然后针对性屏蔽和封号,在保证正常用户体验的前提下降低内容风险。
当然不管是降低内容风险,还是保证用户体验其核惢目的都是要保证企业的商业利益最大化,这是大前提风控要为业务服务。
所以一切手段最终都要平衡误杀率和ROI
关于违规内容屏蔽,目前业内主要使用的是外采词库以及内部维护一套动态词库
所谓外采词库就是有专门的供应商会做涉及敏感领域的词,支持API的形式直接調用可以嵌入到用户昵称录入,文本上传用户私信等模块,只要上传文本都会进行一次词库过滤,把一些违禁的词给抓出来
优点昰快速上线,缺点是词库是暗箱状态并且业务关键数据容易泄露。
我知道小红书风控书的供应商是哪家我也测试过很多家,只能说通鼡词库是没法依据实际业务场景来做精准打击的建议小红书风控书自建词库,如果没有现成可配置的词库框架可以使用脚本的方式来讓研发维护一套词库,当然最好还是做成可配置的毕竟用脚本的话,词多了很容易崩溃不是长久之计。
有了这一套东西后需要一套應用策略,包含敏感词收集策略敏感词应用策略,敏感词处置策略
所谓敏感词收集策略,要解决的是如何获取到有效的敏感词
很多囚工智能公司吹捧所谓自然语义识别,用机器学习做在这里是不好用的,我要提醒一下小红书风控书不要迷信机器学习。
因为汉语是博大精深的使用谐音字,变体字火星文,以及中间夹杂各种特殊符号和空格的模式很容易就能绕过机器。
就微信这个词可以变种荿V信,VX威,VV你懂得,威X信等等等等机器学习做不到这么精准的打击,但人的识别配合SQL以及Python代码可以实现。
在这里建议使用实时數据库,配专门的数据分析师来做词语收集
数据分析师可以通过一些基础的违规信息,来进一步人工延伸出索引规则例如微信12345,就可鉯提取出某些关键字某些特殊符号,甚至某些符号+数字的特征来抓
一个熟练的风控数据分析师,一天抓出上万有效敏感词不是问题
所谓敏感词应用策略,要解决的问题是这些敏感词用于哪些领域
当你有了一个敏感词库时,你需要对每一个词进行打标签例如杀人这個词是A类标签,吃奶这个词是B类标签不同的业务场景以及电商品类,要使用完全不同的标签
例如牛奶类的笔记,用吃奶这个词就会误傷很大
这里需要做的是,给每一个场景的业务都打上标签然后依据标签来使用敏感词库中的词类目。
例如口红类笔记要用ABC标签的词唎如旗袍类的笔记要用CDF标签的词等等。
至于如何拆解品类打标和敏感词这个就不展开了,展开必是长篇大论
所谓敏感词处置策略,要解决的问题是内容命中了敏感词之后要如何处置这些内容。
这里其实也牵涉对敏感词的打标主要是设置敏感词处置权重。
例如黄恐暴類的敏感词标签对应的处置手段应该是直接屏蔽+封号或者直接禁止发布。例如疑似推广微信号的标签对应的处置手段应该是屏蔽+禁言,或者禁止发布例如命中了一些权重较弱的敏感词或者敏感字,对应的处置手段应该是转人工审核再发布。
当然这里只是举几个简单嘚例子敏感词的应用方法还有很多,不过这个方向是目前比较成熟的模式
除却敏感词之外,小红书风控书的笔记中还含有大量的图片類内容这些图片类内容目前主要的问题有两个:
第一个是黄恐暴类图片,图片本身有问题
第二个是图片本身没问题,但是图片里面的東西有问题例如图片里面就有VX:12345等字迹或者水印。
对于前者建议直接购买现成的图片识别服务,阿里腾讯都有成熟的服务
对于后者,可以使用OCR把图片转成文字然后使用敏感词策略来进行处理。
以上是对于内容本身的风控思路需要注意的是,这个需要投入大量的资源尤其是人工审核资源,今日头条就有数千人专门做内容审核对于内容电商来说,这个不能省
而且内容攻防应该是动态的,不存在┅劳永逸的事情需要做好持久战的准备,汉语就是这么博大精深
内容风控很重要,但其实只是表层而且永远难以做到穷举,真的一刀切下去会误伤大量的正常用户,这对于用户体验和公司的商业价值而言都是损失
比内容风控更重要的,是底层风控从用户注册到發生第一次行为,都需要做更深入的风险管理
除了要管别人发了什么内容,同样还要管是哪些“人”发了这些内容
通过敏感词体系,鈳以对大量的内容笔记来进行标签分类出正常笔记,可疑笔记捣乱笔记,沙雕笔记等等等等等这些统称为Y。
风控策略的基础逻辑是F(x)=YX是指特征,F是指算法or策略Y是指效果。
当你有了Y之后就等于知道了答案。
然后去找这些异常的笔记都是谁发布的,这些发布的賬号的特征(X)是什么
一般常见的账号特征有数百个维度,例如注册时间年龄,性别发布时间,常用标签ip地址,设备号手机号,性别归属地,APP来源登录模式,手机型号GPS地址,LBS区域用户注册来源,历史行为浏览行为,等等等等等这些信息有的来自于APP埋點,有的来自于依据原有特征推算出的衍生特征
特征工程是风控的核心之一,重要性不亚于策略应用好的数据是一切的基础。
通过敏感词找到Y然后利用Y来反推命中的X,然后得出应用策略-F
案例1,假如小红书风控书发现某个整容类的异常笔记大部分发布者和点赞者的IP嘟是相同的或者都是同一个号段的,那么完全可以设置策略屏蔽这个IP段发这个类型的笔记
案例2,假如小红书风控书发现某些有问题的笔記都指向同一个微信号,那么就把发布过这个微信号的账号全都封了连误杀都没有。
案例3假如小红书风控书发现某些有问题的笔记,大部分发布者和点赞者都是24小时内注册的那么完全可以设置注册时间XXX时间内,不允许在XX领域发笔记
类似的规则,在成熟的平台治理Φ会有数十万条,我做过设计和维护
这一切的规则,都要做成动态可配置的做成决策引擎的模式,风控只需要拖拉拽这些标签然後自己写比对符和阈值,再配置处置手段就可以生效。
例如一条规则禁止注册时间在24小时内的女性用户发布比基尼笔记。
注册时间<24小時
且,弹出文案“半佛仙人你别比比了”
把这些做成是否的标签,可以自由配置快速上线。
夹杂敏感词策略和决策引擎中间还应該有一层基于“账户”维度的用户关系网络以及实时监控和干预机制,用图挖掘来做
所谓关系网络,是指不同账户间的关系由点和线組成。
例如A账户给B账户的笔记点赞或者评价就会形成一条关系。反应在网络中就是A点和B点之间出现了一条关系线
再例如A账户和C账户同時给B账户的笔记点赞或者评价,就会形成多条关系线反应在网络中就是A点到B点,C点到B点A点到C点。
关系网络是对于批量作弊账户的大殺器。
在实际业务中通过设置点和线的规则,可以有效拦截批量异常行为
例如在同一个时间,出现了大量有关联的账户与某几个笔記或者账户出现了可疑关联,就可以进行拦截
例如在近10分钟内,整个的流量池出现了波动异常则可以触发警报,把溢出流量关联的内嫆进行屏蔽等等等
关系网络更多是横向的对比以及大盘的监控,涉及账户管控不仅要看横向,更要看纵向
所谓横向,是指同一个时間里账户A和账户BCDEF是否有相同的行为或者异常的关联,所有人放在一起来比不同
所谓纵向,是指同一个账户在不同的时间里,进行了怎样的操作
例如A账户,过去六个月都是给一些正常的笔记点赞浏览和评论都很正常,但是近3天在密集的跟一些异常的笔记产生互动囷分享。
这就是账户出现了问题与之前的操作不同,需要对账户发出警告要么屏蔽功能,要么要求实名
横向是用其他用户的特征比對一个用户,纵向是指用户过去的特征比对当前的行为
纵横之术是对抗黑产养号与批量作弊的屠龙术。
敏感词策略和决策引擎外还需偠做的是账户准入和APP加固。
所谓账户准入体系是指在用户注册阶段就拦截掉大量黑产用户。
大量发布垃圾笔记和违禁笔记的账号往往嘟是接码平台批量注册了,不是很多人想到一堆人拿着几百个手机在操作微商很赚钱的好吗,不会干这种low事
这就代表着,这些注册手機号本身就有足够多的问题,因为黑产们拿手机号也有成本往往会多次利用。
这个手机号在小红书风控书耍流氓之前可能已经在其怹平台被教育过了。
一般在注册阶段建议对手机号加一层准入规则,常规的手段是禁止小号和虚拟号注册进一步的手段就是采购阿里雲和腾讯天御的注册反欺诈评分,输入一个手机号+注册IP可以返给一个评分,分数高于XXX分的时候拒绝用户注册,或者强制要求实名
阿裏有最全的电商黑产库,腾讯有最全的社交黑产库网易有最全的游戏黑产库,都是T+0实时更新的土豪一些的公司可以都用,其他自便
反正只要风控能根据异常笔记抓到注册账户手机号就行,拿这些去测各家的数据准确度与误杀率并不困难。
这个操作在业内叫做加盾囿这一层盾,基本上可以挡掉市场上9成5的黑产大多数黑产是没有能力绕盾的,因为资金不够雄厚手机卡更新速度上不去。
账户准入体系外还需要的就是APP加固。
所谓APP加固是指对于APP本身的代码,接口做封装和动态加密拦截接口直接写入内容,代码破解沙盒,GPS更改等┅系列攻击行为简单理解为是反外挂也可以。
很多APP对于用户的录入内容其实都是有限制的很多APP甚至不允许用户录入内容,只能选择几個特定的标签
但是黑产在进行违规内容渗透的时候,往往不是手动填写的而是直接反编译本地APP代码,拦截接口的动态信息然后调用接口录入。
例如正常人肯定打不出一些特殊符号但是通过接口用机器写入,想写什么就写什么。
小红书风控书社区中的大量明晃晃的違规内容很有可能是由于接口被攻破,遭遇大量的机器写入这个在黑产攻防中很常见。
通过机器大量灌入垃圾内容导致竞争对手出现問题在业内并不稀奇。
所以在账号准入外也要主要APP本身的加固措施。
敏感词过滤决策引擎,加盾APP加固,这4套都做好是不是就高枕无忧了?
不是的作为内容社区,小红书风控书还需要更重要的一套机制就是用户内容举报机制。
只靠小红书风控书自己累死他们吔不可能挡掉一切的垃圾内容,而且使用策略也好规则也好,阈值设置比较宽松的话总有漏网之鱼。
阈值设置过于严格的话总会有被误杀的用户,被误杀的用户还会去各个论坛和网络媒体发声去谴责小红书风控书。
在这个好事不出门坏事传千里的年代,这种负面信息对于小红书风控书也是一种伤害
而小红书风控书最大的特点就是用户自发的参与度高,所以一套完善的用户举报机制是非常高效的岼台行为
这套机制不是加一个所谓的按钮点击这么简单,用户看到的可能就是一个举报按钮
但小红书风控书需要做的是针对整个举报設计完整的SOP如何判定举报是否有效,不同举报内容的确认标准以及处罚标准举报应在什么时间内生效,应该给与举报用户怎样的奖励与支持增加积极性等等等等这也是一个浩大的工程。
但对于内容社区而言用户自发举报是非常好用的东西。
以上内容只是基础的平台治悝体系具体的落地方案,执行计划原始变量及阈值切分等等,受限于保密协议和饭碗的原因我不方便讲更多,但足够给风控同行做參考了
而且这些基础体系,在实际操作中还面临着诸多实务性的难题以及场景契合的问题,很多问题都不是简单的风控问题需要整個公司的战略和定位一起跟上。
例如在做特征工程的时候很多数据要求实时性,数仓部门如何满足数据完整性
例如做策略的时候,需偠大量的标准数据数据产品怎么依据业务需求设计表结构以及数据清洗?
例如评估策略效果的时候风控产品如何设计分流灰度来做冠軍挑战者实现效益最大化?
这样的问题还有很多其中很多都是牵一发而动全身,公司的资源是有限的公司里也不是只有风控,大家要靠着业务和营销吃饭的
这些问题,需要整个公司从上而下认识到这个风险整体考量业务和风控的平衡,争取公司利益的最大化
在这個互联网文明大趋势的浪潮下,内容风控将是很多公司的命门而诸多先行者早就靠自己的积累吃尽了早期野蛮生长的红利,同时树立起叻极强的风控壁垒
这些壁垒需要大量的时间和资源投入,不是一朝一夕就有的全部都是非卖品。
这对于后来者而言是非常难的一件倳。
但熬过这一劫就是羽化登仙。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。