场外风险与政策研究报告
重点内容已加粗黄色处理,方便希望速读的客户
币店风控团队用了近四年的时间对市场交易行为进行分析和调研,我们抓取了火币、币安、欧易三家主流数字资产交易所的风控数据,建立传统评分卡(logistic regression)传统评分卡一直在银行信贷业务中成功实践了几十年,其优势在于:泛化性强,稳定性好,线性模型可解释性强。少样本就可以训练模型。其劣势在于:特征要求强相关,线性特征对于挖掘的信息价值相对有限,模型效果相对弱于机器学习算法。
截止到2021年8月1日的数据,币店风评部门根据抽样实验,让参与调研的客户以长期大额合作为名义要求曾经合作过的商家用半年以前付过款的卡向测试账户尝试支付1分钱以核实对方付款账户是否存在异常,默认不配合的商家为坏样本,考虑到需要排除非柜因素,这次实验我们准备了测试专用微信账户进行收款(因为即便卡被非柜,只要不被冻结仍能绑定微信转账),并结合机器学习风险模型测算出的结果令人触目惊心,三家交易所的商家冻卡概率接近95%,大客户冻卡率接近90%,大客户满足两个条件:月交易额100万元以上,且连续交易时间不低于半年。交易5次以内的客户冻卡率达31%,其中38%的人三天以后就解了,62%的人被续冻半年以上,被续冻人群中续冻两次以上即续冻时间长达一年以上的占比91%。交易所的冻卡问题的原因在于其客户面向大众群体,且收入严重依赖于此,头部交易所虽然做了很多风控方面的努力和尝试,但一时无解,后面的风控模型分析会有详细讲解。这也是币店放弃场外卖币业务,利用自身优势,主动对接优质企业的原因。2020年伊始恰好是机构元年,大量企业和专业机构加速入场,需求活跃,撮合优质机构和个人的资金对接,不仅可以使得企业交易行为持续合法的进行,也保障了卖币的个人资金安全,彻底避免感染黑钱的风险。有人不禁要问,既然有些国家不支持,为什么该国企业还要大举收购数字资产呢?这就不能不提到数字资产的性质,它是全球流通的虚拟商品正在被全球贸易体系广泛接受,这就好比一些国家采取网络管制,该国企业需要通过申请合法地连接海外服务器来扩展其外贸业务,而个人私自搭建海外服务器是违法行为。未来有些国家如果希望稳定国内经济、从维护本国企业的国际贸易出发,也不敢贸然全面封杀,而是采取弹性政策,即便对数字货币采取严厉管制也是针对个人,对个人也不是一棒子打死,而是交易过于频繁和大量的才会触发人行风控限制,银行围堵虚拟货币的政策出发点也不是禁止买卖,而是防范洗钱犯罪和投机炒作活动,个人和个人之间的交易行为还受到民法典的保护,而针对企业会在政策上“开一道门缝”,例如进行额度申报和备案等,任何国家和政府绝对不会也没能力将网络数字货币的流通性堵死,而且企业自身的出金渠道是非常广泛和灵活的,随着人们对数字货币的接受程度不断提高,企业可以使用网络数字货币支付给其他企业用以购买资产和技术,以比特币、以太坊为首的头部网络数字货币已逐渐抬头成为硬通货。
在经营模式宣传上,市面上商家常见的宣传策略有以下几种,我们将逐个通过以往市场实操经验分析其中的虚假部分:
某商:卖币严查流水,保证安全
币店揭秘:假!卖币给个人不可能做到完全不受市场黑钱感染,随着时间的推移这种感染是必然的,后文中会通过专业化的分类器样本进行详细说明。
某商:我的是外汇资金,保证安全
币店揭秘:假!外汇本身不合法,资金走的是地下钱庄,冻卡家常便饭。就算从柜面存款,一旦钱庄被捣毁,您的收款卡仍会被牵连。这种资金像毒药一样让您上瘾,短期可能没出事,长期对您个人非常危险。甚至因为交易次数和金额往来过多,即便非主观故意,仍将面临为他人犯罪提供便利的刑事风险。
某商:我的是理财提现
币店揭秘:假!第三方存管账户经常存提现会触发风控导致被封号,转入的银行卡也很容易被限制非柜面业务,大额长期交易不具备可行性,商家代价太大,实际不见得会这么操作。
某商:我用三类电子银行账户过滤
币店揭秘:假!遇到不干净的钱会遭遇一连串冻结,无法做到过滤效果!
那么市面上到底有没有过滤资金的方法?有,前面提到的股票基金理财存管账户,但只能小额,且不可多次操作、无法解决冻卡问题、您的个人征信等风险仍然暴露。有没有杜绝黑钱的方法?答案只有一个,彻底隔绝传染源!目前币店采取的模式可取,但是对接门槛高、不是一般商家能拥有这类资源。
那他们是怎么操作的呢?市面商家以前多为卡商团队转型,有大量银行卡资源,商家账户长期只存币不留钱,出售前会有专人检测卡片是否正常,被冻结马上换一张卡。
下文将详细介绍我们团队出具此份风控报告涉及的技术标准,供相关行业人士共同学术交流使用。
模型评价
头部交易所采用的风控风险模型是一个概率模型,一般是希望求出一个和真实概率分布最接近的概率分布函数,而不是寻找一条干净的边界把人群分为两类。在对风险人群建模的时候,人群在空间中是连续的,人群的标签由一随机事件决定。人群样本在空间中是一片连续的点云,不同位置的云代表了采集到的不同的人群信息,不同的人群有不同的冻卡概率,概率随空间的变换是连续的。但为了直观易于理解,我们用下面的二维图对建模原理做出解释。
如示意图红色代表坏样本,绿色代表好样本,黑色直线代表模型分类器。可以直观的看出,分类器很难100%对好坏样本做出区分,总有部分样本因为分类器的局限性导致对样本的判断错误,这也就是为什么坏用户会被放进来的原因。另外,距离分类器越远的样本越纯,越近则约混淆。当然,越好的模型生成的分类器对用户判断越准确,从而降低整体分类空间的坏用户比例。值得注意的是,警方一般冻结六个层级,符合六度分离法则,黑钱呈现细胞分列式速度扩散,随着时间的推移,好样本也会因为黑钱分布的随机性特点逐渐转化为坏样本,随着交易行为的持续,冻卡率无限接近100%。这就解释了为什么现行最先进的风控技术手段放在更长的时间维度上对于涉黑涉诈资金的防范仍然是束手无策的。类似的现象我们在自然界也能列举出来很多,比如医学界的癌症治疗难题至今未被完全攻克。
还有一种类似化疗式的治疗方案就是目前币安所采取的措施,定期关闭商家申请渠道,暂停向市场输送营养,让坏样本自生自灭,保留好的样本。但是副作用也是显而易见的,这直接导致币安的场外市场始终无法做大做强。增强了安全性就牺牲了市场份额,更何况这种自杀式疗法无法根治黑钱的传染链条,并没有改变长期交易冻卡率无限接近100%的宿命。币安高层目前并无意将场外市场作为重点发展对象,因为在okex的实际控制人中途出事风波后,币安的币币交易业务迅速占据市场头把交椅,成为其现金奶牛。场外交易市场作为本身不赚钱却惠及全行业的公共服务产品一直由火币挑起大梁。而火币其实目前也希望压缩自己的法币市场规模,使其规模与其交易所的增值业务需求相匹配。前不久火币无限期关停了大宗交易市场。
机器学习风险模型(Machine Learning)随着大数据的出现,机器学习慢慢焕发出其生命力,如Random Forest、GBDT、XGBoost、LightGBM等集成学习方法在风险模型中得到广泛应用,可以通过集成学习将弱分类器打造出强分类模型。其优势在于:引入了非线性因素,模型拟合能力更强;支持更多弱特征入模,而不必像评分卡模型需要花大量时间筛选特征。而其劣势在于:由于引入了大量的非线性因素,模型可解释性降低;容易产生过拟合现象,泛化能力下降。
大数据
大数据是风控的基础,做风险评分模型这个项目前,先得积累足够多的数据(样本和特征),不然真是巧妇难为无米之炊。对洗钱、欺诈等犯罪行为全方位的理解,一般可将风控数据分为四部分,自上而下,这些数据与平台用户信用风险的相关性逐渐降低。通常,在金融界我们也称为强金融属性和弱金融属性数据。为此,我们对接了火币的风控部门,目前他们采用的大数据手段较为先进。
建模流程
使用上述数据,采用传统逻辑回归和XGBOOST等机器学习多样化的技术方法进行模型开发,采用最先进的算法组合选择,确定最终决策模型。同时线上采用冠军和挑战者模型策略进行比较优化。下表为完整建模流程和使用的技术:开发时效快:从数据的清洗,变量选取,和模型建立整个周期2-4周。实时监控:同时自动化的规则引擎和python秒算环境都支持模型多种部署方式上线模型上线后可以实现T+1自动化的实时监控,及时预警发现问题解决问题。
在评估模型效果的时候,通常使用AUC,KS这样的描述总体区分度指标。下图表示的是KS和AUC的示意图,通常KS>0.2的模型即可使用,KS>0.3的模型就是一个不错的模型了。
评分卡
根据开发出来的评分模型,我们对验证样本做打分预测,其评分等级分布如下表和图。评分等级越高,则该等级的坏样本占比越少。模型分类器的区分能力越强,其不同等级坏占比所形成的斜率就越大,但很难实现好的评分等级的用户没有坏样本。因此风险模型与经过数据挖掘的风险政策相结合,可以进一步提升风控系统对风险的判断能力,从而达到风险收益和用户成本的平衡。如下表所示:我们的评分模型有很好的区分度,最高等级的坏样本占比仅为最低等级的1/25。