蚂蚁金服举报魔蝎科技传言背后折射的巨头与爬虫纠葛

放大字体  缩小字体 2019-10-02 12:09:42 作者:责任编辑NO。邓安翔0215浏览次数:9284  
爬虫带来的数据失真问题或许不小。有一个说法是,互联网上50%的流量都是爬虫发明的。

自9月初开端,一场由爬虫而引起的第三方数据风控公司漩涡不断分散。先是魔蝎科技、新颜科技相关人员被警方带走,之后聚信立、公信宝、同盾科技等纷繁被查或被卷进。

9月26日,有职业人士向零壹财经表明,此次魔蝎科技被查,或许系被蚂蚁金服告发。零壹财经向蚂蚁金服官方求证此事,蚂蚁金服未予回应。

此事现在无法核实真假,但是在这条职业传言背面,折射出掌握着数据的巨子,与爬虫公司之间隐现的对立与博弈。多位业界人士向零壹财经承认,互联网巨子触及金融的隐私数据被爬、并被转卖的现象是实在存在的。

这是近几年互联网金融飞速发展中呈现的新问题。此前,互联网巨子数据被爬的现象一向存在,但是由于被爬数据大多为揭露数据,危害不大,巨子们一般不予追查。

但是,金融相关数据往往触及个人财产和个人隐私,其数据维护的重要性逐步上升,状况或许正在发生变化。

风控被抄袭

与前几年传统征信所持的观念不同,京东、淘宝等互联网巨子的数据关于金融告贷的危险操控其实是十分有用的。

传统征信人士的观念以为,京东、淘宝等电商买卖数据,不是借钱还钱的信誉数据,关于金融危险操控效果不大。

但是现实证明并非如此,最少在消费金融范畴,京东淘宝的数据价值很大。一般来说,消费金融贷前危险操控分两个部分:反诈骗和信誉评价。浅显地解说,便是有人来借钱,第一步要承认这个人身份的真假,是不是诈骗,第二步是评价是否要借给这个人,第三步是借的话,借多少钱适宜。一位头部消费金融公司风控总监告知零壹财经,在这三步傍边,京东淘宝等电商数据都很有参阅价值。

在第一步中,在京东淘宝买过东西的,东西都是要送到顾客手中的,所以京东淘宝的个人信息一般都是实名认证,并且经过实践验证没有问题的。这个实在性是超越通讯录的。在第二第三步中,在京东淘宝等电商网站上买过东西的顾客,金融组织能够经过消费记载判别顾客的消费水平。因而,一般做线上告贷的组织,许多都参阅京东淘宝的数据,假如用户授权爬取淘宝数据,爬虫也有时机经由网页端的淘宝进入到支付宝。

消费金融职业界,有许多告贷产品的规划是参照互联网巨子的。一位风控人士告知零壹财经,业界不少公司都会参阅蚂蚁金服和微众银行的危险操控,比方友信金服旗下有一款产品“随信贷”,其请求条件是,满意以下三个条件的其中之一:芝麻分700分以上+1万以上的借呗;芝麻分700分以上+3万以上的微粒贷;征信表现有告贷金额大于10万的银行告贷。

“在商场大多数组织缺少危险定价才能的时分,参照危险定价做得较好的组织,这是业界比较通行的办法。”一位资深的消费金融风控人士告知零壹财经,并且泄漏,一般来说“714”产品简直都会运用芝麻分。这一说法也得到多位消费金融业界人士的承认。

大数据风控职业头部公司魔蝎科技有或许触及相关事务。据媒体揭露报导,9月6日,魔蝎科技遭到警方查询。魔蝎科技的一款中心产品为向放贷组织供给运营商陈述,协作组织规模较广,牵涉业界很多金融组织。另据职业媒体一本财经2017年11月份的一篇报导,魔蝎科技也供给“同业爬虫”的产品,即专门爬取现金贷数据的产品,只需要供给其他现金贷渠道的用户名和暗码,就能够爬取用户的全部信息。

巨子对爬虫的忍受

不过,零壹财经触摸的大多数大数据风控职业人士以为,蚂蚁金服告发魔蝎科技的或许性不大。

原因之一是现在的大数据风控公司的体量都不大。“魔蝎科技的体量,相关于蚂蚁金服来说太小。这么一小块事务,对蚂蚁金服的影响也没那么大。”一位风控资深人士向零壹财经表明,其他多位也持相似观念。

此外,淘宝京东等巨子对爬虫有必定程度的忍受度,由于爬虫有些时分对这些巨子的事务有协助。

一位运营商内部技能人士亦曾服务于互联网巨子,他向零壹财经泄漏,爬虫有时能够协助互联网巨子和运营商进步一些查核目标,因而他们一般都睁一眼闭一只眼。

他解说,每当双十一,淘宝京东发布的目标中有一项是“GMV”,指的是网站的成交金额,首要包含付款金额和未付款的。浅显来说,咱们平常网购时会进行下单,发生的订单中往往会包含付款订单和未付款的订单,而GMV计算的目标便是其二者之和。爬虫,其实便是模拟人的上网行为,爬虫在京东淘宝上爬取数据时,能够进步GMV的量,这会使得数据愈加美观。“只需这些爬虫不影响网站的‘负载均衡’,一般都不会管。”他解说,浅显地说,便是别把网站挤瘫了就行。

零壹财经经过百度查找,搜到淘宝、京东、蚂蚁金服反爬虫的新闻的确不多。只要在2008年,淘宝网站屏蔽百度查找爬虫,制止百度查找引擎抓取淘宝网站的网页内容事情引发广泛重视。

博弈的进程

不过,上述业界人士对现在的猜想并不坚信,由于状况在发生变化。

对爬虫睁一只眼闭一只眼的年代正在曩昔。据36氪2018年8月的一篇报导《反爬虫战役进行了十八年,但全部才刚刚开端》,爬虫和反爬虫的战役一向存在,大数据年代降临之后,爬虫的呈现使得数据失真,这样会极大地增加数据分析难度,而这会影响商业利益。

爬虫带来的数据失真问题或许不小。有一个说法是,互联网上50%的流量都是爬虫发明的。

该报导举了一个比如:最典型的比如是机票的动态定价,网站会结合当下阅读量断定机票的抢手程度并且调整价格。这时假如有很多爬虫在阅读网站,算法就会给出和实际状况并不契合的定价,也损伤了顾客购买到廉价产品的权益。

对巨子来说,数据被爬的烦恼也是有的。一位互联网巨子内部风控人士向零壹财经坦言,对巨子来说,数据被爬的烦恼肯定是有的。他泄漏,职业界都知道的是,魔蝎的淘宝爬虫十分凶猛,并且只是针对淘宝的反爬,在职业界是前列的。

关于蚂蚁金服告发魔蝎科技的传言,他以为假如这是现实的话,他对此事的了解是“一个博弈的进程”,这个进程让魔蝎在做淘宝爬虫方面做到了极致,这也是蚂蚁金服做反爬不能忍受的成果,自己的反爬做到极致,但是自己的数据却在给他人做嫁衣。

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!