首页 >  深度 >  详情

经济学家熊伟:算法的不平等(全文)

2023-07-10 18:54:39来源:新经济学家智库

作者: 熊伟,美国普林斯顿大学金融学讲座教授及经济学教授、香港中文大学(深圳)经管学院学术院长 (图为熊伟教授,资料图)

本文由新经济学家智库根据2023年7月4日,中国数字经济发展和治理学术年会(2023)上,美国普林斯顿大学金融学讲座教授及经济学教授、香港中文大学(深圳)经管学院学术院长熊伟的发言实录整理,略有删改,内容未经本人确认:

熊伟:


(资料图片)

Data Privacy and Digital Demand

数据现在在中国已经被确认是一个生产要素,是五大生产要素之一,和资本、劳动力、土地并列。 我想说数据作为一个生产要素,它和其他的要素还是有很多不一样的地方,尤其一个关键的地方就是数据需要分享。

尤其是消费者的数据,它需要消费者首先要分享数据,才能被使用,被广泛的商业应用,最终能助力我们数据经济。但是数据分享下面有一个很重要的问题,就是数据隐私。

大家都知道各国近年来都推出了各项的法律,从欧盟的通用数据保护条例到我们国内的个人数据保护法,这也是两年前通过的,美国日本其他许多国家也都有类似的法案,这些法案通过的目的都是要保护消费者的数据隐私数据安全等等。

但是这里有一个基本的问题是消费者他们关心隐私,到底怎么关心的?他有担忧,他到底担忧什么?还有要分享数据,他怎么做他的数据风险的选择,从消费者行为,从经济的各方,实际上我们对这些了解是很少的。

所以今天我想聊一聊,从经济学的角度来说,我们怎么理解消费者的数据隐私的偏好,还有他怎么做数据分享的这些选择,从一个偏好的角度来讲,数据隐私是一个什么样的偏好。

其实最简单的想法,就是隐私是一种天生的偏好。有一些人他生下来就不愿意让自己的事情让别人知道,这是一种天生的偏好。

但是从很多经济行为来讲,可能不光是天生的,更多的是一种工具性的,因为把自己的个人信息披露出来,让其他人、让商家、你的同事朋友知道之后,可能会影响各方面,所以对个人可能会有影响。我想从经济学讲,其实数据隐私是一种工具性的一个偏好,是因为分享数据能得到好处,或者分享数据带来成本或伤害。

当然我们知道好处显而易见,分享数据,很多的平台,很多APP能更好的了解你的偏好,知道你爱看什么样的短视频,知道你喜欢买什么样的东西,对你需求最精确的定位,你需要的东西可以快速的推送给你,这显然是一个很好的便利。你打个车平台需要知道你在哪,找到离你最近的网约车,这是一个很大的便利。

当然暴露你在哪,也有可能带来其他一些你不想要的后果。成本是什么?经济学学术文献里有各方面的考虑,就是披露个人数据的成本有几方面,我这里粗提一下,一方面是价格歧视,就是从消费者的角度来说,如果我买一个东西,商家知道我喜欢什么东西是好事,因为他能很快把我想要的东西推送给我,但是他如果知道我到底有多喜欢,我的底价是什么也不好,因为他收我的价格可能会推到最高。在我最高能接受的价格,这样我付的价格有可能比别人高。因为他知道我的接受度是什么,这是一种价格歧视,这也是一个成本。

可能每个公司在这方面的定价方式不一样,有的时候还是很担忧,像航空公司知道你是商务旅行,反正自己不付钱,所以可以多收一点。这个都是有可能的,还有一个可能的是所谓的社会歧视,就是因为把你的一些数据,比如你平时爱看的短视频,有一些如果让你的朋友知道,你平时老看这种东西,对你的形象可能会有损害。如果我手机上的一些信息全部让别人看见,尤其是亲戚朋友看见,这个不一定是你想看到的。

还有一个方面我也提一下,就是说保护隐私,有的时候也是为了保护个人的脆弱性。企业都是专业的,而且现在在大数据时代,就是说他用很多的算法,他知道你的脆弱点在哪。消费者有的时候不是总是能控制住自己的消费欲望,如果把你的数据披露出来,就可能把这些脆弱性给暴露给商家了,他是不是会推送一些你想抵御的这些诱惑,你就不一定总能抵御得住。

所以有的时候保护个人隐私,也是保护个人的一些脆弱点。这几年我个人也从事了一些隐私的理论研究,这里我提一下这两年一直在做的一个理论的模型,关于数据分享,尤其在线的数据分享跟消费者个人的一些自我控制的问题。消费者如果知道自己有弱点,把数据保护起来,也就是把自己的弱点保护起来。

当然每个人的数据可以做分享,你选择要不要分享给商家,分享给这些在线平台。它的一个好处就是数据分享可以更便利,这些平台帮你找到最需要的商品,你最需要的服务,精准的定位,但是坏处就是你要把你的弱点暴露了,所以有可能在某个点上你会忍不住买了一些你不想买的东西,超出了你个人觉得应该的预算。

所以基于这个我们做了一个理论模型,就是考虑这些相关的信息数据分享,尤其是在一个宏观的层面,它有各种的外部性,有正的外部性,也有负的外部性。

之前何教授也提到了个人的分享,它帮助这些平台利用大数据的方法确认整个群体的一些特征等等,因为这个平台能更好的了解消费者的需求,但同时也更好的发现他们的脆弱点,所以这里有正的负的两方面,它的好处显然就是更多的数据分享可以改善效率。平台可以帮助消费者匹配到他最想要的数字服务或者他最想找到的商品,平均来讲,这个应该是有一个正向的,可以改善匹配的效率。

但是这里也有一个我们所谓的算法的不平等,因为算法也把大家的一些问题暴露了,有的人问题多一些,有的人问题少一些。有些人他有一些弱点,尤其比如说他好赌,实在管不住,他问题一旦暴露,经常有人找他。在平台上这事情很麻烦,所以有这些弱点的人,对他的影响尤其大。

所以从这一点讲,数据分享总的来说是改善了效率,但是也对不同的人有不同的影响,对某些人的影响尤其大,所以负的外部性分布不是平均的,这也是一个可能值得思考的问题。

今天我想深入谈消费者在做数据分享的时候,他是怎么做数据分享的。这些年因为数据经济越来越蓬勃发展,所以也有更多的研究。实际上这些研究,一旦提到数据分享,大家马上想到的是所谓的数据隐私悖论,就是前些年很多的研究发现,数据隐私你要问消费者,他们很多时候在问卷调查里会说他们很担心这个事儿,他们很在意数据隐私的保护,但是同时很多时候大家又发现,尽管他说他在意,但是你给他一个小的好处,比如说给他买一个免费的午餐,他也就把电话号码把他的住址什么都告诉你了。

就是平台上给他一点小的好处,他也就随手把这些信息告诉你了,所以在学术界,大家就提出了有这样个悖论:他到底在不在意他的隐私,他在意的话,他就不应该这么随意的就把个人信息告诉了别人。

这个现象在数字平台上尤其常见,因为大家逐渐发现,很多App都需要数据分享的,似乎消费者也很愿意分享那么多数据。所以就有悖论这么一说,这个也经常在各种各样学术或者政策讨论上出现。

怎么来解释悖论?有不同的解释。有人说其实消费者尽管他们说他在意,也许他并不真在意,因为他真在意他就不应该这么随意的分享他的数据。也有人说悖论表示消费者已经完全的放弃了,因为在现在时代你不分享你数据,这些APP都用不了,所以也只能分享,尽管他很在意,但是他实在没有办法,这是一个无奈的选择。

还有一个法律界有很多解释,尤其在西方的文献里,还有一个说法。悖论存在是因为在问卷调查的时候这个问题提的不对,因为他提问题的时候有的时候提的很空泛的,你在不在乎你的隐私,当然大家都说在意,他没有问对他到底在意什么。

这个问题跟它的实际的分享,不是很精确的匹配了。举个例子,这是在支付宝的平台上做的一个问卷调查。大家知道支付宝上其实是有很多第三方的小程序的,每个小程序使用之前都需要用户做一个数据分享的授权,你第一次登录一个小程序的时候,都会有一个授权的过程,因为只有授权之后才能用这个小程序,这是数据经济时代很常见的一个选择。他们怎么做这些选择也可以帮助我们了解现在我们消费者的实际行为。

这个调查是2020年7月份做的,就是在支付宝的信息的窗口,我们给他们送了一个问卷去,大概有1万多个用户点开而且完成了调查。问了他们12个很简单的问题,关于数据隐私分享的一些问题,也因为这个是和支付宝合作的,所以我们也匹配了这些用户他自己实际的数据分享的一个情况。

我们问了他们你关不关心你的隐私,在线服务的隐私,当然这个问题回答显而易见,93%的人都说他们很在意,6%的人说他们在意,只有1%的人说他不在意。当然这个问题问的太空了,就是说在不在意隐私,所有人都会说我在意。

然后我们也问了他们,在不在意支付宝的隐私保护,回答也还相对正面,48%的人都觉得支付宝做的不错,39%的人说他们做的可以,只有少量的5%的人说不好,平均而言还是相对比较正面的。

当然最关键的问题我们是问他,每个问卷里你们在不在意,在支付宝上的小程序分享数据时数据的隐私问题,将来我们要实际观察他们对小程序的数据分享。这个问题的回答的差异性就比较强了,因为这个问题问的比较准确一些。有46%的回答是他们十分在意,有39%说他们在意,还有15%说他们不在意,所以这个还是有差异性的。并不是说大家上来就说我在意,有十分在意的,也有在意,还有15%他不在意。所以之前我也说到有法律界很多学者都说你这个问题问的不对,说对不上。

然后问完这个我们就匹配他们后台到底分享了多少数据。还挺有意思的是回答问卷的人平均在两年多一点的时间里面,他们登录了46个小程序,量还是很大的。然后平均他们授权了34.2个小程序,就是分享他们的数据,因为我们知道他只有授权数据分享之后他才能用小程序。

但是他们也不是授权了所有的小程序,不是说他上去一个就授权,它实际上只授权了34个,从比例来讲,大概是75%,所以他们实际上是拒绝了大概25%的小程序。可以看出来,并不是这些消费者完全无奈的放弃了他们的选择。

他是在做选择的,尽管这个比例75%是高还是低,这不好说,但至少他们是拒绝了25%,所以这里他是很主动在做选择的。我们其实还看了一下,他们授权之后,后面他用了多少,比如说一个月之内回来登录多少次,每次看了几页,还花了多少时间我们都看了,回头我会提一下。

所以把这些东西放在一起之后,我们回到数据隐私悖论这个问题。我提到在问卷调查里面关键的问题,你在不在意在授权小程序的时候数据隐私这个问题上,回答有三群人,46%的人是十分在意,39%的人在意,还有15%的人是不在意。这三群人我们做了一个比较,哪类人授权数据分享最多。一个粗略的想法应该是不在意的人应该授权最多,因为他不在意,然后特别在意十分在意这群人应该分享最少。

我们做了一个具体的比较,因为调查是2020年7月份做的,我们看了之前一年还有之后一年半,大概两年半的时间,右手边的图是问卷调查之前一年的数据。蓝色的就是他们进入了多少个小程序,橘红色的是他们最终授权了多少个小程序,可以看见非常在意的这群人,他们在一年的时间里进入了16个小程序,授权了11.3个,然后在意的这群人他们平均进入了15.5个小程序,授权了11.5个,然后不在意的这群人是进入了14.3个,然后授权了11.2个。

可以看见最终授权的平均数几乎一样,这就有点悖论的意思了。他们有人说很在意,有人说不在意,但是你看这一年的时间里面他们授权了多少都一样。非常在意的那群人,实际上他进入的小程序平均是多的,所以他的拒绝率是高的,但最终他授权的数量一样,这是个挺有意思的结论。

然后我们还看了调查之后大概一年半时间,他们是授权更少还是更多。因为有的时候大家也许搞不明白这有什么后果,有可能反正糊里八涂就点了,所以我们看了之后大概一年半的时间,反而更有意思,就是在之后的一年半,非常在意的这群人,他是进入了33.4个小程序,授权了23.8个,随时间看,实际上他进入的更多,授权的也更多。然后在意的那群人是进入了32.8,那么授权24.6,不在意的那群人是进入了27.8,授权22.5,实际上可以看见从授权的总数来说,差异性反而更强了,在意的那群人反而授权的最多,不在意的人反而授权的最少。

而且总量来说其实大家都增加了,因为时间我应该一年对一年,这个是后面时间稍微长一点,但是你除个1.5发现还是比上面大。一年半过去之后,这个现象实际上变得更糟了,而且不是更好了。说他很在意或者在意的人,他授权还是越来越多,不是越来越少,从这种意义上讲,悖论似乎变得更严重了。

尽管之前那些研究一般都是问个学生,在校园里问问也就罢了,这里我们是真的是在一个数字平台上,而且是中国最大的一个数字平台。而且我想在座的朋友可能都自己也做过这些授权的,所以这个是一个很贴切的场景。我们的确看见了这个悖论,我们现在怎么来理解这个事情。

实际上我们还做了一些各种回归的研究,我们可以控制这些人的背景、年龄、使用支付宝的时间,代表他的一个数字经历等等。其实这个现象都在那,就是没有显著的区别,在意的人跟不在意的没有显著,甚至是在意的人他授权更多,这个现象可能是这样的,而且统计上是一个很稳健的现象。

怎么理解这个现象,大家也许可以说他问卷调查不准,问卷有的时候不在意就瞎勾两下。我想瞎勾的人肯定是存在的,但是从统计量上来讲,我们发现他也不是完全瞎填的,因为我们说那些填担忧的人,我们会发现他们取消授权或者他去更改支付宝平台上隐私保护的设置的,就是那些在意的人还是更可能去更改那些设置。因为原始设置其实是相对开放的,所以那些在意的人我发现他们还是更可能去更改那些设置,来保护他个人在支付宝上面的数据。

所以总的来说尽管一个人肯定是有可能是瞎填,但是总体来说那些填在意的人他的确还是更在意的,所以问卷并不是说是瞎填的。这就回答了为什么这些对隐私在意的支付宝的用户,他会最终授权更多的数据分享。

在学术界有人说这个是因为他们授权的时候有各种的行为偏差,他们太想用这个东西,不在乎将来的成本。我刚刚也给大家展示了,一年之后他们还在授权那么多,如果你真是只是因为一个短期的,可能回头就后悔了,那就应该授权会少的。也有人说也许他们被搞糊涂了,不知道授权到底它的后果是什么,但是一年多过去了,他授权越来越多,这个行为本身就反映了不仅仅是他被糊涂了,他没有搞明白后果。我觉得这里是有一个更深层的原因的,就是对数据服务需求更大的人,用的更多,也越担忧。

我们比较一下这三组人,他们授权之后谁用的多。回归我就不讲了,因为我们有一些测量,他一个月中对小程序有多少天是活跃的,他每次登录之后打开了多少页,然后在里面待了多长时间,我们这个都可以量的。

数据平台上这些都很方便,所以我们发现有意思的一个事就是那些说他们担忧或者十分担忧的用户,实际上他是活跃用户,而且相对来说是更活跃的用户,这就反映了这一群人实际上对数字服务的需求更大。尽管他更担忧,但他对数字服务的需求更大,所以这就能帮助我们解释为什么他一边说他担忧,但一边他又分享,而且分享很多。刚刚我展示的一些图表,就是反映的确是有这个悖论,但这个悖论并不是像大家想象的是一些行为偏差,或者是简单的行为偏差,或者是他们在这个数字经济时代,就放弃了他对个人隐私的保护,而更多反映的是一个更深层原因。因为数据隐私应该说是数据经济发展的衍生品,因为之前没有数据经济,也就不会有隐私的担忧。

当数字经济不断的发展,因为更多的数据要分享,同时带来数据隐私,越来越多的数据分享,它的好处是数字服务的提供也越来越精准,服务业也做得越来越好,所以用户也享受到更多的便利,就是说它带来的便利也是不可否认的。而且实际上越多的数据分享,便利是越来越大,所以的话这两方面都会随时间是增长,将来大家会对隐私更担忧,但同时也会分享更多的数据。■

入群了解更多经济学观点与前沿动态

关键词:

[ 相关文章 ]