当前位置:首页 > 保健 > 心理 > > 网络评分体系真的有用吗?(2)

网络评分体系真的有用吗?(2)

发布:2021-06-24 19:14 | 来源:健康日报网 | 查看:
分享到:

摘要: 卡斯帕罗夫对阵计算机“深蓝” 1999年6月21日,棋赛开始。俄罗斯棋王执白子,首先挪动了他的“国王”。在24小时的悬念之后,大众队做出了回应:一招“西西里防御”,给出了对卡斯帕罗夫开局的最佳回击!大众队看来

卡斯帕罗夫对阵计算机“深蓝”

1999年6月21日,棋赛开始。俄罗斯棋王执白子,首先挪动了他的“国王”。在24小时的悬念之后,大众队做出了回应:一招“西西里防御”,给出了对卡斯帕罗夫开局的最佳回击!大众队看来不是外行,主办方放心了。让对决继续吧!
这一盘棋下得高着儿迭出。业余大众队不仅玩得十分专业,还不乏出其不意的奇着儿。比如他们走的第10步,在高水平国际象棋赛事中前所未见,足以载入史册。那一步究竟是断送胜利的烂着儿,还是大众创造出的神来之笔?实际上,这步棋事后被卡斯帕罗夫本人赞为“卓越的理论创新”,也成为后来国际象棋比赛中常用的着数。很明显,从这一步开始,大众队占了上风。然而棋王终究是棋王,没那么容易扳倒。在连续4个月的艰苦厮杀之后,棋王卡斯帕罗夫仅余3子,下出了他的第64步……将!
大众队可谓虽败犹荣。他们不仅一直与棋王不相上下,还创造了新的国际象棋经典招式。“乌合之众”的判断远远超出我们的预期。
研究者们的注意力越来越多地转向更实际的问题,比如依靠综合数十人给出的解决方案,来寻找困难问题的最优解。我的一部分同事走得更远,甚至开始专门关注“医生群体的智慧”。同事们的研究显示,在一系列临床问题上,诸如患者是否需要手术,或者乳腺超声检查是否真的查出了癌细胞等,情况就像网络大众队与棋王卡斯帕罗夫势均力敌那样,一群医科大学生的综合判断似乎比一位经验丰富的专科医生的个人判断更为准确。
我们今天正逐渐认识到这一现象的内在逻辑:它并不属于哲学或心理学的范畴,而是一个概率论和统计学的现象。事实上,对于上述无论哪一类“挑战”,大家对正确答案都有一个模糊的想法。当然他们会出错,估计得太高或太低,但如果样本量足够大,个人之间的误差会相互抵消,让人们思维中的共同之处凸显出来,从而得出接近正确答案的估计。
要把这个现象视觉化,不妨想象一下掷飞镖游戏。一大群人一起玩飞镖,当然是有的人甩高了,有的人扎低了,有的人偏左,有的人偏右。但这些飞镖落点的平均值还是会相当接近靶心。那些误差彼此抵消了。即便你喝醉酒又蒙着眼,投出了几次极差的成绩,最终的平均落点也不会离正中太远,毕竟所有玩家投飞镖时瞄准的都是靶心。在这种情况下,人多势众确实胜过专家的单枪匹马。假如你约上20来个朋友,就能轻易击败荷兰的世界飞镖冠军迈克尔·范格文(Michael van Gerwen),前提是裁判同意让大众队每人投一次,然后求平均值。
然而,并不是所有情况下“乌合之众”都最聪明。首先,参与群众得对问题的解决方向有基本的直觉才行。还是以飞镖来举例,如果群众队中的成员根本不知道靶心在哪儿,那他们的飞镖将完全是随机投出的,即使求落点的平均值也没用。真正关键的因素还在于,群众不能都犯一样的错,必须错得花样百出才行。如果所有没扎准的镖全在靶心的左边,平均落点也会向左偏移。只有当扎歪的飞镖分布均匀,平均值才可能在中间。这就是斯科特·佩奇(Scott Page)著名的“多样性预测”定理:判断的多元化,包括错误的多样性,是“群体的智慧”生效时必不可少的因素。
不幸的是,多样性这一关键因素恰恰是相当脆弱的,它的头号敌人就是我们前面研究过的人际网络中的社交影响力。同样的竞猜游戏,如果个人在发表各自的估计之前有机会先跟别人讨论上5分钟,那么大多数人的判断都会趋向同一种错误。就好像有的飞镖上装有磁铁,当其中的一枚接触飞镖盘后,其他的飞镖全都会朝着它的方向偏,从而失去错误的多样性。社交影响力的负面效应可以表现得很快。近来有大量的研究证明,一个小小的暗示就足以让大众判断的平均结果偏离正确答案。这就是为什么我在日常生活中从来都没办法向朋友们证明“群体的智慧”有多妙;不管我如何三令五申不能跟其他人透露自己的猜测,在我说完题目的那一秒钟,总有那么一位缺心眼儿的朋友直接喊道:“埃菲尔铁塔?至少得有500米吧?”这下谁也玩不成了。因为他的这个小小提示会在其他人的脑海里深深扎根,把整群人的平均预测值带离正确答案。
当大众也找不着北
在网络的世界里,求大众观点的平均值已经成为一种流行做法。亚马逊、猫途鹰(TripAdvisor)、谷歌+等众多网络聚合平台都采用类似于“群体的智慧”的模式,邀请网民到自己的网站来评价产品,然后通过权重算法得出一个集体的评分。通常,借助从一星到五星的量表,用户就能对一本书好看不好看,一双鞋子舒服不舒服,一款相机的像素如何给出自己的感受,并让其他网民知道。

网络评分体系真的有用吗?

这个做法如今变得如此普及,是时候把它当作一个社会现象来认真研究了。今时今日,什么都可以评分。喜欢昆汀·塔伦蒂诺的新片?去电影网站Allociné给个五星吧。觉得某家酒吧的气氛有点闷?上餐馆点评网站Yelp给它打个三星。觉得这个苹果挞的食谱实在太甜了?立刻上食谱网站Marmiton给个一星差评。
人也可以打分。不管是你的数学老师,还是上次跟你拼车的同路人,是你家附近的面包店师傅,或是你的一夜情对象……谁都逃不开。连私人医生也不能幸免!谷歌+上,那些被评为“冷漠”“粗心”“毫无同情心”的大夫会立刻被判低分,而另一些“热情又有能力”的大夫会得到五星好评。虽说国家医师协会理事会始终不认可这套评分系统,那些钻牙时下手太重的牙医照样会在网上得零分。
评分体系如今无处不在,举足轻重。因为群体判断在网络上公开后,一件商品能否畅销,或者服务能否得到认可,网民的打分很关键。他人对网民个体的打分也是如此。那些得到差评的个体很容易失去他人的信任,下一次去度假时,很可能在爱彼迎(Airbnb)上找不到房子,在优步(Uber)上也叫不到车。美国专门给饭店、酒吧评分的网络平台Yelp,现已变成普罗大众的米其林指南。大众只要用手指轻松点击,就能决定哪家饭店火爆,哪家饭店破产。商户在这个网站上每上涨或降低一颗星,营业额就会增加或损失10%。如果汤里掉了一根头发,或者服务员像门神一样凶神恶煞,那么饭店要小心了。网民们可不会客气。
你可能会问,这有什么问题?科学不是已经完美证明了群体智慧有用而且集体判断值得参考吗?事实并非如此,因为社会影响力依然存在。比如锡南·阿拉尔的团队做过一个让网民评价他们对网络新闻感兴趣程度的实验。实验者随机抽取了10万条新闻,每篇文章刚发出来,科学家就先上去给它打上第一个分数。结果显示,如果首条评价是肯定的,这则新闻的总平均分会升高25%,不管随后跟进了多少真实的网民评价。这是因为网民打分前都习惯先看看前人打的分,难免会受先前意见的影响。“从众效应”的强大之处在于,不管被评价对象的真实水平和质量到底如何,只要第一个“假评”是好评,后面的人也更倾向于给好评。
另外,用户间心照不宣的“互贿”心理是使评分系统失衡的另一个因素。在一个人人互评的世界里,为了给自己换回一个好评,还有什么比先给对方一个好评更有效呢?在优步上,司机跟乘客之间要互评;在爱彼迎上,房客跟房东互相打分。在北美的一些中学里,老师给学生的分数写在成绩单上,而学生给老师的分数体现在“评师网”(Rate My Professors)上。在这种情况下,也许老师在给学生的家庭作业打分时高抬贵手,就会使自己的网评多一颗星。事实上,2002年的一项研究显示,美国高校出现了普遍高分的现象,部分原因确实在于引入了学生给教师打分的系统。简单来说,我们每个人都有小辫子在别人手里,胆敢第一个打差评的人,就等着受到报复吧。
鉴于评分系统已遍布网络,无处不在,某些互联网企业趁机在网络上推出了一种“聚合通行证”。比如2015年成立的法国初创公司Famust把个人在不同网站上得到的分数集中起来,给每个人制作出一套社交声誉证件。最终我们可以依此获得任何人的性格综述:让·克劳德,谷歌+得分4.3的敬业药剂师,网约车软件Blablacar得分4.2的好司机,下厨软件Marmiton上的4.7星大厨,不过,他对追女人可不大在行,在交友软件Tinder上只有1.5分。这不禁让人想起英国电视剧《黑镜》的一集,未来城市的居民们在每一次互动后都互相评分。这个反乌托邦故事描绘了社会声誉不断恶化的主人公是如何一步步坠入地狱深渊的,意在警醒我们小心此类系统的滥用。

《黑镜》第三季第一集剧照

相关文章