Facebook丑闻始末及用户画像技术
记者/赵天宇 编辑/吉菁菁 供图/视觉中国(除署名外)
最近火热的电影《头号玩家》中,有一段细节值得玩味。男主角韦德·沃兹第一次和一号反派诺兰见面时,通过用户画像技术,IOI公司对韦德的个人喜好、生活习惯了如指掌,在“后台语音”的协助下,诺兰对韦德的发问对答如流,甚至一度骗取了韦德的信任。
这样的场景在现实生活中其实并不“罕见”,时时刻刻都在上演。但个人信息的泄露,甚至影响政坛走向和总统选举?听起来有些匪夷所思,却在“世界最大的民主国家”美国真实上演。
一向小心谨慎的Facebook和扎克伯格,这一次却栽到剑桥数据分析公司和他们首席执行官尼克斯先生的“大嘴巴”上。一系列数据泄露事件,不仅可能给Facebook带来天价罚单,也将整个互联网行业带到了十字路口。
▲近日,Facebook创始人兼首席执行官马克·扎克伯格就Facebook用户数据泄露事件在美国国会接受国会议员质询,扎克伯格在两天时间里接受了近100名美 国议员长达10小时的质询。
第一回:剑桥数据祸起萧墙、脸书深陷信任危机
美国人和英国人的关系,用相爱相杀来形容最合适不过。这一次,“英国绅士”又狠狠地“杀”了一次“美国队长”,并且直指现任美国总统特朗普。
今年1月,英国第四频道电视台记者假扮客户,与英国剑桥分析公司首席执行官亚历山大·尼克斯等高层管理人员会面,面对暗访镜头,尼克斯侃侃而谈,表示自己的企业利用Facebook上获取的用户数据,帮助特朗普竞选团队完成了调研、分析,网络和电视推广,“赢得美国总统选举,剑桥分析公司功不可没”。
更有甚者,尼克斯在暗访镜头中不止一次吹嘘,自己和特朗普经常见面。他还曾经在不同场合公开介绍为特朗普竞选团队和其他国家竞选团队作出的贡献。
尼克斯没有说谎,早在2017年,尼克斯接受彭博社报道采访时就曾经表示,公司每年参与多达10起首相或总统选举,包括亚洲、非洲、欧洲和南美洲国家。在他看来,利用用户大数据“操控”政治是技术趋势,理所应当的行为。
总统选举竟然被操控了?尼克斯显然低估了媒体和舆论的分析判断能力:当地时间3月17日,美国《纽约时报》和英国《卫报》共同发布了深度报道,曝光Facebook上超过5000万用户信息数据被剑桥分析公司利用,用于在2016年美国总统大选中针对目标受众推送广告,从而影响大选结果。
比白纸黑字更震撼人心的是视频画面:3月19日,拍摄暗访尼克斯视频的英国第四频道电视台(Channel 4)连续三天播出了这段视频,面对侃侃而谈的尼克斯,人们的猜疑和愤怒聚集到了极点。
节目播出不久后,尼克斯本人发表声明强烈否认第4频道的报道,强调这些数据没有用于2016年美国总统选举。尽管如此,他还是被停职接受调查,剑桥公司也义正辞严地表示尼克斯的观点“不代表”公司的价值观。
当然最敏感的还是特朗普竞选团队,他们在报道出现的当天,就矢口否认与这家剑桥公司有任何瓜葛,并表示竞选所用选民数据全都来自共和党全国委员会,仅雇用这家企业做电视广告,与一些数据员有过合作。
鉴于种种情况,扎克伯格在事发后的第五天也不得不发声承认错误:他承认Facebook没能保护好用户数据,还承诺将对开发者们采取更严格的数据访问限制。并表示Facebook正在积极采取措施确保不会再发生类似数据滥用事件。
在社交媒体领域所向披靡的Facebook,就这样被剑桥咨询公司和尼克斯给拉下泥塘。3月21日,美国联邦贸易委员会介入调查,如果脸书真的滥用数据,违背与美国联邦贸易委员会(FTC)的隐私协议,Facebook将要面临万亿美元的罚款。这或许是扎克伯格创立脸书以来所经历的的最大危机!
第二回:舌战群儒国会过堂、小扎诚意暂缓危机
“扎克伯格先生,你介意告诉我们昨晚你下榻的酒店的名字吗?如果本周你给一些人发了消息,你愿意告诉我们这些人的名字吗?”“不,我可能会选择不在公共场合这么做。”西装革履的扎克伯格这样回答。
当地时间4月10日,Facebook创始人兼首席执行官马克·扎克伯格来到美国国会,坐到了美国参议院的听证席上,而他对面,正是一群严苛甚至怒火中烧的参议员,长达五小时的听证过程中,扎克伯格经受了来自两党的立法者的轮番轰炸。
在高度强调个体自由、高度重视私人资产的西方社会;在私闯民宅可以被“合法”开枪击毙的美国,5000万人的隐私遭到泄露,相当于每4到5个美国人就有一个被侵犯,这绝对不是一个小数量,要知道,美国人口最多的加利福尼亚州,人口数量不过3900万。
听证大部分还是集中在“剑桥分析”事件。参议员们询问扎克伯格是否了解“剑桥分析”收集了用户数据,他做了什么阻止此事再次发生,以及他是否知道平台上其他公司有没有类似获取数据的行为。
扎克伯格的态度还算不错,但他也的确找不到更加合适的辩解理由,在陈词中承认,在向“剑桥分析”泄露信息事件上,Facebook犯有过错。不过他同时强调,Facebook并没有销售用户信息,而是会根据用户的类别来选择广告的投放。
接下来,扎克伯格又来到了美国众议院,接受美国众议院能源和商务委员会的质询,这一问又是5个小时;和“不太懂行”的参议员相比,众议员的提问则专业得多,他们在整体上更了解Facebook的运作模式,知道Facebook基于数十亿用户的详细信息制定的广告投放策略,最终造成了今天的隐私担忧。
这一次,扎克伯格不得不“放大招”来“自保”,扎克伯格表示,作为亿万Facebook用户的一个,作为剑桥分析公司等第三方收集个人数据的一部分,他自己在Facebook上的数据也被收集了,换言之,扎克伯格自己也是受害者。
两天十个小时的车轮战听证会结束后,扎克伯格走出国会山,轻舒了一口气。尽管许多问题没有得到满意的答复,但至少目前为止,国会听证有效遏制了Facebook泄密事态的恶化,扎克伯格向立法部门和公众表明了自己的歉意和诚意,止住了股价跌势,避免了更大的惩罚力度。
随着特朗普对叙利亚动武,人们的焦点开始转移到数千公里外的中东,Facebook和扎克伯格可以暂时松口气了,但这并不意味着危机已经结束,未来Facebook依然面临着严格的监管和公众的信任危机。
▲5000万美国人的个人信息遭到泄 露,这在总人口只有3亿的美国是个很大的数量,美国人口最多的加州,人口总数还没有突破4000万。
第三回:始作俑者“性格测试”、新瓶旧酒一发难收
在详细梳理事件的经过、结果后,就不得不追根溯源事情真正的起因——Facebook的数据到底是怎么泄露出去的?
实际上,按照Facebook给出的说法,这还真是个“新瓶装旧酒”的问题:事件起始于2013年,这一年,英国剑桥大学心理学教授亚历山大·科根(Aleksandr Kogan)推出了一款应用软件“这是你的数字化生活”(this is your digital life),并通过随机发放2到5美元的方式推广,推介语为“心理学家用于做研究的App”。当时,共27万名Facebook用户下载这一应用。
这款APP就有些类似于微信上的“人格测试”“性格色彩”之类的小程序,可以说27万的用户下载数量并不算大,但由于许多用户授权了该应用获取社交关系以及好友信息,用户在不知不觉的情况下,就拱手交出居住位置、朋友名单、点赞内容等资料,科根也就这样间接地获得了5000万人的用户数据。从27万到5000万,这看起来是个不可思议的数字,但科根的确做到了。
随后,他经由其创立的“环球科学研究”公司,将上述数据分享给一家名为“剑桥分析”的政治咨询公司。该公司由美国总统顾问、白宫首席策略师史蒂夫·班农创立,旨在从海量信息出发,有针对性地向公众投放宣传材料,从而改变公众行为。从目前已知的消息来看,2015年,Facebook得知了这一消息,并屏蔽了“this is your digital life”,并“敦促”科根和剑桥分析公司尽快删除所有获取的用户信息,但对于剑桥分析公司是否真正删除了数据,Facebook并未继续跟踪与追究。
显而易见,信息不仅没有被删除,反而被无限放大利用。按照前文中尼克斯的表述,仅仅一年过后的2016年,这些数据被用于美国大选中新闻或观点的精确投放,以帮助特朗普团队。公司利用收集所得的脸书网信息,根据有关用户的性格或政治取向建立数据模型,从而“锁定他们内心深处的恶魔”,具体做法包括向有关用户投放针对性的政治广告,从而左右他们的投票取向,协助特朗普取胜。
比如,根据 Tom 在社交网络上的留言和点赞情况,大数据可以推测出他是一个喜欢枪的人,所以推送中会出现“希拉里将要禁枪”的内容;再比如,Lily 是一个认为宽松的移民政策会导致治安情况变差的人,所以会向她推送“希拉里要给任何移民绿卡”的内容……
原本还摇摆于特朗普和希拉里之间的 Tom 和 Lily,在看到这些内容推送后,就把票投给了特朗普。
最终,特朗普力压希拉里,顺利当选新一任美国总统——尽管不少人对于定向广告和选举结果之间的关系深表怀疑,但在天天强调“民主”“人权”的美国,这样的消息无异于“晴天霹雳”。
值得注意的是,这家企业不仅曾受雇于美国总统特朗普的竞选团队,还曾服务过推动英国脱离欧洲联盟公民投票的“脱欧”阵营。在英国脱欧公投期间,公司曾免费为支持英国脱欧的团体提供服务、诱导民众,与其相关的公司还接受了来自英国官方脱欧团体的超额资金。此外,东非国家肯尼亚总统乌胡鲁·肯雅塔所属政党2013年和2017年两次赢得选举,也和剑桥分析公司秘密运作有关。
第四回:用户画像利弊各半、自动认知焦虑重重
其实,Facebook数据泄露的事件尽管发生在大洋彼岸,但在网络信息化高度发达的今天,这足以引起我们每个人的警觉和重视——用户画像技术已并非什么新鲜产品,同样的信息泄露,在我们每个人身边都有发生。
这其中,公众最为熟知的还是今年春节前夕的支付宝年度账单引发的数据泄露事件(本刊1月22日刊发相关报道《透明时代》),同样“犯案”的还有百度和今日头条等。如今三四个月过去了,尽管这些企业已经被工信部通信管理局约谈,并诚恳表示整改,但实际情况却是,我们每天依然能收到大量“精准投放”的广告、新闻甚至是下载链接。
这一切的技术源泉,其实都源自于开篇提到的用户画像技术,这项技术的应用原理其实并不复杂。它是真实用户的虚拟代表,是建立在一系列现实世界中真实用户数据之上的模型:对用户的社会属性、个人爱好、生活习惯和消费行为等数据进行采集和积累,并在明确的业务应用场景下,根据提前设定好的算法对符合业务需求的特定用户的消费目标、行为习惯和观点等方面进行画像和分析,将用户多种类型的数据抽象成一个标签化的用户模型,以挖掘深层次的、能触及用户需求的信息。
换言之,用户画像的技术核心就是给用户“打标签”,而标签正是通过对用户信息分析而来,是用户信息高度精炼的特征标识,接下来就可以利用这些用户的特征标识,将用户区分成不同类型,然后每种类型中抽取出典型特征,赋予一个名字、一张照片、一些人口统计学要素、场景等描述,就形成了一个用户画像。
纵观过去一百年,科学技术的发展极大促进了人类的进步,却也给人类带来了未知的灾难与磨难——运输制造技术的发展促进了世界各地联系,却也导致两次世界大战中数千万人失去生命;收音机的发明促成了大众传播的新形势,但却也间接促进了德国法西斯主义的兴起;突飞猛进的物理学理论改变了我们的生活方式,却也让世界不得不笼罩在“核毁灭”的阴影之下。
如今的情况,与过去百年当中十分相似,从个人数据泄露到用户画像技术,随着人工智能的兴起,“认知自动化”的技术变革浪潮正出现在我们眼前——人工智能实现的人类行为更加高效,更加及时,极大地推动和促进了不少领域的升级转型,但不分青红皂白的数据收集和分析,显然把社会风险又提高了一个等级。■