隐私的终结
文/赵斌 复旦大学生命科学学院教授
大家在浏览网页时,越来越发现一个令人“惊讶”的现象,有些网站似乎特别了解自己,总会推送一些看似自己非常有兴趣的内容。原来,互联网留下了每一个人的行为轨迹,搜索过什么内容,看过什么新闻,买过什么东西,这些真实的属性数据都被一一记录下来。互联网公司据此来全面地描述目标受众的属性特征,对消费者进行360度画像,进而进行精准营销和推介个性化广告。
资深互联网数据专家指出:“大数据就是对每一个个体的精确描述,就是从百万人群中找到一个具体的人。”过去营销的对象是一群人,一群被标上各类标签的人,年龄、职业、爱好等,现在互联网大数据能使企业从一群人当中更细分地去对待每一个消费者、用户。这些企业越来越相信,大数据能够让他们发现新的蓝海。
从好的方面来讲,人类行为的大规模数据极有可能从根本上改变我们对抗疾病、设计城市或进行研究的方式。无处不在的技术产生了规模巨大的个人元数据。我们的智能手机、浏览器、汽车或信用卡产生了我们在什么地方、我们叫什么名字、我们花了多少钱等信息。一些新的领域如计算社会科学依靠元数据来解决一些重要问题,如抗击疟疾,研究信息传播或监视贫困等。
约翰霍普金斯大学2011年获得了美国国家科学基金会(NSF)120万美元的资助,建立秒传亿兆的网络,网络每天可传输的数据量相当于8千万文件柜的文本数据。该项目的负责人Alex Szalay博士说,“在每个科学领域我们都在生成千兆级数据,如果我们没有与21世纪这个时代相当的数据显微镜、更快的网络和相应的计算能力,我们就被困住了。”在他看来,采用大规模处理能力来过滤千兆级数据的新方法是一种全新的计算,将引发天文学和物理学的新进步,就像17世纪显微镜的出现所导致的生物学和化学上的进步。
人们每天流露出的大量数据提供了一些奇妙的新机遇,但是也带来了新难题。应该注意到,这些有关某个人的大量信息收集只是得到别人表面上的同意,或者根本就没有得到任何首肯。不久以后,一个人的整个基因组序列也可能伴随其医疗记录在全球各地的研究人员中共享,安置在生活圈子附近的摄像头也记录下一个人的许多行为,甚至当他进入一家商店或机场时就已经通过人脸被识别出来。
1月30日的《自然》杂志发表了以“隐私的终结”为题的特刊,共有17篇文章,其中一篇报告谈到了信用卡元数据的识别。根据对110万人3个月的信用卡记录的研究发现,只需要四个时空节点的数据就足以将90%的人独一无二地识别出来。如果再增加一个数据,比如某一特定交易的价格,被识别的风险平均增加22%。即使数据集提供的信息比较粗糙,那么在某些方面或者在所有维度下其实也提供了难以隐藏身份的信息。
新的计算技术可以结合一些数据片段来识别人或跟踪他们的行为。信用卡记录与手机数据具有唯一性,这并不会让人感到奇怪。但其他大规模元数据集,如网站浏览历史、财务记录、交通出行等,其实也是具有很高唯一性的。将这些数据收集起来,进行一些技术处理,就可体现出一个人的行为特质。浏览网页或交通出行看似零散,是一个高维不确定的数据,因为一个人可能会浏览各种网站,或者在出行中有各种地铁出入口的组合。但是,针对一个具体的人来说,他的浏览习惯和出行组合是相对稳定的。
总的来看,尽管有许多方法可用来保护隐藏在大数据文件中的私人信息,但这可能限制了科学家所能进行的研究,因此必须达成一种平衡。一些医学研究人员坦承,保护患者的数据隐私几乎是不可能的事了。相反,他们正在测试一些新的方法来获得患者的信任与合作。同时,我们如何思考和看待隐私问题也应该发生一些变化。年轻人的网络行为已经比年纪大的人暴露了更多有关他们生活的信息。我们想保护什么也是一直在发生变化的,这主要取决于具体的内容、时机或我们将如何推进。正如我们所知,隐私正在终结,我们现在才刚刚开始理解其后果。