“人类计算”可用于解决复杂社会问题
文/赵斌 复旦大学生命科学学院教授
中国有句古话:三个臭皮匠顶个诸葛亮,喻人多智慧大。现在,互联网的发展已经将人群的智慧变成了一个有价值的、可随需应变的资源。
2011年,面对全球性的大失业现象,麻省理工斯隆管理学院的两位教授Erik Brynjolfsson和Andrew McAfee合撰《与机器赛跑》一书,提出了一种新的观点,随着技术的高速发展,人类正与机器形成一种对抗,而在这个对抗过程中,人类肯定会输,因为与机器相比,人类需要吃饭、睡眠和休息,厌恶重复性劳动。因此提出,未来我们需要转换思路,别与机器赛跑,应该与机器合作,适应机器,帮助机器,体现人类对机器的价值,这样人类才可以更好地与机器协同进化,而不是被机器所淘汰。
现在,如果我们将这种想法扩展开来,人的智慧不仅仅是自己互联,而且还可以与机器连接起来,建立一种合作关系取长补短,变成一个不可战胜的重要驱动力。这个重要的资源,美国卡内基梅隆大学的Luis von Ahn引入了一个术语,叫人类计算,指的是结合人类和计算机的优势来完成某个人类和计算都不能独立完成任务的分布式系统。
伴随着这个词,还诞生了一个大数据行业经常拿来说事儿的故事,就是我们现在网站登录注册时所用到的“验证码”(CAPTCHA)。坦率地讲,许多身份验证机制的产生,是人类与技术之间的内耗, CAPTCHA显然也是如此。既然CAPTCHA消耗了广大网民的时间资源,那么能否利用这些“浪费”的资源做一些有意义的事儿呢?后来出现的reCAPTCHA就是在这方面进行的挖掘,它除了能更好地区分人和机器外,还能“顺便”为文献数字化做贡献。具体如何实现的呢?随着OCR的发展,文字自动识别的水平越来越高,但有些文献由于年代久远,字迹开始变得模糊、褪色、污损等,OCR无法识别。但是,这些OCR无法识别的内容由人工辨认却相对比较简单。reCAPTCHA系统中,验证码由两个单词组成,一个是系统设定并知道答案的“control word”(对照词),另一个是来源于OCR无法识别的“unknow word”(未知词),前一个用于验证用户是否有能力识别这些文字,如果答案正确,就认为用户对“unknown word”部分的回答也是可信的。为了增强可信度,同一个“unknown word”会被分配给多个用户,然后综合这些用户的回答来判定这个疑难字符是否被正确识别了。reCAPTCHA系统以免费服务的形式提供给各网站,加速了文献数字化的工作。
这种形式,也有人称之为协同智能或众包。各种服务现在正在虎视眈眈地看着这些人类认知的丰富资源供应,如维基百科、使命游戏和亚马逊土耳其机器人。
多邻国(Duolingo)是一个免费语言学习网站和众包文字翻译平台。其设计理念是,当用户逐渐学习课程时,同时也在帮助翻译网站上的内容或文件。这个平台推出后很快成为全球最受欢迎的外语学习神器。也就是说,在线学习过程,也可以变成一种工作,相反,工作也可以变成一种学习过程,这可能对未来的工作和教育产生变革性的影响。
人类计算在科学研究上所体现的非凡成就,最引人注目的当属Fold it项目了。参与者被要求尽可能以最有效的方式折叠虚拟蛋白质,目的是为了解决分子生物学一个重要难题:蛋白质折叠是如何这般迅速和有效的?该项目开始后不久,就发现猴免疫缺陷病毒调节蛋白的三级结构,这个问题曾经困扰了该研究群体数十年,如果得到解决可能会找到应对艾滋病病毒的新方法。
信息科学建立在这些早期的成功上,证明推进人类计算系统的潜力可以模拟和解决一些经济、环境和社会政治系统交叉的奇怪问题。而且,只要人类认知可以在全球范围内有效地利用,他们的潜力仍将变得越来越大。这些目标都是非常有价值的,但会产生一些重大问题。其中最重要的是伦理、法律的本质以及人类计算的社会影响。如何设计这个工作才能让人有意义、有尊严地参与?获得何种结果才能让最弱势人群从中受益?机器与人类之间产生特定结果的最优分工是什么?■