可以用机器研究历史吗?
可以用机器研究历史吗?
大概在四五十年以前,美国历史学界曾经出现过一种崇尚以统计数据来撰写论文的热潮。这一风潮之下出现了一些比较机械的研究,简单介绍情况就开始堆数据,仿佛“数据覆盖面有多广,写出来的历史覆盖面就有多广”,而历史的本质:经验、感觉、物质或情感的联系、媒介等则受到轻视。这些工作本身不一定切题,又或许作者的“统计”完全是建立在对历史实践一知半解的基础上。其结果是,生产了不少空有一堆数据、底层框架或问题出发点却错误的研究。
当然,也应该看到历史研究是在演进的,人习得的知识可以教给机器。特别是近些年出现的大文本方法,对文本的吸收能力比单凭数据肯定是要强。然而,历史研究的本质是通过表象(史料)寻找过去的本相,而这种本相只能在人的意识中感知,而不会出现在另一种表象中。事实上,现在的大文本方法,也仍然有这种问题:通过文本方法能捕捉一些“联系”、抓出许多数据,但这些东西背后所蕴含的非文本因素,既然其价值与影响决定于人类阅读获知它们时的情感,那么对历史的判断和把握,也就不能舍弃人工。
这并不是说量化历史无意义。事实上,随着定量社会科学研究的兴起,历史学研究当中有许多领域早已“社科化”进而变为定量研究,这一部分的量化乃至机器自动处理都是可以做到的。笔者之前听过一个报告,基于当地报纸数量、销量等研究两次大战之间德国和波兰两座城市的公民政治参与问题,这种研究显然机器化就很容易。然而更多的领域没有被剥离出来,往往更像“人文”而非“社科”。比如说研究18世纪中国部分省份的粮政筹划,这种研究里没有数据,文本也多是只言片语,含义必须结合语境来理解,这种东西即便未来有机器学习前景,大概也得很久以后了。
总而言之,机器学习可以简化历史研究,但它还不能实现历史研究。历史学工作最底层的一部分,恰恰就是把那些关于过去的、混沌不明的记忆转化为今天的人们可以理解的知识——这一步其实是在机器之前的。
■ 知乎ID:司马亮 中国古代史在读博士生
数据分析中常犯哪些错误?
许多坐拥很多数据的大公司,却不知道该拿数据怎么办。究其原因就是管理者其实经常会犯一些数据分析中的错误。我们可以通过一些简单的实例来探讨。
首先,在开始数据分析前,我们最好知道自己的问题是什么,这是最简单也是最容易被忽视的。一般来说,市场研究公司在做数据分析时,都已经有一套理论,而你拿到结果只需要按照这套模型取得相应数据结果。
但大部分公司的情况并不是这样的。特别是,现在有很多公司刚刚开始发现数据的好处,却不知道数据到底能够在什么地方帮助到他们。通常人们都想从数据中获得益处,但如果在没有想好问题的时候就盲目地雇人分析或购买分析产品,结果不一定能如你所愿。数据如此之大,就像是在挖宝藏:如果你不知道你要找的宝藏是什么,那你就会无从下手,挖起来像大海捞针。
其次,在开始分析时,要在适合的情景选用适当的方法。以平均数为例,平均数能够表现一定的情况,但它很难让你看到问题的本质。就像一头大象和一只老鼠的平均数是一头牛,然而,从一头牛你无法了解大象,也无法了解老鼠。
最后,当得出的分析结果很惊人时,最好再去检查一下数据或算法。以下是笔者身边人的亲身经历:他在国外某公司做一个广告活动前与活动后的消费者调研,活动后的数据结果是消费者对品牌的喜爱程度竟然增加了12%。他很高兴地告诉老板,然而老板只是冷漠地说了一句:回去重新看一下数据和算法是不是哪里错了。
显然,最后他发现是自己算错了。后来他老板说,一个广告活动前后,消费者对一个品牌的喜爱程度极少会一下子增加超过10%。每个做研究的人,都希望得出出乎意料的结果。但如果一个数据分析结果与你的常识相差甚远,还是推荐你回去再仔细检查一下有没有什么地方出了错。
■知乎ID:麦采尧 斯坦福大学计算机科学专业
为何大多数插头不使用纯铜?
插头,在电气技术中叫做接插件,它是机械与电气的联合体,起到连接线路的作用。例如我们的USB插头、以太网RJ45插头、插线板插头,还有供配电断路器的大电流接插件等。
接插件的材料一般采用铜基合金,例如纯铜、黄铜、铍青铜等,材料的表面镀银或者镀锡,甚至镀金。以电阻率来说,导电性最好的是银,其次是铜,再其次是锡。但接插件是需要一定强度的。而锡和银很软,根本就没法满足接插件的插接强度。所以,接插件的本体都是铜,表面镀锡或者镀银而已。
对于5A以下的小电流接插件,它的温升不高,重点是提高导电性,降低接触电阻。因此,小电流接插件的插头组件和接触簧片组件镀银的目的就是提高接插件的导电性;对于大电流接插件,它的温升很高,重点是降低温升。因此,大电流接插件的插头组件和接触簧片组件镀锡目的就是降低接插件的接触电阻。
■知乎ID:Patrick Zhang,电气工程师
(本版文章由知识讨论社区知乎推荐)