《理解未来》科学讲座:如何搭建生命科学的ChatGPT?
2月10日,《理解未来》科学讲座AI for Science 系列03期:“AI4Science 和 ChatGPT,生物医药的契机?”在全网线上开讲。未来论坛理事、北京大学李兆基讲席教授、北京大学理学部主任谢晓亮担任主持,特别邀请中国科学院院士、北京大学教授、北京大数据研究院院长、北京科学智能研究院(AI for Science Institute, Beijing)院长鄂维南,加拿大魁北克省人工智能研究中心(Mila)副教授、加拿大高等研究院(CIFAR)人工智能讲席教授唐建,分别围绕“AI for Science科技革命”、“生命科学中的生成式人工智能”共同探索交流“AI+生命科学”,分享前沿学术成果,共话跨学科交叉领域的深度融合创新。
◈ ◈ ◈
鄂维南:科学研究将从“作坊”模式转变到“安卓”模式
本次活动中,鄂维南教授以《AI for Science:一场正在发生的科技革命》为题阐述AI for Science带来的科研范式的变革和新的产业业态。他指出,化学、材料、生物、工程等传统领域都将成为AI的主战场,同时也将催生新一代的产业模式。另一方面,在AI+Science的驱动下,科学研究将从“小农作坊”模式转变到“安卓”模式,“平台科研”将成为全新的科研范式,“社区建设”将成为重要趋势。
“希望我们有效地利用这一千载难逢的机会,将AI+Science的“安卓”模式基础设施建设起来,充分利用这一科学发展空间,让中国走在全球科学领域的前沿。”鄂维南教授表示。
◈ ◈ ◈
唐建:AI+生物技术处于黄金时期 以生成式AI模型赋能药物研发
本次活动中,唐建教授以《生命科学中的生成式人工智能:如何搭建生命科学的“ChatGPT”》为题,介绍了生成式人工智能在生命科学的应用。
他指出,人工智能和生物技术的研究正处于黄金时期。语言生成模型如 ChatGPT 在对话系统领域取得了很大的突破,因此,研究者们正在探索是否能在生物制药领域搭建类似的人工智能模型。
“在人工智能与生物医药的交叉领域已有了诸多探索,例如:GeoDiff 应用在小分子的三维构象预测;E3Bind 应用在蛋白质-配体复合物结构预测;ProtSeed 同时生成新的蛋白质结构和序列等。”唐建教授表示。
◈ ◈ ◈
前瞻对话:聚焦AI+生物医药前景,推动AI+科学交叉融合
在前瞻对话环节,嘉宾们围绕“AI+生物医药前景”、“生成式AI对生命科学领域带来的影响”、“如何促进AI专家与科学家加强合作”等议题展开对话,分享深刻的洞察与思考。
关于组学与人工智能相结合,鄂维南教授指出,首先需要不同学科背景的专家一起来参与这类研究。其次,需要找到不同尺度、不同现象的新的guiding principle,来填补中间尺度的结构。他表示,目前分子尺度比较清楚,大的尺度也有一定的概念,但是中间尺度,我们缺乏一个guiding principle,需要物理、数学领域的专家参与进来才能有进一步的发现。“最重要的是找到这样的人,将其有效地组织起来,为他们提供足够的资源。”鄂维南教授谈到。
唐建教授指出,AI分析数据以及机器学习,为科学规律的表达提供了可能性。“AI将可能的文本、知识、代码进行训练,当AI能力达到一定强度后,我们就通过模型的开发,对大量数据进行学习和训练。其中,ChatGPT可以产生全新的原创内容,具有一定的创造力,像一本百科全书,用户可以很快从百科全书中获取需要的知识。在蛋白质设计领域,不论是小分子还是蛋白质分子,本质而言都需要生成一些新的结构。通过融入ChatGPT,可以提升蛋白质设计的创新度和多样性。”唐建教授表示。
谢晓亮教授也在前瞻对话环节分享了对于AI+生命科学领域应用的思考。他指出,基于技术上的突破,生命科学基因组学、冷冻电镜等生命科学领域,逐渐从“数据缺乏学科”转变为“大数据科学”,从“定性学科”转变为“定量学科”。“此前在我的Biophysics教学过程中,十几年都是从序列到结构,而基于当时的算法水平,‘结构’是没办法算出来的,直到2022年,结构可以通过AI算法计算出来,这也是AI+生命科学的一项技术革命。”
另外,谢晓亮教授也提到,AI需要大数据,因此数据质量非常重要。最近,西湖大学的许田教授正在通过机器学习的方式寻找中药的有效成分,运用组学为不同的器官和细胞使用中药,这也是中医非常需要的科学方法。