专访司同丨自动化合成生物技术加速科学研究,「暴力」破解+AI学习,为基础理论的突破积累数据

相信很多有过实验室经历的小伙伴一定遇到过这样的情况,耗时几天的实验结果不理想,不得不重头来过,此时此刻,多么希望由机器人帮助做一些重复性的实验工作。
这样的梦想可能会成真,因为实验室研究自动化正在成为一种趋势,就像工厂的自动流水线一样,机器会按照标准化的工作流程完成实验操作。
中国科学院深圳先进技术研究院合成生物学研究所(以下简称 “合成所”)的司同研究员便是早期参与自动化合成生物技术构建的人员之一,现在他还是深圳合成生物研究重大科技基础设施(在建,以下简称”合成生物大设施")的总工艺师。


图丨司同(来源:受访者).jpg

图丨司同(来源:受访者)


2009 年从清华大学毕业后,司同赴美国伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign,缩写 UIUC)赵惠民教授课题组攻读博士学位,专业是合成生物学,2014 年博士毕业后继续在该校开展博士后研究。
“博士毕业之后,我决定留在 UIUC,原因有两个,一是自动化系统刚刚搭建好,二是博士期间已经完成了大规模构建合成生命,但是通用性的测试方法还是很欠缺,所以希望将研究继续推进下去。” 司同告诉生辉 SynBio。
2019 年 4 月,司同正式加入合成所,课题组方向为自动化合成生物技术,包括机器学习指导蛋白工程、基因组定向进化等,用于开发微生物细胞工厂研究和生产燃料、药物、材料等。


让机器做简单、重复、大规模的实验
司同介绍,目前认为生命在演化过程中,突变是没有方向性的,之所以在不同的环境中呈现出不同的表型,是因为一个群体中更为适应环境的基因突变会在长期演化中富集,这就是自然界的演化方式。
在实验室中也可以模拟这一过程,即定向进化,该方法发明人 Frances Arnold 教授获得 2018 年诺贝尔化学奖。具体而言,首先需要设定一个目标,例如生物合成某一化合物、靶向杀伤癌细胞等,之后再建立大规模的突变体,针对基因组中的不同基因,或蛋白质中的不同氨基酸进行突变,接着,利用高通量筛选方法识别更为接近目标的突变体,作为新一轮定向进化的起点。
“通过这一过程的反复迭代,可以快速获得与目标要求相符合的突变体,进一步,也可以通过逆向工程解析其形成原理,来指导理性设计,其实更多采取的是一种‘暴力’破解的方法,” 司同表示,“但从蛋白到通路再到基因组水平,突变体库的规模会变得十分巨大,大大超出了人工操作的范围。‘暴力’破解的上限有多高?比较不同突变体的通量和准确性又如何?这些都是人工操作时不可控制的因素。”


图丨自动化仪器(来源:synbiobeta).png

图丨自动化仪器(来源:synbiobeta)


“为了满足这些需求,机器人可能更适合做这些简单、重复、需要大规模操作的工作。合成生物学一个重要的部分是标准化,但在当时学术界更多的关注点还是在功能层面的‘对象’标准化,对于物理层面的‘过程’标准化研究并不多。” 赵惠民教授课题组在 UIUC 化学工程系,从化工的角度看,合成生物研究的过程标准化势在必行。
于是从需求出发,团队决定建立一个全新的系统,解决规模化操作问题。“自动化合成生物技术的设计思路与汽车和手机的自动化生产线类似,但不同的是后两者是肉眼可见的组装过程,对于一个生物来说,很多生命过程例如 DNA 的组装都是不可见的,所以需要开发新的、更适合自动化过程的合成生物技术。” 这是司同的主要关注点。课题组另一位研究生晁然(现为衍进科技创始人),他更关注系统集成,开发自动化软件和硬件,使其适用于合成生物实验。
2014年,合成生物自动化设施的第一台概念机在 UIUC 诞生,这台概念机的模式目前已经成功复制到了全球多个实验室。
而深圳的合成生物大设施规模将是概念机的 30 倍以上,旨在打造用户的 “云端实验室” 和运营者的 “智能实验室” 二位一体的工业化合成生物研究平台,将自动化、信息化与生物技术相融合,实现高通量、标准化合成生物研发能力,服务学术研究与工业应用。


自动化技术 + AI 技术让 “遥遥无期” 变成 “有生之年”
细胞中各类生命大分子的复杂程度并不亚于广袤的宇宙,传统的生物技术过程像是一场漫长的无止境的核动力太空探索,旅行者 1 号已经在太空中飞行了 40 多年,而自动化技术与 AI 技术的加成,则像是开发了曲率引擎,须臾之间便可完成星际旅行。
司同告诉生辉 SynBio,“对于单点突变而言,如果一个蛋白质含有 300 个位点,每个位点有 19 种突变可能,那么一共需要构建约 6000 个突变体,如果测试一个突变体的时间是半个小时,那么就需要小半年的时间完成。而自动化的设施可以提高‘暴力’破解的效率,如果将构建和测试时间缩短到 5 秒,那么两三天就可以完成测试。然而,如果涉及到蛋白质的多点组合突变,就会造成‘维数灾难’”。
生命体的复杂性程度远远高于一个蛋白质,生命大分子不同排列组合之后的突变体数量是以指数型增长的,就算有自动化技术的加成,机器 24 小时不眠不休,完成时间也是以年为单位,“所以当数量达到一个程度之后,就无法通过‘暴力’破解穷尽所有可能了,于是我们引入了 AI 技术,通过深度学习的方法寻找规律,可以预测实验结果,优化实验设计,无需检测每一个突变体。”


(来源:Wageningen University & Research ).png

(来源:Wageningen University & Research )


与近期热门的 AlphaFold2 类似,人们无需在现实世界中合成蛋白质,人工智能便可预测出十分接近真实蛋白质的结构,当然前提是需要学习大量的数据。
“以前需要 10 年或 20 年完成的事情,可能一个月就可以完成。而且研究范式是固定的,可以应用到个性化的需求当中,从而降低了合成生物学进入的门槛。” 下游领域或者行业的人无需完全掌握合成生物学的知识,只要按照标准流程进行操作,即可获得符合需求的菌株。
为基础理论的突破积累数据
司同表示,深圳的大设施无论从资金投入和规模上都是独一档,一般来说,并不是所有的设施都需要集成,也不是所有的设施都要自动化,而公司的设施设计也都会从具体的需求入手,配备不同的功能。
“深圳大设施要满足的是合成生物学不同方向和层面的需求,而不是只关注在细胞工厂层面,而设施本身也会随着学科发展而不断升级,将来的目标是任何的生物体系的合成生物学设计和改造,无论是动物或者植物,都可以在大设施里完成。” 司同告诉生辉 SynBio。


图丨深圳大设施(来源:受访者).png

图丨深圳大设施(来源:受访者)


以化工行业发展的经验来看,无论是研究或产业化,从过程上进行分析,所有的过程都可以拆分成有限个单元操作,生物系统也是如此,理论上也可以做到标准化和模块化,这也正是司同团队在做的事情。
“当然,以上只是实践层次上的目标,更深层次上的需求是解决合成生物学如何从‘黑箱’走向‘白箱’的问题,也就是定量合成生物学。” 司同表示。
中国科学院院士赵国屏和中国科学院深圳先进技术研究院副院长、深圳合成生物学创新研究院院长刘陈立在近日发文(点击直达:我国迎来定量合成生物学发展重要契机)总结,提出要建设理论 (理性设计)、技术 (合成能力)、工程 (自动化平台) 三者相辅相成的合成生物学体系,进而以此推动合成生物学研究由定性、描述性、局部性的研究,向定量、理论化和整体化的变革。
司同解释道,“‘暴力’破解加 AI 技术也有解决不了的情况,这时候就需要生物学的理论化和数学化的基础理论突破,需要建立在大数据的基础上,更好地处理数据、总结规律。大设施提供的是统计学的数据,而设施整体框架的建立以及靠直觉或者顿悟的思想提出则需要科学家的努力。”
据悉,深圳大设施建成之后,会对全球的科研人员开放,司同表示,大设施的建立能够降低合成生物学研究的门槛,就可以让更多的人以及技术参与到其中,共同推进合成生物学的发展。


写在最后
司同被邀请为合成生物学竞赛(以下简称 “竞赛”)的评委,竞赛汇聚顶级联合发起方,旨在推倒产业与学术之间的 “高墙”,集结代表现在和未来的才智,打造中国合成生物顶级竞赛和创新孵化平台。
司同认为,与不同学科、行业的人交流,有助于解决合成生物学的一些问题,“问题是钉子,而每个人手上都有不同的锤子,就会出现很多解决问题的办法。此外竞赛的平台汇聚了产学研资政的多方资源,也是一个非常好的契机,把不同的要素集聚在一起,产生更多的碰撞。”