科研资讯分享 » SynBio Insights » 人工智能技术在合成生物学研究领域的应用Vol.1 - 金斯瑞
引言:人工智能正在“挑战”人类智商
2017年5月27日的下午,在人类计算机史上发生了一件具有里程碑意义的事件,时年19岁的柯洁迎战世界上最智能的机器人之一AlphaGo——一款由Google在2014年收购的英国公司DeepMind开发的人工智能应用,最终, AlphaGo取得了压倒性的3连胜,而在此之前,柯洁已经连续32个月在人类围棋排行榜上排名世界第一。
其后仅仅过去了不到半年时间,AlphaGo团队于2017年10月19日在Nature杂志上发表了一篇文章,介绍了升级版的AlphaGo Zero——这是一个没有使用人类围棋游戏数据进行训练的版本,但却比之前的任何版本都更强大。通过引入开创性的算法设计,AlphaGo Zero可以与自己较量,仅仅在40天的累积训练强度下就超越了之前所有旧的版本。
图片来自网络(http://news.mydrivers.com/1/534/534106.htm)
除了在围棋应用中,人工智能还在其他领域逐步有了应用场景的实现,如人脸与语音识别、文件翻译、军事模拟作战、疾病影像学诊断、知识图谱构建、药物设计等,而这些广阔应用的背后,除了近些年来计算机运算力的巨大进步外,还得益于机器学习这一人工智能核心技术长时间的纵深积累与发展,尤其是深度学习算法的进步,使得人工智能领域获得了突破性的成就,大大增强了机器的认知能力。
图片来自网络
广义且简单地说,人工智能(AI)就是让计算机能够与人类一样进行感知、思考、决策和行动。机器学习(ML)是人工智能的一个子领域,其基于数学规则和统计假设,从而编程使得计算机能够从输入的数据中识别出特定的模式从而做出合理的预测。深度学习(DL)是机器学习的一个分支,也是所谓的“狭义人工智能”,即仅仅用于在特定的细分领域中做出决策、预测和分类的人工智能应用,其基础是大量的相关数据、强大的算法、足够细化的应用场景和明确的计算机化的目标定义,缺少任何一个都无法成功。
深度学习领域中使用最多的算法是神经网络(NN)算法,并且几乎已经成了深度学习和机器学习的代名词。不同于规则式方法,人工神经网络同样不会给人工智能系统设定决策规则,而是把某一类现象(图片、国际象棋赛、基因组学研究数据等)的大量例子作为输入,让网络模仿人类神经元学习的过程从而是被出规律,也因此,神经网络算法的实现需要大量的计算机运算力和高质量的数据。
图片来自参考文献1
合成生物学这一新兴学科在20年前诞生初始之际,便与计算机科学的发展紧密相关。因为合成生物学在本质上是遵循“设计-构建-测试-学习”循环式的工程学科,而扎根于人类基因组“读”和“写”的时代,合成生物学家们从一开始就将细胞的遗传物质当做一个可以被理性操作和设计的系统,并且把计算机科学中的工程化术语与思想引入该新兴领域,元件、装置、系统、解耦、抽象化、标准化、底盘、逻辑门、线路设计等等,都体现了这一核心思想的类比性。早在2006年,Ron Weiss研究组便发表综述性文章《Synthetic Biology: New Engineering Rules for an Emerging Discipline》[1],将合成生物学研究的特征与计算机系统的特征进行类比,如下图所示,该文从生物装置、模块组件、细胞以及多细胞系统等四个层面进行了设计策略与功能以及实例的角度进行了分析性讨论。
图片来自网络(AILabPage.com)
而在过去的20年里,各种组学与定量生物学实验数据的纵深积累、基因组编辑技术的兴起与稳步前进,以及计算机运算力与辅助设计手段的同步快速发展,使得人工智能技术在合成生物学领域的应用成为了历史进程的必然方向,本系列内容将选取四个典型的研究领域,即AAV病毒改造、酶定向进化、蛋白质从头设计、生物网络的研究以及自动化的深入应用,来简单地解读这一趋势。
其中AAV病毒改造的研究来自George Church实验室,其初步展示了自动化的文库构建技术与高通量测序技术结合机器学习建模在设计趋向性更优的AAV病毒中的明显优势;酶定向进化的案例中解读了Frances Arnold实验室近年来使用机器学习技术进行组合文库的计算与预测从而大大增加了虚拟建模通量这一重要方法,该方法为更大深度和更广范围探索天然酶的适应性空间提供了新的工具;蛋白质从头设计的研究来自David Baker实验室,其展现了深度学习技术在蛋白质结构预测精细化和蛋白质从头设计领域中的强大应用;最后一个案例来自两篇经典综述文章,系统化地解读了大数据时代的生物网络研究和合成生物学研究领域中愈加明显的自动化趋势——AI + SynBio = ???让我们一起深度探索、深度学习!