曾经在多数人眼中,基因检测仍然是一项很遥远的技术。然而新冠疫情突如其来,核酸检测以其快速和准确的检测特性,一跃成为诊断和防控疫情的有效方式。利用核酸检测进行新冠疫情的防控,是一次超大规模使用分子生物学检测技术对新发传染病进行干预的有益实践,也是一次让基因检测技术快速进入大众视野的特殊“契机”。
事实上,在2015年中国启动精准医疗计划以来,作为精准医学核心技术的基因测序领域就已经迎来快速发展期。外部政策的不断完善、大数据与生物医药领域的不断融合发展,让越来越多的创新型大数据应用场景不断涌现,为全方位加快药物研发、完善罕见病诊治闭环、实现精准预防和治疗带来更多可能。
在谋求发展的过程中,越来越多基因行业的研究机构和企业发现,在推动基因技术发展之时,保障后端算力尤为重要。因此,寻找合适支撑基因测序发展的HPC(高性能计算解决方案)成为必须。
云时代已来,让数据价值得以凸显、大数据技术产物遍地生花,那基因产业又该如何乘势而发?
检测需求分场景,按需“活”用云算力
基因测序成本逐渐降低让基因检测逐渐普及,但挑战总是与进步相伴相生----由于基因检测适用目标人群的快速增长,检测的复杂度随之大幅提升,不断攀升和深入的数据需求让基因检测面临挑战。
金域医学生信总监孙明明已在生物信息行业深耕13年,面对这样的现状,他深有感触地说:“基因测序短时间内就能够产出PB级的海量数据,因此只有通过更高性能的服务器与更快速的分析算法,才能满足如此大量且多样化的数据需求,让数据价值得以更大程度的体现。“那究竟什么样的HPC才适合临床基因检测呢?孙明明给出答案:“首先我们将检测需求进行场景分类,然后根据相应场景选择合适的HPC。”
场景一:大量集中型送检,此场景检测数据量巨大,因此需要本地端有一个大规模的HPC来进行数据处理。这样构建的优势在于可以将HPC与大型测序仪进行一个稳定的内网连接,可以保证临床数据处理的时效性和稳定性;
场景二:少量分散型送检,针对一些小规模医疗机构,它们所产生的基因检测数据量通常较小,构建本地HPC成本太高。因此可采用云端HPC的部署方式,这样既能满足医疗机构的检测需求,同时能够解决成本问题。
孙明明说:“将需求按照场景分类后,HPC的部署方式就明朗化了。但其中本地HPC因会受到部署场地及供货周期的制约,如果遇到检测量剧增的突发事件,无法做到实时动态的硬件资源扩展。如何解决?我们选择了华为云提供的资源混合调度方案,通过它动态拓展的特性解决了这个问题。”他表示,采用了现在的整合方式后,本地HPC和云端HPC可以实现统一管理,只要设立一个统一的管理节点,就能同时管理线下和云端的计算资源,当本地HPC负载过高时,数据分析服务会自动推送到云端,有效解决了本地算力不足的困扰。
谈及未来,孙明明表示:“目前,金域医学的业务已经覆盖了整个产业链上中下游。希望未来能与合作伙伴共同努力,将大技术平台、大服务网络、大样本、大数据库联合起来,构建‘检验+’的生态圈,并通过这个生态圈加快大样本、大数据、医检技术创新的发展和突破。”
安全性+性价比兼具,华为云成三代测序“理想型”
在基因测序中,测序的长读长能有效提升基因组组装的完整性。相对于二代测序,三代测序的长读长优势,能够帮助它突破二代测序短读长技术在人类遗传疾病研究、动植物基因组完成图组装等方面的瓶颈、提升其在疾病诊断、分子育种中提供决策依据的能力。(备注:读长指的是测序反应所能测得序列的长度)
三代测序的单张芯片的测序数据量会达到100Gb以上,而希望组生产中心一年将会消耗近万张测序芯片,算上衍生出的大于测序数据数倍的原始数据,三代测序所产生的数据量会是海量的,其数据存储与分析符合大数据的特征。武汉希望组COO刘雷博士介绍,在三代测序中,无论是PacBio测序仪还是Oxford Nanopore测序仪,所产生的数据包含了分析所用的fastq数据,以及这些数据的原始格式bam,fast5等;而这些bam,fast5格式往往会是原始数据的5~10倍。因此处理这些庞大的数据,对于算力的要求很高。那么究竟什么样的HPC是三代测序的“理想型”呢?