新闻 NEWS  
     

中科院知识创新工程方向性项目
"生物信息处理专用计算机与算法研究"通过验收


  "生物信息处理专用计算机与算法研究"是由中科院北京基因组研究所和计算技术研究所牵头承担的中国科学院知识创新工程方向项目,历经两年多的攻关已经圆满完成研制任务,于2005年9月6日,由中国科学院生物局和高技术局组织专家进行了验收。
该项目设计开发的"曙光4000H"是面向生物信息处理的应用专用计算机,主要针对基因学算法数据量大、并行度高、运算类型单一、重复性较强等生物信息学的计算特点,通过设计特殊的体系结构和并行算法,研究序列联配等算法的硬件实现技术和研究专用数据处理硬件系统的设计技术来实现的。一方面采用通用CPU加专用FPGA的技术路线,以相对较低的硬件成本达到4万亿次的处理能力。另一方面,针对生物信息学的新问题,综合利用图论、统计分析、机器学习、组合数学等数学领域的理论和方法,设计新的算法,同时完成相应的软件包,使之能在生物专用机上高效运行,为生物信息学的发展做出新的贡献。

  在验收会上,验收专家组认真听取了验收总结报告、测试报告、应用试算报告和财务审查报告,并观看了现场演示。经过认真讨论,验收专家组形成以下评估意见:

1. 该项目设计并开发了一台曙光4000H生物信息处理专用计算机,系统包括通用处理器90个,生物专用硬件加速卡10块,内存总容量为137GB,磁盘总容量为2.3TB,由双千兆以太网互连,通用部分峰值浮点运算速度为每秒5040亿次,专用部分峰值运算能力为每秒4096G CUPS (Cell Updates Per Second)。曙光4000H的技术指标达到了项目任务书的要求。

2. 在曙光4000H上成功地运行了全局序列联配、局部序列联配、多序列联配等常用生物信息算法。测试结果表明:与1个Intel Xeon 2.8GHz CPU相比,单个专用加速卡运行全局序列联配算法时,最高可以达到3796倍的加速比;运行局部序列联配算法时,最高可以达到300倍的加速比;用ICT_ClustalW运行多序列联配时,最高可以达到32倍的加速比,与80个CPU相比,使用8个加速卡可以达到14.81倍的加速比。

3. 提出了数学定义重复序列(Mathematical Defined Repeat)概念,用以全基因组拼接中完善并恢复生物学重复序列;提出了基因预测、蛋白质相互作用网络拓扑结构发现、蛋白质质谱分析的打分函数和统计显著性判定方法、以及适用于鸟枪法的重复序列标注的新算法。

4. 开发了全基因组拼接软件包RepS、序列比对软件包STE-Blast、蛋白质质谱数据分析软件包PI、基因相互作用网络分析软件包PIN、基因预测软件包BGF。成功应用于水稻基因组精细图、家蚕框架图等大型基因组的组装工作。
验收专家组认为,该项目全面完成了任务书规定的各项指标,培养了一支熟悉生物信息算法分析和软件设计、计算机专用加速硬件技术的跨专业研究开发队伍,研制了生物信息专用计算机,设计开发了一批新的算法和软件,形成了一批具有自主知识产权的核心技术和原型产品。该项目申请并被受理国家发明专利3项、获得授权国家发明专利1项、取得软件登记证书4项,发表SCI、EI收录学术论文32篇。该项目研究目标明确、技术路线正确,成果丰富,组织管理有效、经费使用合理,验收专家组一致同意通过验收。
验收专家组建议中科院在新系统的开发与算法的研究等方面继续加大支持力度。


  

   
    返回

Copyright for NCIC All Rights Reserved
本网站版权归国家智能计算机研究开发中心所有