|
摘要
计算所在高性能计算机领域发展的战略设想(2001-2005)是国家目标和市场需求两个拳头、一片树林式员工发展环境、组织成一只棒球队;达到网格化10Tflops系统的战略性高技术,10个计算机系统和企业IT的关键产业技术,网格/Cluster的国际主流学术循环的三个战略目标。
我们分三大部分阐述,第一,我们的结论;第二,为什么有这样的设想;第三,战略的组成和实施步骤。
一 内容概要
☆ 计算所战略目标:战略性高技术,关键产业技术,和国际主流学术循环三个;
☆ 两个拳头:一个拳头是体现国家目标的高性能计算机系统,另一个拳头是为市场/企业服务的关键产业技术;以前先做系统,再技术转移;现在应让市场需要的技术独立发展,再通过customized组合成国家需要的系统,同时国家目标能反馈和辐射到市场目标。其中,市场的拳头应不受国家的拳头的限制,不要戴帽子,它应努力从市场获得回报;国家的拳头应采用“通用计算机+专用应用”的方式,美国ASCI计划、Petaflops计划、Compaq
AlphaServer SC都有明确的应用目标,我们要找到专用应用的国家目标。可能的国家目标有两个,一是解决数据密集型应用,系统不要求很大,内存、存储、I/O、数据接入/传出要求很高,如SAR、生物基因、Internet内容分析与挖掘、数字电视、环境科学;二是“平民化系统+Grid”,
平民化意味着中国能以可承受的钱在全国部署许多台性能较高的高性能计算机系统、存储、设备、仪器,Grid作为应用基础平台主要解决资源共享和广域协同工作,意味着科研人员,尤其是企业,能得到资源,解决大的、关键的问题,如media网格、生物网格、国土资源网格、CAD/制造网格、天文网格、分子动力学/分子化学网格等。
☆ 一片树林:这是创造员工个人发展道路和发展环境,改变以前纵向的层次太深,只有很少的出口的金字塔式的结构;应为树林式的结构,每棵小树、甚至小草即使不能成为大树,但都有一片天空,都能且必须独立发展,要为员工,尤其是中层骨干创造出独立发展的机会和舞台;但每棵树都围绕着共同的目标,都在大树的覆盖和帮助下成长。
☆ 一个棒球队:管理学大师德鲁克将管理分为三个阶段,网球双打阶段,完全靠个人发挥和配合默契,曙光1000时是这样;足球队阶段,有分工,有合作,但职能不固定,后卫同样象前锋一样进攻,尤其只有一个队长指挥,常常到处救火,累死还可能输球,成为诸葛亮式的人物,不能发挥大家的管理潜力,我们现在是这样;棒球队阶段,也类似于大型医院的管理,分工明确,自成体系,独立运行,互相合作,有重大医疗任务时可随时横向组合,同时每个岗位,如投手、击球手、游击手都能成为明星,这种方式适合学术团队。
☆ 网格化10Tflops系统:HPC的重要性不用怀疑,以中国的经济实力和应用水平,系统规模比美国可以低一个数量级,在性能价格比上最有利,市场/应用能力也能接受,同时技术能向企业辐射。以网格技术进行补充,解决最致命的“用好”的问题;最高端的应用极少,应采用“通用体系结构+专用加速部件”的方式,省钱而高效。
☆ 10个关键产业技术:它们都应成为独立的技术方向,不受Cluster系统这个大帽子的约束,努力从科研环节和市场得到回报,努力为企业服务,每项技术最好能自己循环。
1. 网格技术
2. 高性能通信
3. 高性能存储
4. 可扩展自治管理和可用性评价
5. 机群专用处理技术
6. 交换机和特色网卡
7. 数字视频服务
8. 机群商业计算中间件
9. 面向客户的性能测试技术
10. 高性能计算服务
☆ 网格/Cluster国际学术循环:我们能参与主流国际学术圈,我们能为国际学术标准、Open Source软件有贡献。
二 问题
我们主要回答两个问题:
1. 在高性能计算机日益平民化、低门槛的大趋势下,在技术上我们将做什么?
2. 如何使我们的技术得到最大回报,保持良性循环,有保证地解决生存问题?
我们的设想是:
1. 保持少数研制Cluster系统的精干队伍,满足国家1-10 TFLOPS系统的战略需要,并发展技术进一步促进Cluster系统的标准化、平民化、专业化;多数力量转向“用好高性能计算机(网格)和企业计算”的相关技术。
2. 明确与曙光等企业的技术转移方式与利益回报机制,在技术转移排它性的前提下,将我们的技术重新组合,面向更多需求保持经费来源的长期性和多样性。
我们在考虑高性能计算机发展战略时,有如下基本假定和基本定位。(公理)
基本假定:
1. 国家的目标包括战略和技术制高点、广泛的应用领域两个方面,前者满足国家的特定战略需求,后者应具有良好的市场应用和经济效益前景。
2. 中国研制高性能计算机应以总体上为国民经济信息化和网络化时代的企业应用服务,以及占据市场较大份额为重要目标。在此目标下,极少数应用需要大型系统解决单个问题,大多数应用需要大型系统同时解决许多问题。
3. 在高性能计算机领域,美国的大学和研究机构承担前瞻性的方法研究,公司承担大型系统和产业化产品的研发;中国的研究机构需承担大型系统和产业化产品原型的研发,公司目前能从事工程性、产品性开发和市场活动。
基本定位:
1. 我们研制的成果能够形成产业化产品,具有较广的市场应用范围,性能价格比具有良好竞争力。研制成果能够体现“信息化带动工业化”的战略目标,在国民经济信息化建设中起到现实的作用。
2. 定位于高性能计算机系统、应用与服务技术
a) 传统的科学与工程超级计算
b) 数据密集的海量数据、Internet信息、事务的处理
c) 以宽带Internet网络为应用背景的网格应用
3. 高性能计算机产品、技术、服务与企业紧密结合,利益共享,形成较大的市场占有率和规模经济效益。
三 形势
☆ 国际形势
国际上高性能计算机主要分三类:
1. ASCI系统:基本是大结点SMP或cc-NUMA Cluster,我们与之的差距是大节点的设计,和I/O系统的设计上,核心是主板和memory
switch的设计能力,5年内很难缩短差距。
2. 商业系统:在Tflops量级上,SMP、cc-NUMA、SMP Cluster并存,我们与之的差距是互连网络,和系统软件的细致之处,但在技术计算应用上,我们能够做到应用性能的基本相当,以后是拼开发能力,创新能力。但在商业计算上,我们的核心技术还几乎是空白。
3. Beowulf Cluster:独立开发商极多,构成Cluster的几乎所有硬件、软件部件都可以买到,尤其是普通技术计算方面,几乎没有技术障碍。但缺乏一体化解决方案,在技术深度、稳定性上难以与商业系统相比。我们与之相比的优势是一体化技术。
在未来5年内,体系结构不会有太大变化,我们与国际水平在硬件上的差距是长期存在的,我们能够在系统级做到应用性能基本相当,但在I/O系统、软件的细节设计、中间件上还需努力,它们的工程性很强。廉价是我们的一个主攻方向。
☆ 国内形势
国内高性能计算机也主要分三类:
1. 神州、银河:他们的技术发展方向是越来越高端化,象40层PCB、水冷却、大底板、许多节点的cc-NUAMA;技术和工程是先进的,系统在市场上竞争力有限。但他们的技术、人才的储备优势较大。
2. Cluster 系统:发展到今天Cluster技术是相当成熟了,尤其是技术计算方面。从曙光一号、曙光1000,到曙光2000、曙光3000,我们的系统越做越好,可以在技术计算上和IBM
SP媲美,达到了一个相对的顶点;但因为越来越平民化,企业参与得越来越多,影响了我们的技术神秘感,进而影响到国家项目的含金量。但这是发展趋势,是一条不归路。我们的选择的道路是对的,必须将Cluster进一步平民化、廉价化,以及专业化。技术上着重在Cluster标准化、廉价、专业化上工作,在用Cluster技术支持数据处理、网络信息处理和服务上还有许多工作要做。同时,我们要做大转折,在其他Cluster相关技术上寻求创新点,尤其是商业计算和企业进行服务需要的技术、工具、服务上。面向网格是全新的领域。
3. Beowulf:门槛很低,free软件很多,但集中在低端PC Cluster和传统的科学计算应用上,高端RSIC
Cluster没有,且缺乏标准化和一体化,技术很零散和重叠,同时对高要求的支持不行,如数据存储、高效通信、大规模系统的管理等。
☆ 市场形势
国内市场占主导地位的系统是三类:
1. SMP:8 CPU以上的SMP是商业计算的主力,尤其是事务处理,在这方面短期内我们很难做工作;
2. Cluster:概念已被广泛接受,尚需的主要工作是解决方案,廉价,和达到与大型SMP相当性能、稳定性的技术。
3. 低端Server/Server Farm:是数量最多的形式,存在也最久,我们应在用好它们上做工作,尤其是企业信息化中(MIS,Web,ERP,CRM,OA)大量的系统形式是Server
Farm,我们尚缺乏研究。
四 政府和企业眼光
从政府的眼光看,ASCI-like的系统是要做的,但以10亿元为单位的投入,有一、二家就足够了,且从市场的角度考虑没有向下可扩展性,和技术辐射能力。
应由国家投资进行万亿次量级(1-10Tflops)的通用高性能计算机系统研制的必要性有四点:
1. 一是高性能计算机是国家的战略资源,企业可以生产和销售,但第一台样机的研制应由国家投入,研究机构研制;
2. 二是解决国家的战略应用目标,和为高性能计算机算法和应用的研究提供大型平台,加速国家的研究水平和工业设计水平;
3. 三是高性能计算机企业需要能形成产业化的科研成果,与国际大企业竞争,需要为企业提供持续技术支持;
4. 四是进行相关的企业尚不掌握的核心技术的研究,将技术辐射到更多企业;
我们能承担国家项目的资本是:良好的市场基础和企业伙伴,良好的用户伙伴和外部伙伴,技术路线和技术方向的先进性。
国家大项目是平台和舞台,从长远看,除内部技术、外部环境支撑外,我们一定要将曙光、联想等多个企业,华大基因、科研院校、企业等多种用户,863、科学院、计委等多个国家政府机构拉成一体,才能保证我们的长期发展。
从企业的眼光看,需求应分为品牌、产品、技术、服务四个方面。
☆ 品牌:目前无疑是最值钱的,我们应将高性能计算机的品牌分解成系统、单项技术、设备、服务等多项形式与企业合作。
☆ 产品:我们应突破Cluster单一产品的现状,扩展到存储、服务器的部件、系统软件、应用基础软件等多方面,但是未来我们不应以最终产品的形式与企业合作,应主要以体现核心技术的产品原型的形式。
☆ 技术:我们应积极开发创新技术,转移成产品和服务。我们更需要深入企业,发掘出中国企业需要的技术。
☆ 服务:应是面向服务器使用的客户的,而不是制造商,如应用性能评价、优化、瓶颈分析,应用方案咨询等。
五 我们的战略

|