|
课题负责人:霍志刚
起止时间:2002年9月—2003年9月
操作系统已经crash掉了!这时,系统中的所有进程就“全军覆没”了吗?目前的答案为:是。我们的目标是:抢救尽可能多的“遇难进程”(即进行Crash-time
Process Migration)。学会了这种妙手回春的“医术”,我们还可以为正常运行的操作系统做“定期的身体检查”----监控系统运行状态;或者进行某些局部的“手术”----动态更新一些系统变量、一些系统模块,或进行一般的Process
Migration。如果一切顺利,我们将进行世界上首例计算机“大脑移植”手术----操作系统动态迁移(部署)。我们使用的手术刀是“远程存储访问(Remote
Memory Access)”。
当前,操作系统的高可用性(High Availability)的研究方兴未艾,还未形成相应的标准或者公认的好方法。尤其是当计算机系统出现死机的情况下,一般的高可用系统对那些处在出现故障的机器上的任务和进程是无能为力的。例如,基于Heart-Beat的一些高可用系统,只是在某个被监控节点出现故障后,将一些“无状态的”服务程序在另一个备用节点上自动重启动(美其名曰:恢复)。与此同时,为了提高通信性能,越来越多的网络通信设备具有了通信协处理器。在这些“智能网卡”上,我们可以独立于主机的CPU实现具有一定复杂程度的特定功能的应用。如果这些智能网络设备具有专用的DMA控制器,那么,再获得系统PCI总线的Mater身份,就可以实现对主机的物理地址空间的访问。这种远程存储访问(Remote
Memory Access)与传统的通信协议相比,通信开销很小,这对快速恢复整个系统或者某一应用进程来说,是很有吸引力的。综合上述背景,我们可以看到一种独立于主机处理器的基于远程存储访问的高可用机制在硬件上的客观条件已经具备。我们可以在一个以这种“智能网卡”互联的网络环境中,从任何一台正常运行的机器上远程操作已经处于死机状态的另一台机器的存储空间,完成保存数据等操作,甚至恢复某个进程的运行。
|