节点文献

基于自主计算的集群故障管理系统结构

Cluster system fault management architecture based on autonomic computing

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 李璟刘宏伟董剑舒燕君

【Author】 LI Jing,LIU Hongwei,DONG Jian,SHU Yanjun(Department of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)

【机构】 哈尔滨工业大学计算机科学与技术学院

【摘要】 随着计算机技术的不断发展和系统规模的不断扩大,高可用集群系统的管理和维护变得越来越复杂。为了提供稳定的计算环境,并及时发现定位系统中的故障隐患,提出了故障的主动管理方法。该文首先分析了自主计算的相关概念和技术,在分析集群计算环境管理需求的基础上,提出了一种基于规则的自主故障管理软件结构。根据集群系统的特点,选择分级管理方式,设计了局部故障管理模块(LFM)和全局故障管理模块(GFM),并具体说明了二者内部的功能结构。

【Abstract】 With the continuous development of computer technologies and the expansion of system scales,cluster system management and maintenance is becoming more complex.A proactive fault management method for cluster computing systems was developed to provide reliable computing resources.The cluster fault management software architecture is based on autonomic computing and the requirements of cluster management.The level management system uses local and globe fault management.The functional structures of these two models are described in detail.

【基金】 国家“八六三”高技术项目(2006AA01A103)
  • 【文献出处】 清华大学学报(自然科学版) ,Journal of Tsinghua University(Science and Technology) , 编辑部邮箱 ,2011年S1期
  • 【分类号】TP338
  • 【下载频次】149
节点文献中: 

本文链接的文献网络图示:

本文的引文网络