基本信息
浏览量:5
职业迁徙
个人简介
研究概况
在IBM T. J. Watson研究院从事了十年研究工作,研究了复杂分布式系统的监控和可信性,主持了多项IBM云系统相关的科研课题,曾负责 IBM 健康云的安全可靠性部门,下辖多个系统可靠性服务和系统安全性服务的组。研究成果已经应用和部署在SCE、CMS、Watson Health等多个IBM云系统中,服务于500+客户20000+用户。其中“企业专有云CMS的灾难重建”项目获得IBM杰出成就奖。由于在cloud resiliency上的出色学术贡献,被选为IEEE Senior Member,并曾在美国北卡州立大学任兼职教授,给学生讲授cloud resiliency课程。
(1)第一个提出了cloud resiliency的参考体系架构。基于该参考架构研发了多个复杂云系统上的resiliency服务,包括全平台的自动化灾难重建,在multi-cloud, multi-organization平台上保证数据一致性的高效备份和系统恢复,高可用性下的组件维护和调度,提高混合云上orchestration和automation的可用性,对云系统服务可用性的长期连续监测等。深入分析和清晰阐述了resource oversubscription对于云系统设计和运维的影响和意义,并针对resource oversubscription带来的可能性能降低提出了解决方案。
(2)对复杂实际系统的checkpoint/recovery行为的深入研究。高频VM checkpoint提供了高效的snapshot,但是在实际云系统中表现不佳,因为没有考虑error propagation的影响。测量了error propagation情况,提出了应对算法。构建精确模型分析了超级计算机上coordinated checkpoint的复杂行为,包括checkpoint协议,计算节点和I/O节点的行为,checkpoint或recovery当中出错,burst error等,对coordinated checkpoint的稳定性、可扩展性等做了详尽分析。
(3)提出了一种通用的深度监控测量技术REPTrace来对所有处理服务请求的系统建构完整的端到端请求执行路径并覆盖完备的执行场景。不依赖于源代码或文档,且系统组件可来自不同供应商。实验表明该追踪技术能有效检测复杂平台上服务运行的错误,而且能自动提取系统运行机制的知识,包括多层系统的全平台结构图和未记入文档的重要特性。
(4)精准错误注入和形式验证工作。设计了专门语言描述执行场景,研发了运行引擎来根据语言脚本展开系统场景及注入错误。该工作极大增加了错误注入技术的场景覆盖,并可用于出错的root cause。使用形式方法对Linux内核行为进行逻辑推演,找到了内核挂起的corner scenarios,首次证实了形式方法对于像Linux内核这样复杂程度的系统也能起作用。
在IBM T. J. Watson研究院从事了十年研究工作,研究了复杂分布式系统的监控和可信性,主持了多项IBM云系统相关的科研课题,曾负责 IBM 健康云的安全可靠性部门,下辖多个系统可靠性服务和系统安全性服务的组。研究成果已经应用和部署在SCE、CMS、Watson Health等多个IBM云系统中,服务于500+客户20000+用户。其中“企业专有云CMS的灾难重建”项目获得IBM杰出成就奖。由于在cloud resiliency上的出色学术贡献,被选为IEEE Senior Member,并曾在美国北卡州立大学任兼职教授,给学生讲授cloud resiliency课程。
(1)第一个提出了cloud resiliency的参考体系架构。基于该参考架构研发了多个复杂云系统上的resiliency服务,包括全平台的自动化灾难重建,在multi-cloud, multi-organization平台上保证数据一致性的高效备份和系统恢复,高可用性下的组件维护和调度,提高混合云上orchestration和automation的可用性,对云系统服务可用性的长期连续监测等。深入分析和清晰阐述了resource oversubscription对于云系统设计和运维的影响和意义,并针对resource oversubscription带来的可能性能降低提出了解决方案。
(2)对复杂实际系统的checkpoint/recovery行为的深入研究。高频VM checkpoint提供了高效的snapshot,但是在实际云系统中表现不佳,因为没有考虑error propagation的影响。测量了error propagation情况,提出了应对算法。构建精确模型分析了超级计算机上coordinated checkpoint的复杂行为,包括checkpoint协议,计算节点和I/O节点的行为,checkpoint或recovery当中出错,burst error等,对coordinated checkpoint的稳定性、可扩展性等做了详尽分析。
(3)提出了一种通用的深度监控测量技术REPTrace来对所有处理服务请求的系统建构完整的端到端请求执行路径并覆盖完备的执行场景。不依赖于源代码或文档,且系统组件可来自不同供应商。实验表明该追踪技术能有效检测复杂平台上服务运行的错误,而且能自动提取系统运行机制的知识,包括多层系统的全平台结构图和未记入文档的重要特性。
(4)精准错误注入和形式验证工作。设计了专门语言描述执行场景,研发了运行引擎来根据语言脚本展开系统场景及注入错误。该工作极大增加了错误注入技术的场景覆盖,并可用于出错的root cause。使用形式方法对Linux内核行为进行逻辑推演,找到了内核挂起的corner scenarios,首次证实了形式方法对于像Linux内核这样复杂程度的系统也能起作用。
研究兴趣
论文共 101 篇作者统计合作学者相似作者
按年份排序按引用量排序主题筛选期刊级别筛选合作者筛选合作机构筛选
时间
引用量
主题
期刊级别
合作者
合作机构
Xingjian Zhang,Yinqin Zhao,Chang Liu,Long Wang, Xin Yang, Yefei Hou, Zhongwen Lan, Xining Hu, Beibei Miao,Ming Yang, Xiangyi Jing, Sijie Li
2023 IEEE 34th International Symposium on Software Reliability Engineering (ISSRE)pp.183-194, (2023)
引用0浏览0EIWOS引用
0
0
Springer Series in Reliability Engineering System Dependability and Analyticspp.3-5, (2022)
IEEE Transactions on Services Computingpp.1-1, (2022)
Yinqin Zhao,Long Wang
2022 IEEE 27th Pacific Rim International Symposium on Dependable Computing (PRDC)pp.258-260, (2022)
加载更多
作者统计
合作学者
合作机构
D-Core
- 合作者
- 学生
- 导师
数据免责声明
页面数据均来自互联网公开来源、合作出版商和通过AI技术自动分析结果,我们不对页面数据的有效性、准确性、正确性、可靠性、完整性和及时性做出任何承诺和保证。若有疑问,可以通过电子邮件方式联系我们:report@aminer.cn