工程师单次服务案例

2018-12-20 11:12

5月19日,神行云兽平台上突然接到这样一个需求:“业务的数据库交互的下载速度慢,发现有4个坏块,急需要工程师排查故障并解决。设备信息:DB2数据库。9.5版本运行系统环境windows2003  物理机X3950M2”。看到需求后,值班的运营人员马上与客户进行详细的沟通,与此同时,将此工单推送给了线上工程师。

 

也许是周六下午的原因吧,平台迟迟没有收到报名反馈……

 

于是,平台运营人员开始在系统中搜索DB2标签的工程师,并与他们进行了沟通,遗憾的是,他们都无法按时前往客户现场。

 

就在此时,一位电话沟通过的DB2工程师主动给我们打来电话,说他有朋友可以上门提供服务,并推荐朋友注册成为神行工程师。就这样,赵工首次以神行工程师的身份,接到了第一份工单。

 

终于找到合适的工程师了,虽说过程有些复杂,但这也只用了30分钟,平台与赵工进行详细沟通。此时是下午4点30分,1小时后,赵工抵达客户现场。

 

数据库问题本就比较复杂,又事关客户业务,赵工丝毫不敢怠慢,紧锣密鼓开始排查。起先,赵工发现数据库访问速度降低,随即便做了优化,赵工做了统计信息更新/大事务/性能差的sql及应用package的绑定,应用跑批“匹配和更新”环节,提升到由1000/每秒,提升到2000/每秒,但是数据“上载”性能仍未有提升,可以排除数据库的性能问题,但下载速度慢的问题并未得到解决,排查仍在继续……

 

此时已是晚上11点,经过一再的排查,最终可以排除数据库性能问题,确定为应用服务器卡顿,赵工与客户进行沟通,客户协调硬件工程师配合处理,经过6小时的奋战,赵工的任务终于可以结束了,此时已是5月20日凌晨,赵工离开前说道:“在处理应用服务器时,如果需要数据库支持可以随时联系我”。

 

5月20日,我们对客户进行电话回访,客户说,故障已经解决了,虽然最后确认不是DB2的问题,但是工程师对数据库做了全面检查及优化,表示对赵工的专业态度及高技能非常认可。对平台的响应速度表示深切的肯定。

 

这次紧急工程师服务项目中,数据库其实是没有故障的,只是性能出现了问题,神行云兽平台实际上是帮着客户做了一次数据库的优化,这是软件类产品维保的难点,和硬件类那种0和1的故障相比,软件的问题更加模糊,与其他产品的耦合关联更多,难度也更大。

 

此次问题的顺利解决主要得益于神行云兽平台广泛的工程师资源和秒级的服务响应速度,接下来平台会进一步扩大工程师技能标签,覆盖更多服务场景。