阎良做网站,免费服务器空间,南京百度推广网站,网站公司广州什么是故障管理
故障管理是网络管理的组成部分#xff0c;涉及检测、隔离和解决问题。如果实施得当#xff0c;网络故障管理可以使连接、应用程序和服务保持在最佳水平#xff0c;提供容错能力并最大限度地减少停机时间。专门为此目的设计的平台或工具称为故障管理系统。
…什么是故障管理
故障管理是网络管理的组成部分涉及检测、隔离和解决问题。如果实施得当网络故障管理可以使连接、应用程序和服务保持在最佳水平提供容错能力并最大限度地减少停机时间。专门为此目的设计的平台或工具称为故障管理系统。
另一方面只有在停电发生后才发现故障并将其告知现场团队是没有用的。当网络管理员努力定位、分析和解决问题时可能会出现明确的生产力损失和操作故障。理想的故障管理系统应该能够在潜在的中断发生之前检测到它并在它影响最终用户之前采取预防措施。它甚至可以自动执行 L1 和 L2 故障排除任务使网络管理员能够专注于其他关键任务。
故障在任何网络中都是不可避免的如果没有实施适当的机制来处理它们它可能会意外造成严重的中断。这就是为什么 IT 管理团队依赖于具有故障解决功能的监视工具的原因。
功能强大的网络故障管理工具在以下方面有所帮助
它使您能够分析网络性能趋势并接收警报以主动解决问题。它使管理员能精确定位网络瓶颈。加快故障解决过程并最大限度地缩短平均修复时间MTTR。通过电子邮件/短信发送有关网络故障的即时通知。
网络故障管理工具
OpManager是一个强大的网络故障监控解决方案其强大的故障整改功能有助于保持理想的网络性能。
通过在OpManager 中配置网络发现配置文件管理员可以一次性将设备添加到网络中并批准它们。设备列表将在清单页面上提供此外可以向下钻取以从快照页面获得更深入的见解导航到清单 - 设备然后单击设备以查看其快照页面。
为了确保网络正常运行时间OpManager会ping设备的可用性轮询间隔可由用户定义并在设备在ping后无法响应时发出警报以通知网络管理员。当设备在多次 ping 后仍无法响应时警报的严重性会上升。有 4 个基于严重性的阈值级别注意、困难、严重和重置
此外对于与设备关联的每个监视器例如CPU 利用率您可以配置阈值级别。因此每当该值超过给定的阈值水平时都会发出警报。例如当设备违反注意力阈值级别时将发出具有注意力严重性的警报管理员可以在它达到下一个严重性级别之前采取纠正措施。 这使管理员能够在问题成为潜在威胁之前主动修复问题。针对阈值违规引发的警报可用于
配置通知配置文件以获取即时通知配置告警升级规则升级无人值守告警设计并执行工作流以自动纠正问题
警报通知
配置通知配置文件是处理引发的警报的一种方式。您可以根据自己的喜好配置为接收选择性警报的详细信息。虽然它主要用于通过短信或电子邮件向 IT 管理员/管理团队发送警报的详细信息但它也可用于运行程序/记录工单和执行其他操作。
OpManager的移动平台适用于Android和iOS用户使您能够在手机上监控整个IT基础设施。该应用程序允许您在设备关闭和其他性能下降问题时获得即时推送通知。您还可以配置自定义推送通知以获取关键服务器的状态这样您就不会在远程时错过任何网络更新。
告警升级
UI 上的“警报”选项卡提供了警报的完整列表您可以向下钻取以了解有关每个警报的更多详细信息。每个警报都有一组关联的操作确认、取消确认、删除和清除。
有时当警报长时间无人看管时可以通过警报升级规则进行升级您可以在其中配置升级警报的条件。这可确保由于人为错误而无人看管的严重违规行为不会影响您的网络性能。
报警抑制
有时当某些设备处于维护状态时可能会考虑到这些设备不可用而发出警报。为避免这种情况您可以配置警报抑制规则从而防止在定义的时间段内引发警报。
自动修复网络故障
OpManager的故障管理系统以自动化的分步方式执行故障修复过程如下所示
故障检测系统发现服务交付已中断或性能下降。故障诊断与隔离确定故障的根源例如组件故障或断电及其在网络拓扑中的位置。事件关联和聚合单个故障可能导致多个告警故障管理系统通常会为管理员对相关事件进行分组并提供根本原因分析。恢复服务网络管理系统会自动执行任何预配置的脚本或程序以尽快启动并运行服务。问题解决纠正、修理或更换故障源。根据病因可能需要人工干预。IT 工作流自动化OpManager中的工作流大大缩短了平均修复时间并加快了故障解决速度。工作流无需代码易于实施可自动执行某些日常操作您可以简单地设计一个工作流以便在故障识别或阈值违规或任何其他重复性任务后执行纠正措施。