← 返回
16.2 运维管理 1. 监控工具 监控工具的种类可以分为: ① IT 基础设施监控,如主机、网络、存储、应用、机房动力环境监控等; ② 性能监控,包括业务性能监控、应用性能监控和网络性能监控; ③ 业务运营监控,包括业务运营管理、业务流程监控、业务容量监控等; 监控工具可以是对单一功能的监控,也可以是综合性的运维监控平台。 (1)常见监控工具 ① Zabbix Zabbix 是一个组织级的开源分布式监控解决方案,它基于 Web 界面提供分布式系统 监控以及网络监控功能,可实时监控数千台服务器、虚拟机,以及应用程序、服务、数 据库、网站、云等,并支持采集百万级的监控指标。 ② Nagios Nagios 是一款用于监控系统、网络和 IT 基础设施的开源应用程序,能有效监控硬件、 网络、应用、服务、业务流程和 Windows、Linux、 UNIX 等操作系统的各项状态和性能, 并根据设定的阈值和关键指标定期检查系统或服务状态,在发现异常时通过短信、邮件 等方式及时通知网站运维人员,可运行自动脚本来控制和纠正问题,在状态恢复后发出 正常通知。 ③ Prometheus Prometheus 是一套开源的系统监控报警框架(采用拉(Pull)模型架构),它既适用 于面向服务器等硬件指标的监控,也适用于高动态的面向服务架构的监控,包括微服务 及云环境监控。 (2)统一运维监控平台 统一运维监控平台完全满足复杂的集成网络空间和不同业务单元对监控的不同需 求,可以将所有业务系统中所涉及的网络、硬件、软件、数据库等资源纳入统一的运维 监控平台中,并通过消除管理软件、数据采集手段的差别,对各种不同的数据来源实现 统一采集、统一监控、统一告警和统一展示等一整套监控管理,最终实现运维规范化、 自动化、智能化的运维管理。 常见的运维监控平台建设方式:基于开源监控软件自主开发、定制商业化运维监控 平台。 统一运维监控体系一般包括数据采集、数据检测、告警管理、故障管理、视图管理 和监控管理六大模块。 2. 过程管理工具 过程管理工具的作用主要是根据合同约定的服务级别协议(SLA),对运行维护服务的 交付过程或 IT 服务的全过程进行管理,实现 IT 服务的可视、可管、可控、可衡量,从 而提升 IT 服务质量、降低服务风险、提高服务满意度。 ITSM(IT Service Management, IT 服务管理)系统是实现过程管理的主要工具。ITSM 是一套面向过程、以客户为中心的管理方法和规范, 通过集成 IT 服务和业务,帮助组织 对 IT 系统的规划、研发、实施和运营进行有效管理, 提高 IT 服务能力。核心的 ITSM 流 程包括服务请求管理、事件管理、问题管理、变更管理等。通过使用 ITSM 系统,IT 服 务团队不但可以满足业务需求,还能针对组织的变化、转型和发展实施战略方案 市场上常见 ITSM 工具: ① Jira Service Managemen。 Atlassian 团队创建了名为 Jira Service Management 的单独产品线,将基本架构扩展得 更易于普通用户访问,同时专注于工作流程,并为自助服务增加了移动端的支持。 它支持运维团队基于模板创建服务台、定制请求表单, 将来自电子邮件、聊天工具、 服务台和其他渠道的请求整合到一起,使用批量工作单操作,自动将服务请求、事件、 问题和变更进行分类,并可利用人工智能技术为客户提供自助服务和虚拟支持人员。 ② ServiceHot ITSM,已完成国产化适配,可在国产化计算机环境中稳定运行。 ServiceHot ITSM 提供的服务流程管理套件具有可视化管理能力,满足对事件管理、 问题管理、变更管理、发布管理、配置管理、服务级别管理的需求。 平台内置了 IT 服务的全部流程,开箱即用、界面友好简单、功能模块自由扩展。 系统底层采用可视化引擎、拖拽流程设计,做到快速落地实施、无须繁重的二次开 发。 ServiceHot ITSM 软件平台已完成国产化适配,可在国内主流芯片(如龙芯中科、飞 腾、鲸鹏等) 、操作系统(如中标麒麟、银河麒麟、红旗、红帽等) 、数据库(如高斯、 达梦、人大金仓等)等国产化计算机环境中稳定运行。 3. 自动化专用工具 自动化专用工具是在 IT 运维服务过程中常用到一些专用工具,用于在特殊场景或需 求下实现监控工具与过程管理工具无法提供的服务的必不可少的运维工具。 (1)作业调度/批处理工具 作业调度/批处理工具对作业任务进行统一编排和管理,提供多种调度方式,对作业 情况进行全面监控和分析并提供反馈。 作业调度/批处理工具用于实现常规化、标准化作业的统一管理,降低作业执行错误 风险,降低服务人员的工作强度,提高服务质量和服务效率。 常见作业调度和批处理工具: Puppet,主要用于管理和部署各种应用程序和服务。 SaltStack,是 C/S 模式,其执行过程需要等待客户端全部返回,如果客户端没有及时 返回或者没有响应的话,可能会导致部分机器没有执行结果。 Ansible,安装使用都很简单,支持虚拟容器多层级的部署。
📋 信息
💬 答案
📝 字幕
视频信息
视频地址
复制
封面地址
复制
Provider
答案文本
复制
视频字幕
复制
运维管理是确保IT系统稳定运行的关键环节。监控工具作为运维管理的核心组成部分,可以分为三大类别:第一类是IT基础设施监控,包括主机、网络、存储、应用和机房动力环境监控;第二类是性能监控,涵盖业务性能、应用性能和网络性能监控;第三类是业务运营监控,包括业务运营管理、业务流程监控和业务容量监控。这些监控工具既可以是单一功能的专用工具,也可以是综合性的运维监控平台。