运维的核心:监控
作为运维人员,想要对系统出现的问题进行排查和处理,监控就是核心
这篇主要写监控的概述,以及单机时代监控可分为几个方向,怎么实现监控,把监控体系大纲定位清楚,内容会慢慢写全的,后文章续会把相关命令,服务软件详细写全。
为什么需要监控?
- 对系统不间断实时检测
- 实时反馈系统当前状态
- 保证服务可靠性安全性
- 保证业务持续稳定进行
监控的核心是什么?
- 发现问题:当系统发生故障报警,我们会收到故障报警的信息
- 定位问题:故障邮件一般都会写某某主机故障、具体故障的内容,我们需要对报警内容进行分析,比如一台服务器连不上:我们就需要考虑是网络问题、还是负载太高导致长时间无法连接,又或者某开发触发了防火墙禁止的相关策略等等,我们就需要去分析故障具体原因。
- 解决问题:然我们了解到故障的原因后,就需要通过故障解决的优先级去解决该故障。
- 总结问题:当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。
监控流程?
- 数据采集:Zabbix通过SNMP、Agent、ICMP、SSH、IPMI等对系统进行数据采集
- 数据存储:Zabbix存储在MySQL上,也可以存储在其他数据库服务
- 数据分析:当我们事后需要复盘分析故障时,zabbix能给我们提供图形以及时间等相关信息,方面我们确定故障所在。
- 数据展示:web界面展示、(移动APP、java_php开发一个web界面也可以)
- 监控报警:电话报警、邮件报警、微信报警、短信报警、报警升级机制等(无论什么报警都可以)
- 报警处理:当接收到报警,我们需要根据故障的级别进行处理,比如:重要紧急、重要不紧急,等。根据故障的级别,配合相关的人员进行快速处理。
入手监控分类
- 从环境对监控进行分类可以分为:
- 硬件监控:路由器,交换机,防火墙
- 系统监控:CPU,MEM,IO,进程,TCP
- 服务监控:nginx,php,tomcat,redis,meecache,mysql
- WEB监控:请求时间,响应时间,加载时间
- 日志监控:ELK(收集,存储,分析,展示)
- 安全监控:Firewalld WAF(nginx+lua),安全宝,牛顿云,安全狗
- 网络监控:smokeping(多机房)
- 业务监控:活动引入多少流量,产生多少注册量,带来多少收益
- 从osi7层对监控进行分类可以分为:
- 应用层:协议http https ssh nginx mysql rsync tomcat(进程,URL,服务是不是正常)
- 表示层:表示层
- 会话层:会话层
- 传输层:TCP/UDP端口(常见端口监控telnet/ss/netstat/lsof/nc/nmap)
- 网络层:IP地址(带宽,ping。tracertroute(tracert)
- 数据链路层:MAC地址(网络设备SNMP协议)
- 物理层:设备
- 监控项目:cpu,mem,disk,cpu温度,磁盘io,RAID,负载
- CPU:top/htop/vmstat/lscpu/w/nmap
- MEM:top,free,ps aux, iotop(磁盘io,swap)
- 磁盘IO:iotop,iostat,
- 产看raid信息工具:megacli
- 查看硬件信息工具:ipmitool,lm_sensors(温度)
继续阅读

我的微信
这是我的微信扫一扫
评论