运维的核心

root
233
文章
0
评论
2020年1月20日23:04:18 评论 1296字阅读4分19秒

运维的核心:监控

作为运维人员,想要对系统出现的问题进行排查和处理,监控就是核心

这篇主要写监控的概述,以及单机时代监控可分为几个方向,怎么实现监控,把监控体系大纲定位清楚,内容会慢慢写全的,后文章续会把相关命令,服务软件详细写全。

为什么需要监控?

  • 对系统不间断实时检测
  • 实时反馈系统当前状态
  • 保证服务可靠性安全性
  • 保证业务持续稳定进行

监控的核心是什么?

  • 发现问题:当系统发生故障报警,我们会收到故障报警的信息
  • 定位问题:故障邮件一般都会写某某主机故障、具体故障的内容,我们需要对报警内容进行分析,比如一台服务器连不上:我们就需要考虑是网络问题、还是负载太高导致长时间无法连接,又或者某开发触发了防火墙禁止的相关策略等等,我们就需要去分析故障具体原因。
  • 解决问题:然我们了解到故障的原因后,就需要通过故障解决的优先级去解决该故障。
  • 总结问题:当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。

监控流程?

  • 数据采集:Zabbix通过SNMP、Agent、ICMP、SSH、IPMI等对系统进行数据采集
  • 数据存储:Zabbix存储在MySQL上,也可以存储在其他数据库服务
  • 数据分析:当我们事后需要复盘分析故障时,zabbix能给我们提供图形以及时间等相关信息,方面我们确定故障所在。
  • 数据展示:web界面展示、(移动APP、java_php开发一个web界面也可以)
  • 监控报警:电话报警、邮件报警、微信报警、短信报警、报警升级机制等(无论什么报警都可以)
  • 报警处理:当接收到报警,我们需要根据故障的级别进行处理,比如:重要紧急、重要不紧急,等。根据故障的级别,配合相关的人员进行快速处理。

入手监控分类

  • 从环境对监控进行分类可以分为:
    • 硬件监控:路由器,交换机,防火墙
    • 系统监控:CPU,MEM,IO,进程,TCP
    • 服务监控:nginx,php,tomcat,redis,meecache,mysql
    • WEB监控:请求时间,响应时间,加载时间
    • 日志监控:ELK(收集,存储,分析,展示)
    • 安全监控:Firewalld WAF(nginx+lua),安全宝,牛顿云,安全狗
    • 网络监控:smokeping(多机房)
    • 业务监控:活动引入多少流量,产生多少注册量,带来多少收益
  • 从osi7层对监控进行分类可以分为:
    • 应用层:协议http https ssh nginx mysql rsync tomcat(进程,URL,服务是不是正常)
    • 表示层:表示层
    • 会话层:会话层
    • 传输层:TCP/UDP端口(常见端口监控telnet/ss/netstat/lsof/nc/nmap)
    • 网络层:IP地址(带宽,ping。tracertroute(tracert)
    • 数据链路层:MAC地址(网络设备SNMP协议)
    • 物理层:设备
      • 监控项目:cpu,mem,disk,cpu温度,磁盘io,RAID,负载
      • CPU:top/htop/vmstat/lscpu/w/nmap
      • MEM:top,free,ps aux, iotop(磁盘io,swap)
      • 磁盘IO:iotop,iostat,
      • 产看raid信息工具:megacli
      • 查看硬件信息工具:ipmitool,lm_sensors(温度)

继续阅读
历史上的今天
1月
20
weinxin
我的微信
这是我的微信扫一扫
  • 文本由 发表于 2020年1月20日23:04:18
  • 除非特殊声明,本站文章均为原创,转载请务必保留本文链接
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: