< 公开讨论

面试Nagios监控

回复收藏

历史记录服务器 ip地址流量监控资料分享

面试Nagios监控
1.Nagios Cacti比较
nagios 适合监视大量服务器上面的大批服务是否正常, 重点并不在图形化的监控, 其集成的很多功能例如报警,都是 cacti 没有或者很弱的. cacti 主要用途还是用来收集历史数据和画图, 所以界面比 nagios 漂亮很多。

Nagios 性能较好
Cacti  一般用于流量监控，可以记录历史数据与绘出流量变化图
Nagios 可以用于自定制化监控，可以自己通过编写脚本实现复杂的监控逻辑
Nagios 有着丰富的报警方式是Cacti所没有的。

2.Nagios配置与排查步骤：
磁盘使用，CPU，内存，负载，等需要NRPE插件的服务的配置与排查步骤
1.被监控端安装NRPE插件，配置监控命令（命令名字1），注意修改allow_host允许Nagios主机来监控被监控端主机。本地执行命令1对应的具体命令（以nagios用户身份），如果不可以，查看这个具体命令nagios是否有执行权限。
2.在Nagios服务器端执行check_nrpe命令-H被监控端主机IP地址-c被监控端的命令的名字1，如果成功继续配置Nagios配置文件，如果不成功，检查是否是网络存在问题，或者allow_host没有配置nagios。
3.check_nrpe 如果成功的情况下，先配置command.cfg 添加监控命令2（可以和命令1同名这样方便管理）。
4.添加服务调用监控命令2
可能出现问题：complete SSL handshake 失败（ssl握手失败，原因可能是allowed_host没有添加nagios主机）
NRPE配置不生效问题
需要杀死nrpe进程重新执行 -c -d的命令启动。就生效了

3.Nagios 问题准备思路
如何将在回答Nagios监控的时候体现你的技术水平(注意需要提前做好充足的准备)
Nagios监控可以发现部分问题，但是有些问题可能是我们没有预想到的。
以电商为例（潜移默化中引出你的服务器架构，加入你的调优技巧）：对于电商的前端主页，我们可以进行check_http监控可以获得页面的响应时间，针对相应时间可以设置报警阈值，例如超过3秒进行告警，超过5秒严重告警。
现在发生了主页响应缓慢报警，首先手动通过浏览器查看是否主页响应缓慢，如果缓慢，使用firebug,httpwatch等工具查看具体是哪个元素加载缓慢，
1.如果是图片等静态元素缓慢，查看是否有缓存服务器，squid,varnish,
   有直接定位到缓存服务器下载图片看是否缓慢，是否有缓存
   再定位到缓存服务器后端的apache看是否缓慢。
   apache快，缓存服务器慢，则应该问题处在缓存服务器上，看看缓存服务器是否有问题。
   定位到问题的服务器后，具体查查是什么原因导致的慢，
   针对准备一个调优的案例CPU，网络，磁盘，内存等，调优后解决这个问题。

2.如果是动态元素慢查下是否mysql数据库是否有问题，是否能调整架构增加memcached等缓存以减轻数据库压力。

2016-05-06 22:45 举报评分