面试Nagios监控
1.Nagios Cacti比较
nagios 适合监视大量服务器上面的大批服务是否正常, 重点并不在图形化的监控, 其集成的很多功能例如报警,都是 cacti 没有或者很弱的. cacti 主要用途还是用来收集历史数据和画图, 所以界面比 nagios 漂亮很多。
Nagios 性能较好
Cacti 一般用于流量监控,可以记录历史数据与绘出流量变化图
Nagios 可以用于自定制化监控,可以自己通过编写脚本实现复杂的监控逻辑
Nagios 有着丰富的报警方式是Cacti所没有的。
2.Nagios配置与排查步骤:
磁盘使用,CPU,内存,负载,等需要NRPE插件的服务的配置与排查步骤
1.被监控端安装NRPE插件,配置监控命令(命令名字1),注意修改allow_host允许Nagios主机来监控被监控端主机。本地执行命令1对应的具体命令(以nagios用户身份),如果不可以,查看这个具体命令nagios是否有执行权限。
2.在Nagios服务器端执行check_nrpe命令-H被监控端主机IP地址-c被监控端的命令的名字1,如果成功继续配置Nagios配置文件,如果不成功,检查是否是网络存在问题,或者allow_host没有配置nagios。
3.check_nrpe 如果成功的情况下,先配置command.cfg 添加监控命令2(可以和命令1同名这样方便管理) 。
4.添加服务 调用监控命令2
可能出现问题:complete SSL handshake 失败 (ssl握手失败,原因可能是allowed_host没有添加nagios主机)
NRPE配置不生效问题
需要杀死nrpe进程 重新执行 -c -d的命令启动。就生效了
3.Nagios 问题准备思路
如何将在回答Nagios监控的时候体现你的技术水平(注意需要提前做好充足的准备)
Nagios监控可以发现部分问题,但是有些问题可能是我们没有预想到的。
以电商为例(潜移默化中引出你的服务器架构,加入你的调优技巧):对于电商的前端主页,我们可以进行check_http监控可以获得页面的响应时间,针对相应时间可以设置报警阈值,例如超过3秒进行告警,超过5秒严重告警。
现在发生了主页响应缓慢报警,首先手动通过浏览器查看是否主页响应缓慢,如果缓慢,使用firebug,httpwatch等工具查看具体是哪个元素加载缓慢,
1.如果是图片等静态元素缓慢,查看是否有缓存服务器,squid,varnish,
有直接定位到缓存服务器下载图片看是否缓慢,是否有缓存
再定位到缓存服务器后端的apache看是否缓慢。
apache快,缓存服务器慢,则应该问题处在缓存服务器上,看看缓存服务器是否有问题。
定位到问题的服务器后,具体查查是什么原因导致的慢,
针对准备一个调优的案例CPU,网络,磁盘,内存等,调优后解决这个问题。
2.如果是动态元素慢查下是否mysql数据库是否有问题,是否能调整架构增加memcached等缓存以减轻数据库压力。
1.Nagios Cacti比较
nagios 适合监视大量服务器上面的大批服务是否正常, 重点并不在图形化的监控, 其集成的很多功能例如报警,都是 cacti 没有或者很弱的. cacti 主要用途还是用来收集历史数据和画图, 所以界面比 nagios 漂亮很多。
Nagios 性能较好
Cacti 一般用于流量监控,可以记录历史数据与绘出流量变化图
Nagios 可以用于自定制化监控,可以自己通过编写脚本实现复杂的监控逻辑
Nagios 有着丰富的报警方式是Cacti所没有的。
2.Nagios配置与排查步骤:
磁盘使用,CPU,内存,负载,等需要NRPE插件的服务的配置与排查步骤
1.被监控端安装NRPE插件,配置监控命令(命令名字1),注意修改allow_host允许Nagios主机来监控被监控端主机。本地执行命令1对应的具体命令(以nagios用户身份),如果不可以,查看这个具体命令nagios是否有执行权限。
2.在Nagios服务器端执行check_nrpe命令-H被监控端主机IP地址-c被监控端的命令的名字1,如果成功继续配置Nagios配置文件,如果不成功,检查是否是网络存在问题,或者allow_host没有配置nagios。
3.check_nrpe 如果成功的情况下,先配置command.cfg 添加监控命令2(可以和命令1同名这样方便管理) 。
4.添加服务 调用监控命令2
可能出现问题:complete SSL handshake 失败 (ssl握手失败,原因可能是allowed_host没有添加nagios主机)
NRPE配置不生效问题
需要杀死nrpe进程 重新执行 -c -d的命令启动。就生效了
3.Nagios 问题准备思路
如何将在回答Nagios监控的时候体现你的技术水平(注意需要提前做好充足的准备)
Nagios监控可以发现部分问题,但是有些问题可能是我们没有预想到的。
以电商为例(潜移默化中引出你的服务器架构,加入你的调优技巧):对于电商的前端主页,我们可以进行check_http监控可以获得页面的响应时间,针对相应时间可以设置报警阈值,例如超过3秒进行告警,超过5秒严重告警。
现在发生了主页响应缓慢报警,首先手动通过浏览器查看是否主页响应缓慢,如果缓慢,使用firebug,httpwatch等工具查看具体是哪个元素加载缓慢,
1.如果是图片等静态元素缓慢,查看是否有缓存服务器,squid,varnish,
有直接定位到缓存服务器下载图片看是否缓慢,是否有缓存
再定位到缓存服务器后端的apache看是否缓慢。
apache快,缓存服务器慢,则应该问题处在缓存服务器上,看看缓存服务器是否有问题。
定位到问题的服务器后,具体查查是什么原因导致的慢,
针对准备一个调优的案例CPU,网络,磁盘,内存等,调优后解决这个问题。
2.如果是动态元素慢查下是否mysql数据库是否有问题,是否能调整架构增加memcached等缓存以减轻数据库压力。
编辑回复