小知识:Nagios的安装与使用详细教程

nagios简介

  nagios是一款开源的电脑系统和网络监视工具,能有效监控windows、linuxunix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。

  nagios原名为netsaint,由ethan galstad开发并维护至今。nagios是一个缩写形式: “nagios aint gonna insist on sainthood” sainthood 翻译为圣徒,而”agios”是”saint”的希腊表示方法。nagios被开发在linux下使用,但在unix下也工作得非常好。

主要功能

网络服务监控(smtp、pop3、http、nntp、icmp、snmp、ftp、ssh)主机资源监控(cpu load、disk usage、system logs),也包括windows主机(使用nsclient++ plugin)可以指定自己编写的plugin通过网络收集数据来监控任何情况(温度、警告……)可以通过配置nagios远程执行插件远程执行脚本远程监控支持ssh或ssl加通道方式进行监控简单的plugin设计允许用户很容易的开发自己需要的检查服务,支持很多开发语言(shell scripts、c++、perl、ruby、python、php、c#等)包含很多图形化数据plugins(nagiosgraph、nagiosgrapher、pnp4nagios等)可并行服务检查能够定义网络主机的层次,允许逐级检查,就是从父主机开始向下检查当服务或主机出现问题时发出通告,可通过email, pager, sms 或任意用户自定义的plugin进行通知能够自定义事件处理机制重新激活出问题的服务或主机自动日志循环支持冗余监控包括web界面可以查看当前网络状态,通知,问题历史,日志文件等

支持短信,邮件通知

nagios官网

1. nagios安装 – 服务端(192.168.0.11)

centos6默认的yum源里没有nagios相关的rpm包,但是我们可以安装一个epel的扩展源:

复制代码 代码如下:
yum install -y epel-release

然后安装nagios相关的包

复制代码 代码如下:
yum install -y httpd nagios nagios-pluginsnagios-plugins-all nrpe nagios-plugins-nrpe

设置登录nagios后台的用户和密码:htpasswd -c /etc/nagios/passwd nagiosadmin

复制代码 代码如下:
nagios -v /etc/nagios/nagios.cfg 检测配置文件

启动服务:service httpd start; servicenagios start

浏览器访问:

vim /etc/n%小知识:Nagios的安装与使用详细教程-猿站网-插图agios/nagios.cfg  #暂时先不管

2. nagios安装 – 客户端(192.168.0.12)

在客户端机器上

复制代码 代码如下:

yum install -y epel-release

yum install -y nagios-plugins nagios-plugins-allnrpe nagios-plugins-nrpe

vim /etc/nagios/nrpe.cfg  找到“allowed_hosts=127.0.0.1” 改为“allowed_hosts=127.0.0.1,192.168.0.11”   #服务器的ip

找到” dont_blame_nrpe=0” 改为  “dont_blame_nrpe=1”

启动客户端 /etc/init.d/nrpe start

3. 监控中心(192.168.0.11)添加被监控主机(192.168.0.12)

复制代码 代码如下:

vim /etc/nagios/conf.d/192.168.0.12.cfg                 

define host{

        use                   linux-server           

       host_name          192.168.0.12

       alias                      0.12

       address                192.168.0.12

        }

define service{

        use                   generic-service

       host_name              192.168.0.12              

       service_description     check_ping

       check_command          check_ping!100.0,20%!200.0,50%      #0是ok,20是警告,50是危险

        max_check_attempts5                    #单位是秒数

       normal_check_interval 1

}

define service{

        use                   generic-service

       host_name              192.168.0.12

       service_description     check_ssh

       check_command          check_ssh

       max_check_attempts      5    ;当nagios检测到问题时,一共尝试检测5次都有问题才会告警,如果该数值为1,那么检测到问题立即告警

       normal_check_interval 1   ;重新检测的时间间隔,单位是分钟,默认是3分钟

       notification_interval          60 ;在服务出现异常后,故障一直没有解决,nagios再次对使用者发出通知的时间。单位是分钟。如果你认为,所有的事件只需要一次通知就够了,可以把这里的选项设为0。

}

define service{

        use                   generic-service

       host_name              192.168.0.12

       service_description     check_http

       check_command          check_http

        max_check_attempts     5

       normal_check_interval 1

}

以上普通服务不依赖于客户端nrpe服务,我们可以想象,我们在自己电脑上可以使用ping或者telnet探测远程任何一台机器是否存活、是否开启某个端口或服务。而当我们想要检测客户端上的某个具体特殊服务的情况时,就需要借助于nrpe了,比如想知道客户端机器的负责或磁盘使用情况。

%小知识:Nagios的安装与使用详细教程-1猿站网-插图

4.  继续添加服务

增加:

复制代码 代码如下:

define command{

       command_name    check_nrpe    #去对方获得服务状态,可自定义

       command_line    $user1$/check_nrpe -h $hostaddress$-c $arg1$

        }

继续编辑

复制代码 代码如下:
vim/etc/nagios/conf.d/192.168.0.12.cfg      

增加如下内容:

复制代码 代码如下:

define service{

        use    generic-service

       host_name       192.168.0.12

       service_description     check_load

       check_command          check_nrpe!check_load

       max_check_attempts 5

       normal_check_interval 1

}

define service{

        use    generic-service

       host_name       192.168.0.12

       service_description     check_disk_hda1

       check_command          check_nrpe!check_hda1

       max_check_attempts 5

       normal_check_interval 1

}

define service{

        use    generic-service

       host_name       192.168.0.12

       service_description     check_disk_hda2

       check_command          check_nrpe!check_hda2    #这个不要写错,是对应客户端的

       max_check_attempts 5

       normal_check_interval 1

}

说明:  check_nrpe!check_load:这里的check_nrpe就是在commands.cfg刚刚定义的,check_load是远程主机上的一个检测脚本

在客户端上vim/etc/nagios/nrpe.cfg 搜索check_load,这行就是在服务端上要执行的脚本了,我们可以手动执行这个脚本

把check_hda1更改一下:/dev/hda1 改为 /dev/sda1

再加一行command[check_hda2]=/usr/lib/nagios/plugins/check_disk-w 20% -c 10% -p /dev/sda2  # w = warnning

c = critial

crital不能比warning的值大

%小知识:Nagios的安装与使用详细教程-2猿站网-插图

机制:首先在服务端定义check_nrpe命令,再通过check_nrpe后面跟的command(客户端的nrpe.cfg里)

客户端上重启一下nrpe服务: service nrpe restart

服务端也重启一下nagios服务: service nagios restart

5.   配置告警

复制代码 代码如下:

vim /etc/nagios/objects/contacts.cfg //增加:

define contact{

        contact_name                               

       use                           generic-contact

        alias                         aming

        email             @qq.com

        }

define contact{

        contact_name             

        use                           generic-contact

        alias                          aaa

        email             wsw@.com

        }

define contactgroup{                         #定义联系组

        contactgroup_name          common

        alias                                common

        members                        ,

        }

然后在要需要告警的服务里面加上contactgroup

复制代码 代码如下:

define service{

        use    generic-service

       host_name       192.168.0.12

       service_description     check_load

       check_command          check_nrpe!check_load

       max_check_attempts 5

       normal_check_interval 1

        contact_groups       common                  #监控哪个发邮件

       notifications_enabled  1    ;是否开启提醒功能。

1为开启,0为禁用。一般,这个选项会在主配置文件(nagios.cfg)中定义,效果相同。

        notification_period  24×7   ;发送提醒的时间段。非常重要的主机(服务)我定义为7×24,一般的主机(服务)就定义为上班时间。如果不在定义的时间段内,无论什么问题发生,都不会发送提醒。      

       notification_options:w,u,c,r   ;这个是service的状态。w为waning, u为unknown, c为critical, r为recover(恢复了),类似的还有一个  host对应的状态:d,u,r   d = 状态为down, u = 状态为unreachable , r = 状态恢复为ok,需要加入到host的定义配置里。

}

6.   配置图形显示 pnp4nagios

(1)安装

复制代码 代码如下:
yum install pnp4nagios rrdtool

(2)配置主配置文件

复制代码 代码如下:

vim /etc/nagios/nagios.cfg  //修改如下配置

  process_performance_data=   

  host_perfdata_command=process-host-perfdata

  service_perfdata_command=process-service-perfdata

  enable_environment_macros=  

(3)修改commands.cfg

vim/etc/nagios/objects/commands.cfg  //注释掉原有对process-host-perfdata和process-service-perfdata,重新定义

复制代码 代码如下:

  define command { 

        command_name    process-service-perfdata 

        command_line    /usr/bin/perl/usr/libexec/pnpnagios/process_perfdata.pl 

  }     

  define command {  

  command_name    process-host-perfdata 

        command_line    /usr/bin/perl/usr/libexec/pnpnagios/process_perfdata.pl -d hostperfdata 

  }

(4)修改配置文件templates.cfg

复制代码 代码如下:

vim /etc/nagios/objects/templates.cfg definehost {

        name      hosts-pnp

       register   0

        action_url/pnp4nagios/index.php/graph?host=$hostname$&srv=_host_

       process_perf_data              1

}

define service {

        name      srv-pnp

       register   0

        action_url/pnp4nagios/index.php/graph?host=$hostname$&srv=$servicedesc$

       process_perf_data              1

}

(5)修改host和service配置

复制代码 代码如下:

vim /etc/nagios/conf.d/192.168.0.12.cfg

把 “define host{

        use                   linux-server”

改为:

复制代码 代码如下:

define host{

        use                   linux-server,hosts-pnp

修改对应的service,比如

复制代码 代码如下:

define service{

        use    generic-service

       host_name       192.168.0.12

       service_description     check_disk_hda1

       check_command          check_nrpe!check_hda1

       max_check_attempts 5

       normal_check_interval 1

}

改为:

复制代码 代码如下:

define service{

        use    generic-service,srv-pnp

       host_name       192.168.0.12

       service_description     check_disk_hda1

       check_command          check_nrpe!check_hda1

       max_check_attempts 5

       normal_check_interval 1

}

(6)重启和启动各个服务:

复制代码 代码如下:

service nagios restart

service httpd restart

service npcd start

(7) 访问测试

两种访问方法:

复制代码 代码如下:

ip/nagios/

ip/pnp4nagios/

以上所述是小编给大家分享的nagios的安装与使用详细教程,希望对大家有所帮助。

声明: 猿站网有关资源均来自网络搜集与网友提供,任何涉及商业盈利目的的均不得使用,否则产生的一切后果将由您自己承担! 本平台资源仅供个人学习交流、测试使用 所有内容请在下载后24小时内删除,制止非法恶意传播,不对任何下载或转载者造成的危害负任何法律责任!也请大家支持、购置正版! 。本站一律禁止以任何方式发布或转载任何违法的相关信息访客发现请向站长举报,会员发帖仅代表会员个人观点,并不代表本站赞同其观点和对其真实性负责。本网站的资源部分来源于网络,如有侵权烦请发送邮件至:2697268773@qq.com进行处理。
建站知识

小知识:高性能HTTP加速器Varnish-3.0.3搭建、配置及优化步骤

2023-3-16 12:59:30

建站知识

小知识:高防服务器中的“清洗”是什么意思

2023-3-16 13:14:28

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索