510742 发表于 2010 年 10 月 2 日 18:26:13

实现对网络和系统的监控


1、为什么要实现监控更好的提供服务,让用户得到更好的体验,例如通过监控的趋势分析发现服务器性能上的瓶颈,通过有效提报警机制在用户之前发现服务不可用之前,我们发现并解决故障通过事件追溯等,我们可以对某种服务质量做出评估,这一点可以体现在商业价值上2、监控的分类通实业务需求来分类的话可分为可用性监控和性能监控[*]可用性监控: 包括硬件的可用和软件及一套应用的可用,其方法主要有[*]硬件装态 例如raid 的状态,可以确定硬盘的故障,一般有BMC芯片的机器如DELL 可通过Openipmi来实现[*]检查其进程是否正常运行,linux进程正常都会有一个状态,能过监控这个进程是否存活等[*]模拟客户端 例如模拟浏览器的行为来监控WEB服务的可用[*]性能监控: 性能监控一般用于趋势分析,一般如应用程序的性能,系统的性能和网络的性能,例如WEB服务器的性能衡量参数之一的吞吐率,和用户请求等待时间和请求处理时间等参数。系统性能包括CPU 等资源的使用状况,网络性能例如当前的带宽使用,响应时间及抖动等,当然这个还可以分为实时监控(相对)和非实时监控,如建立baseline 和性能调优,排错等一般会用到实时监控。3、 基本实现思想[*]监控域的确定及监控功能的实现[*] 报警机制的实现[*]事件处理流程, 事前(趋势分析),事中(应急响应),事后(原因追溯,故障记录,故障外报)[*]事件的审计 历史记录查看 故障记录 故障外报4、 确定需要监控的项目[*]系统[*]CPU:user%, system%, iowait&, nice%, idle%[*]MEM:swap, memused, memfree[*]Interface:traffic in, traffic outTotal in/out[*]Disk:used, free, total[*]User:current users[*]Process: current process[*]I/O:read, write[*]Loadavage:1m, 5m, 15m[*]交换机网络设备[*]Interface:traffic in, traffic out. Total in/out[*]Mem:used, free, total[*]CPU:current use[*]应用服务[*]Apache:···[*]Jboss:······[*]DNS:····[*]Mysql····[*]Oracle····5、 用到的工具Cacti,这些工具可以实现对网络流量,响应时间,系统资源使用,What’s up, shell,scripts :可实现业务及服务可用性的监控

页: [1]
查看完整版本: 实现对网络和系统的监控