-
Notifications
You must be signed in to change notification settings - Fork 1
/
monitor.xml
122 lines (122 loc) · 7.54 KB
/
monitor.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE book PUBLIC "-//OASIS//DTD DocBook XML V5.0//EN"
"/usr/share/xml/docbook/schema/dtd/5.0/docbook.dtd" [
<!ENTITY article.author.xml SYSTEM "../common/article.author.xml">
<!ENTITY book.info.legalnotice.xml SYSTEM "../common/book.info.legalnotice.xml">
<!ENTITY book.info.abstract.xml SYSTEM "../common/book.info.abstract.xml">
]>
<article xml:base="http://netkiller.github.io/journal/"
xmlns="http://docbook.org/ns/docbook" xml:lang="zh-cn">
<articleinfo>
<title>监控的艺术</title>
<subtitle>http://netkiller.github.io/journal/monitor.html</subtitle>
&article.author.xml;
&book.info.legalnotice.xml;
<abstract>
<para>2015-03-16 第一版</para>
</abstract>
&book.info.abstract.xml;
<keywordset>
<keyword></keyword>
<keyword></keyword>
<keyword></keyword>
<keyword></keyword>
</keywordset>
<pubdate>$Date$</pubdate>
<release>$Id$</release>
</articleinfo>
<section id="background">
<title>背景</title>
<para>每个企业都意识到监控工作的重要性,但80%企业的监控工作仍然处在监控的初级阶段。</para>
<orderedlist>
<title>什么是初级阶段呢?</title>
<listitem>被动监控,故障发生运维人员永远不是第一个发现故障的人</listitem>
<listitem>监控IP地址与TCP端口,很多时候HTTP 80端口正常接受请求,但WEB服务器不能正常工作。</listitem>
<listitem>人肉监控(人肉运维),采用人海战术,桌面摆放很多显示器,甚至投影仪,要求监控者盯着各种仪表板界面,制定各种工作流程以及KPI考核监控人员。</listitem>
<listitem>人肉测试,要求监控人员每间隔几分钟人工操作一次,以确认系统正常工作,例如(没15分钟登陆一次,下一笔顶单,做一次支付等等)。</listitem>
<listitem>万能的重启,定其重启所有的服务器。</listitem>
</orderedlist>
<orderedlist>
<title>什么是中级阶段呢?</title>
<listitem>报警:手机短信更靠谱,因为手机随身携带(邮件不算,邮件到达速度慢,各种因素不稳定)</listitem>
<listitem>监控服务:探测服务的可用性,而不是仅仅监控端口,注意我是指私有协议的监控(HTTP,SMTP,FTP,MySQL 不算在内)</listitem>
<listitem>故障分析:通过日志与调试工具分析软件BUG,指导开发人员改善软件质量,使其故障不会再次发生,达到不用restart重启方式解决故障</listitem>
<listitem>半自动化测试</listitem>
</orderedlist>
<orderedlist>
<title>什么是高级阶段呢?</title>
<listitem>我认为高级阶段是监控与灾备系统打通融合一体。</listitem>
<listitem>除此之外监控与开发密切相关,在开发阶段需要为监控数据采集做铺垫,每开发一个新功能就要想到未来这个功能是否需要监控,怎样监控。</listitem>
<listitem>数据前期采集与数据挖掘非常重要,监控不仅能做软件与硬件的性能分析,还能提供决策支持,这里又涉及了BI。</listitem>
<listitem>除了监控,另一个息息相关的是自动故障转移,有兴趣可以看看我的其他文章 <ulink url="http://netkiller.github.io/journal/" /></listitem>
</orderedlist>
<para>监控从初级向中继再到高级,是转被动到主动,从人工到自动化。</para>
<para>监控不应该局限在硬件与服务,还应该延伸到业务领域。</para>
</section>
<section id="overview">
<title>概述</title>
<para>你在百度上搜索监控多半是一些开源或商业软件的安装配置指南。这些文章中会告诉你怎样监控CPU、内存、硬盘空间以及网络IP地址与端口号码。</para>
<para>开源软件无非是 Nagios, Cacti, Mrtg, Zibbix ..... 这些软件在我的电子出书<ulink url="http://netkiller.github.io/monitoring/index.html">《Netkiller Monitoring 手札》</ulink>中都有详细说明安装与配置方法。</para>
<para>商业软件也有很多如 SolarWinds, Whit's Up,PRTG ......</para>
<para>所有的服务器,网络设备,监控你都做了,那么按照我上面的监控分级,你处于监控的那个阶段?</para>
</section>
<section id="how">
<title>怎样监控</title>
<para>监控都有哪些手段跟方式呢?</para>
<section>
<title>卫星监测</title>
<para>中心卫星站为中心站点向外放射,通常是通过IP地址访问远程主机,实施监控,常用方法是SNMP,SSH,以及各种Agent(代理),方式是请求然后接收返回结果,通过结果判断主机状态。</para>
<screen>
<![CDATA[
Monitor Server
|
-------------------------------
| | |
[Web] [Mail] [Database]
]]>
</screen>
<para>以监控服务器为中心,星型散射连接其他监控节点,没有什么优点,缺点是Web跟Mail节点的通信没有监控</para>
</section>
<section>
<title>逐级诊断</title>
<para>一级一级的向下探测,寻找故障点,需要在各个节点埋探针。</para>
<screen>
<![CDATA[
Monitor Server
|
-------------------------------
| | |
V V V
| | |
[Web] ---> [Cache] ---> [Database]
\ ^
`------------------------|
]]>
</screen>
<para>首先监控服务器跟星型拓扑一样监控,再让Web节点去访问Cache节点然后返回监控结果,以此类推,让Cache节点访问Database, 让Web访问Database节点。</para>
<para>将所有业务逻辑都逐一模拟一次,任何一个环节出现问题,立即发出警告。</para>
</section>
<section>
<title>模拟人工</title>
<para>这里主要监控服务是否可用,可以检查软件的工作情况,涉及测试环节。</para>
<para>通过自动化测试工具辅助监控,例如模拟鼠标点击,键盘输入,可以监控图形界面程序与网页程序。</para>
<para>Windows 监控可以通过 Windows Automation API实现,通过程序控制,能够模拟人工操作软件,实现操作匹配返回结果实现自动化监控</para>
<para>Web页面监控的方案就太多了,比较经典的是Webdriver衍生出的各种工具Selenium - Web Browser Automation最为出名。我通过这个工具模拟用户操作,例如用户注册,登陆,发帖,下单等等,然后匹配返回结果实现自动化监控与报警</para>
</section>
<section>
<title>数据分析</title>
<para>通过数据分析,将故障消灭在故障发生前。举一个例子,开发人员忘记设置redis 时间,虽然程序一直完好工作,但redis内存不断增长,总一天会出现故障。</para>
<para>我们通过采集redis状态信息,分析一段时间内数据变化发现了这个问题。</para>
</section>
<section>
<title>监控与开发</title>
<para>谈到监控很多人认为这是运维的事情,实则不然,不懂运维的测试不是好开发。</para>
<para>开发过程中需要考虑到监控,例如Nginx的status模块, MySQL的show status命令, Redis的info命令,都是为监控预留的。那么你开发的程序是否考虑到了监控这块呢?</para>
<para>你可以通过日志形式或者管道,再或者Socket将程序的运行状态提供给监控采集程序。</para>
</section>
</section>
<section id="summary">
<title>总结</title>
<para>好的监控的能让你对系统了如指掌,做到心里有数。有数据才好说话。</para>
</section>
</article>