-
Notifications
You must be signed in to change notification settings - Fork 18
/
app.tex
327 lines (271 loc) · 15.5 KB
/
app.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
\chapter{附录:统计学简介}
\section*{平均值(均值)}
给了一组数据$x_1,x_2,\ldots,x_n$, 相应地有一个平均数
(也称为均值), 它是如下的算术平均数
\[\frac{1}{n} \sum_{i=1}^nx_i\]
通常用$\bar x$来表示它,平均数是日 常生活中常见的量。例如, 工厂中某一产品的平均日产量,农村中某一作物的平均亩产量,商品的平均销售额,学生考试的平均分数等等。自然会产生这样的问题,为什么要用平均数呢?原因是平均数具有代表性,下面来解释它的意思。
对给定的一组数据$x_1,x_2,\ldots,x_n$, 如果用一个数$C$来代表这些$x_1,x_2,\ldots,x_n$, 则$x_i-C$就表达了$x_i$与$C$的偏差, $x_i-C$的绝对值小,$C$就接近$x_i$。即用$C$来代表$x_i$就代表得好. 由于$C$要代表所有数$x_1,x_2,\ldots,x_n$,因此必须考虑几个偏差$x_{1}-C,x_{2}-C,\ldots,x_{n}-C$. 为了消除正负号的影响, 用$(x_i-C)^2$来衡量$x_i$与$C$ 的差别,于是总的差异就是$\sum\limits_{i= 1}^{n}\left ( x_{i}- C\right ) ^{2}$, 当$x_{1},x_{2},\ldots,x_{n}$确定不变时,应选取$C$使$\sum\limits_{i= 1}^{n}\left ( x_{i}- C\right ) ^{2}$达到最小值,这样的$C$才是代表$x_{1},x_{2},\ldots,x_{n}$这$n$个数据最合适的数。
下面来证明这个数就是$\bar x$
\[\begin{split}
\sum_{i=1}^{n} ( x_{i}-C)^{2} &=\sum_{i=1}^{n} ( x_{i}-\bar{x}+\bar{x}-{C} )^{2} \\
&=\sum_{i=1}^{n}\left[\left( x_{i}-\bar{x}\right) ^{2}+2\left( x_{i}-\bar{x}\right) ( \bar{x}-C)+(\bar{x}-C)^{2}\right]\\
&=\sum_{i=1}^{n}\left( x_{i}-\bar{x}\right)^{2}+2\left[\sum_{i=1}^{n}\left( x_{i}-\bar{x}\right)\right](\bar{x}-C)+n(\bar{x}-C)^{2}
\end{split}\]
由于
$$\sum_{i=1}^{n} ( x_{i}-\bar{x} ) =\sum_{i=1}^{*} x_{i}-n\bar{x}=n\bar{x}-n\bar{x}=0$$
因此
$$\sum_{i=1}^{n}(x_{i}-C)^{2}=\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}+n(\bar{x}-C)^{2}\ge \sum_{i=1}^{n}(x_{i}-\bar{x})^{2}$$
显然,等号成立当且仅当$\bar x=C$.
这就证明了:如果以$\sum\limits_{i=1}^n(x_i-C)^2$来衡量$C$代表$x_1,
x_{2},\ldots,x_{n}$的好坏标准,则$\bar x$是代表性最好的值.
现在来看几个特例:
\begin{example}
如果$x_1=x_2=\cdots=x_n=a$, 则 $\bar{x}=a$.
\end{example}
\begin{proof}
$$\bar{x}= \frac{1}{n}\sum_{i=1}^{n}x_{i}= \frac{1}{n}\sum_{i= 1}^{n}a= a$$
\end{proof}
\begin{example}
如果$x_i=a+id$, $i=0,1,2,\ldots,n-1$,
即$x_0,x_1,\ldots,x_{n-1}$是等差数列,这时
\[\begin{split}
\bar{x}= \frac {1}{n}\sum _{i= 0}^{n-1}x_{i}&= \frac{1}{n}\sum_{i= 0}^{n- 1}( a+ id) \\
&= \frac{1}{n}\left [ na+ \frac {( n- 1 )n}{2}d \right ]= a+\frac{(n-1)d}{2}
\end{split}\]
\end{example}
例如求$1,2,\ldots, 100$的平均 数,这 时$a=d=1$, $n=100$于是$\bar{x} = 1+ \frac {99}{2}= 50.5$; 又 如求$3, 6, 9, 12, \ldots, 27 $这几 个数的均值,则$a= d= 3$, $n= 0$, 于是$\bar{x}=3+\frac{8}{2}\times 3=15$.
\section*{均方差(方差)}
从上面的讨论可以看出,平均数$\bar x$代表$x_1,\ldots,x_n$的好坏程度是由$\sum\limits^n_{i=1}(x_i-\bar x)^2$来反映的,它是$n$个数据$x_i$对
$\bar x$的偏差平方的总和. 如果用$n$除一下,就得到平均的偏差平方和,它反映了每个数据$x_i$偏离$x$的“平均”状况,因此称它为均方差,简称为方差,通常用$S^2$来表示,即有
\[S^2=\frac{1}{n}\sum^n_{i=1}(x_i-\bar x)^2\]
方差表明了一组数据$x_1,x_2,\ldots,x_n$的分散程度. $S^2$越小,表示$x_i$之间的差异小,$\bar x$的代表性就好;$S^2$越大,表示$x_i$之间的差异也大,数据便很分散,此时$\bar x$代表性就不强.
有时,我们要比较的就是两组数据的分散程度. 这用方差就很方便. 例如有两班学生,甲班有$n$个学生,乙班有$m$个学生,进行教学测验后,甲班的成绩为$x_1,x_2,\ldots,x_n$,乙班的成绩为$y_1,y_2,\ldots,y_m$,平均数$\bar x$与$\bar y$反映了两个班的平均成绩,各自方差$S^2_x$和$S^2_y$反映了两班成绩不齐的程度,方差小的班,学生之间的差异就小.
如果$x_1=x_2=\cdots=x_n=a$,则$\bar x=a$,这时方差$S^2=0$. 如果$x_i=i,\; i=1,2,\ldots,n$,则$\bar x=\frac{n+1}{2}$,而方差
\[\begin{split}
S^2=\frac{1}{n}\sum^n_{i=1}(x-\bar x)^2 &=\frac{1}{n}\sum^n_{i=1}\left(i-\frac{n+1}{2}\right)^2\\
&=\frac{1}{n}\sum^n_{i=1}i^2-\left(\frac{n+1}{2}\right)^2\\
&=\frac{n(n+1)(2n+1)}{6}-\frac{(n+1)^2}{4}\\
&=\frac{(n+1)(4n+2-3n-3)}{12}=\frac{n^2-1}{12}
\end{split}\]
平均数$\bar x$与平均方差$S^2$是一组数据$x_1,x_2,\ldots,x_{n}$的两个重要指标,给了一组数$x_1,x_2,\ldots,x_{n}$后,如何具体地算出这两个值,我们在下一小节中来详细讨论这一问题.
\section*{计算公式}
设$x_1,x_2,\ldots,x_{n}$相应的均值和方差为$\bar x$和$S^2_x$,设$y_1,y_2,\ldots,y_{n}$相应的均值和方差为$\bar y$和$S^2_y$,下面先导出几个公式,然后利用它们来具体计算。
\begin{enumerate}
\item 如果$y_i=x_i+a,\; i=1,2,\cdots,n$。则 $\bar {y}= \bar{x} + a$.
\begin{proof}
$\bar{y} = \frac 1n\sum\limits_{i= 1}^{n}y_{i}= \frac 1n\sum\limits _{i= 1}^{n} ({x_{i}+ a}) = \frac 1n\sum\limits _{i= 1}^{n}x_{i}+ a= x+ a$
\end{proof}
\item 如果$y_i=bx_i,i=1,2,...n$, 则$\bar{y}=b\bar{x}$
\begin{proof}
$\bar y= {\frac 1n}\sum\limits _{i= 1}^{n}y_{i}= {\frac 1n}\sum\limits _{i= 1}^{n}bx_{i}= b {\bar {x}}$
\end{proof}
\item 如果$y_i= bx_{i}+ a,\; i= 1, 2, \ldots, n$, 则$\bar {y}=b\bar{x} + a$
\begin{proof}
由1,2立即可得.
\end{proof}
\item $\sum\limits _{i= 1}^{n}\left ( x_{i}- \bar {x} \right ) ^{2}= \sum\limits _{i= 1}^{n}x_{i}^{2}- n\bar {x}^{2}$
\item 如果$y_i=bx_i+a,\; i=1,2,\ldots,n$, 则$S_y^{2}=b^{2}S_{x}^{2}$
\begin{proof}
\[\begin{split}
S_{y}^{2}= {\frac 1n}\sum\limits _{i= 1}^{n}(y_{i}- \bar{y})^2&=\frac{1}{n}\sum\limits ^n_{i=1}\left ( bx_{i}+ a- b\bar{y} - a\right ) ^{2}\\
&=\frac{b^{2}}{n}\sum\limits _{i=1}^{n}(x_{i}-\bar{x})^{2}=b^{2}S_{x}^{2}
\end{split}\]
\end{proof}
\end{enumerate}
公式5告诉我们,当$b=\pm1$时,$S_x^2=S_y^2$. 即一组数据同
加一个常数,或同时改变符号时,它的方差是不变的.
\begin{example}
设某地历年夏季的雨量为:(单位mm)
\[248.7\quad 249.4\quad 133.2\quad 153.5\quad 211.7 \]
求它的平均值$\bar x$及方差$S^2$
\end{example}
取$y_i=x_i-200$,所以$x_i=y_i+200$,于是$\bar x=\bar y+200$,$S^2_x=S^2_y$
列表演算如下:
\begin{center}
\begin{tabular}{ccc}
\hline
$x_i$ & $y_i=x_i-200$ & $y^2_i$\\
\hline
248.7 & 48.7 & 2371.69\\
249.4& 49.4&2440.36\\
133.2&$-66.8$&4462.24\\
153.5&$-46.5$&2162.25\\
211.7&11.7&136.89\\
\hline
$\Sigma$ &$-3.5$& $11573.43$\\
\hline
\end{tabular}
\end{center}
所以
\[\begin{split}
\bar x&=\bar y+200=-\frac{3.5}{5}+200=199.3\\
S^2_x&=S^2_y=\frac{1}{n}\left(\sum^n_{i=1} y^2_i-n\bar y^2\right)=\frac{1}{5}(11573.43-245)=2314.196
\end{split}
\]
从演算过程可以看出,$y_i$的平方、求和的计算量比$x_i$的平方、求和的计算量小.这里选200是为了使$x_i-200$数字变小而且减法本身也较易.
\begin{example}
设$i=a+id,\; i=1,2,\ldots,n$,即$x_1,x_2,\ldots,x_n$为等差数列,试求方差$S^2_n$.
\end{example}
为了便于比较,下面用两种方法求解.
\textbf{解一:} 已知$\bar x=a+\frac{n+1}{2}d$,所以$x_i-x=\left(i-\frac{n+1}{2}\right)d$.
\[\sum^n_{i=1}(x_i-\bar x)^2 =\sum^n_{i=1}\left(i-\frac{n+1}{2}\right)^2 d^2=\frac{d^2n(n^2-1)}{12} \]
所以
\[S^2_x=\frac{d^2(n^2-1)}{12} \]
\textbf{解二:} 取$y_i=\frac{x_i-a}{d}=i$, $i=1,2,\ldots,n$,于是$S^2_y=\frac{1}{d^2}S^2_x$,即$S^2_x=d^2S^2_y$. 前面已算过,这时$S^2_y=\frac{n^2-1}{12}$
所以$S^2_x=\frac{d^2(n^2-1)}{12}$.
\begin{example}
对两组数据$x_1,x_2,\ldots,x_n$及$y_1,y_2,\ldots,y_m$, 设它们的均值及均方差分别为$\bar x,\; S^2_x; \; \bar y,\; S^2_y$,将这两组数据合并为一组数据,求合并后的数据的均值$\bar z$及均方差$S^2_z$.
\end{example}
\begin{solution}
令$\bar z=\frac{1}{n+m}\left(\sum\limits^n_{i=1}x_i+\sum\limits^m_{i=1}y_i\right)=\frac{1}{n+m}(n\bar x+m\bar y)$
又
\[\begin{split}
S^2_x&=\frac{1}{n+m}\left[\sum\limits^n_{i=1}(x_i-\bar z)+\sum\limits^m_{i=1}(y_i-\bar z)^2\right]\\
&=\frac{1}{n+m}\left[\sum\limits^n_{i=1}(x_i-\bar x)^2 +n(\bar x-\bar z)^2+\sum\limits^m_{i=1}(y_i-\bar y)^2+m(\bar y-\bar z)^2\right]\\
&=\frac{1}{n+m}\left[nS^2_x+n(\bar x-\bar z)^2+mS^2_y+m(\bar y-\bar z)^2\right]
\end{split}\]
但是$\bar z=\frac{n}{n+m}\bar x+\frac{m}{n+m}\bar y$,代入有
\[\bar x-\bar z=\frac{m}{n+m}(\bar x-\bar y),\qquad \bar y-\bar z=\frac{n}{n+m}(\bar y-\bar x)\]
\[S_{y}^{2}= \frac n{n+ m} S_{x}^{2}+ \frac m{n+ m} S_{y}^{2}+ \frac n{n+ m}\left(\frac m{n+ m}\right)^{2}(\bar x- \bar{y} ) ^{2}+\frac{m}{n+m}\left(\frac{n}{m+n}\right)^{2}(\bar{y}-\bar x)^{2}\]
所以
\[S_{y}^{2}=\frac{1}{n+m}\left(nS_{x}^{2}+mS_{y}^{2}\right)+\frac{nm}{(n+m)^{2}}(\bar{x}-\bar{y})^2\]
总之有
$$z=\frac{1}{n+m}(n\bar{x}+m\bar{y})$$
\[S_{z}^{2}=\frac{1}{n+m}\left(nS_{x}^{2}+mS_{z}^{2}\right)+\frac{nm}{(n+m)^{2}}(\bar{x}-\bar{y})^2\]
\end{solution}
特别,当$m=1$时,$S^2_y=0$,记$y_1=x_{n+1}$,这就得到增加一个新数据的递推公式
\[\begin{split}
\bar z&= \frac{1}{n+1}(n\bar x+x_{n+1})\\
S^2_z&=\frac{n}{n+1}S^2_x+\frac{n}{(n+1)^2}(\bar x-x_{n+1})^2
\end{split}\]
不难看出,如果从$x_1,x_2,\ldots,x_n$中减少一个数据,例如删去$x_n$,那么$x_1,x_2,\ldots,x_{n-1}$的均值$\bar x_{*}$与均方差$S^2_{*}$可以用$\bar x$与$S^2_x$及$x_n$表示,即有递推公式
\[\begin{split}
\bar x_{*}&= \frac{1}{n-1}(n\bar x-x_{n})\\
S^2_{*}&=\frac{n}{n-1}S^2_x-\frac{n}{(n-1)^2}(\bar x-x_{n})^2
\end{split}\]
\section*{最小二乘法}
在实际工作中经常需要从实测的数据求出变量之间的关系式. 例如年龄和血压是有关系的,随着年龄的增长,血压是会增高的,调查了几百人的年龄与血压的情况,将资料按年龄分组. 用各组的均值(年龄的均值和血压的均值),得到如下的数据:
\begin{minipage}{.35\textwidth}
\begin{center}
\begin{tabular}{cc}
\hline
年龄$x_i$ & 心脏收缩压$y_i$\\
\hline
35&114\\
45&124\\
55&143\\
65&158\\
75&166\\
\hline
\end{tabular}
\end{center}
\end{minipage}\hfill
\begin{minipage}{.6\textwidth}
\centering
\begin{tikzpicture}[>=stealth, scale =.8]
\draw[->](-1,0)--(6,0)node[above]{$x$(年龄)};
\draw[->](0,-1)--(0,8)node[right]{$y$(血压)};
\foreach \x/\y in {1/35,2/45,3/55,4/65,5/75}
{
\draw(\x,0)node[below]{$\y$}--(\x,.1);
}
\foreach \x/\y in {1/110,2/120,3/130,4/140,5/150,6/160,7/170}
{
\draw(0,\x)node[left]{$\y$}--(.1,\x);
}
\tkzDefPoints{1/1.4/A, 2/2.4/B, 3/4.3/C, 4/5.8/D, 5/6.6/E}
\tkzDrawPoints(A,B,C,D,E)
\node at (A) [left]{$P_1$};
\node at (B) [right]{$P_2$};
\node at (C) [left]{$P_3$};
\node at (D) [left]{$P_4$};
\node at (E) [right]{$P_5$};
\draw[domain=.5:5.5, smooth, thick]plot(\x, 1.35*\x+.1);
\node[below left]{$O$};
\end{tikzpicture}
\end{minipage}
从表上的数据或图上的点来看,
血压值$y$与年龄数$x$似乎有直线的关系,但是这五个点又不正好在一条直线上,于是发生了一个问题:如何求一个直线方程,使得这条线与五个点最接近.
用$P_i$表示点$(x_i,y_i)\; i=1,2,3,4,5$.对给定的直线$\ell:\; y=a+bx$. 在直线$\ell$上取五个点,使其横坐标与$P_i$的横坐标$x_i$相同,这五个点应是
\[Q_i(x_i, a+bx_i) \qquad i=1,2,3,4,5\]
很明显,这五个点的纵坐标之差为$y_i-a-bx_i$. 用数值$\sum\limits^5_{i=1}(y_i-a-bx_i)^2$
来衡量直线$\ell$上五个点$Q_1,\ldots,Q_5$和已给的五个点$P_1,\ldots,P_5$的总差距,这个差距愈小,就认为这条直线愈接近这些点. 因此,最接近的直线应使这个差距达到最小值,下
面用和以前类似的方法来求出$a$和$b$.
已知$n$个点有坐标$(x_i,y_i)\; i=1,2,\ldots,n$.求直线$\ell:\; y=a+bx$,使和这$n$个点在上述意义下最接近,也就是求数值$a$和$b$,使
\[Q=\sum^n_{i=1}(y_i-a-bx_i)^2\]
达到最小值.
\begin{blk}{定理(最小二乘法)}
使$Q$达最小值的$a,b$为
\[\hat a=\bar y-\hat b \bar x,\qquad \hat b=\frac{\sum\limits^n_{i=1}(x_i-\bar x)(y_i-\bar y)}{\sum\limits^n_{i=1}(x_i-\bar x)^2}\]
\end{blk}
\begin{proof}
对任意数$a,b,\hat a,\hat b$,有
\[\begin{split}
Q&=\sum^n_{i=1}(y_1-a-bx_i)^2 =\sum^n_{i=1}\left[y_i-\hat a-\hat b x_i+\hat a-a+(\hat b-b)x_i\right]^2\\
&=\sum^n_{i=1}\left(y_i-\hat a-\hat b x_i\right)^2+2\sum^n_{i=1}\left(y_i-\hat a-\hat b x_i\right)\cdot \left(\hat a-\hat a+bx_i-bx_i\right)\\
&\qquad +\sum^n_{i=1}\left[\hat a-a+(\hat b-b)x_i\right]^2
\end{split}\]
取$\hat a,\hat b$使得
\[\sum^n_{i=1}\left(y_i-\hat a-\hat b x_i\right)=0,\qquad \sum^n_{i=1}x_i\left(y_i-\hat a-\hat b x_i\right)=0\]
那么上面
\[\begin{split}
Q&=\sum^n_{i=1}\left(y_i-\hat a-\hat b x_i\right)^2+\sum^n_{i=1}\left[\hat a-a+(\hat b-b)x_i\right]^2\ge \sum^n_{i=1}\left(y_i-\hat a-\hat b x_i\right)^2
\end{split}\]
因此若能由$\hat a$,$\hat b$之条件唯一
引出$\hat a$,$\hat b$,那么它就是所求的使$Q$达极小值的$a$,$b$了。
将条件改变为
\[\hat a+\hat b \bar x=\bar y,\quad n\hat a \bar x+\hat b\sum^n_{i=1}x^2=\sum^n_{i=1}x_iy_i\]
由$\hat a=\bar y-\hat b\bar x$,代入后式,有
\[n\left(\bar y-\hat b\bar x\right)\bar x+\hat b\sum^n_{i=1}x^2_i=\sum^n_{i=1}x_iy_i\]
即有
\[\hat b\left[\sum^n_{i=1}(x_i-\bar x)^2\right]=\sum^n_{i=1}x_iy_i-n\bar x\bar y=\sum^n_{i=1}(x_i-\bar x)\cdot (y_i-\bar y)\]
所以\[\hat b=\frac{\sum\limits^n_{i=1}(x_i-\bar x)(y_i-\bar y)}{\sum\limits^n_{i=1}(x_i-\bar x)^2}\]
于是$\hat a=\bar y-\hat b\bar x$, 这证明了定理.
\end{proof}
回到原来的例子,下面列表进行计算.
\begin{center}
\begin{tabular}{cccccc}
\hline
$x_i$ & $y_i$&$x_i-\bar x$&$y_i-\bar y$&$(x_i-\bar x)^2$&$(x_i-\bar x)(y_i-\bar y)$\\
\hline
35&114&$-20$&$-27$&400&540\\
45&124&$-10$&$-17$&100&170\\
55&143&0&2&0&0\\
65&158&10&17&100&170\\
75&166&20&25&400&500\\
\hline
$\Sigma 275$&705&&&1000&1380\\
平均55&141\\
\hline
\end{tabular}
\end{center}
\[\hat b=\frac{1380}{1000}=1.38,\qquad \hat a=141-1.38\x 55=65.1\]
于是求得最接近这五点的直线为
\[y=65.1+1.38x\]
现在,进一步来考查一下,由上述方程算得的$x=35$, 45, 55, 65, 75时$y$值是多少呢?它们与实际的观测值$y_i$的差又是多少呢?为了以示区别,由方程算出的$65.1+1.38x_i$记为$y_i$有
\begin{center}
\begin{tabular}{cccc}
\hline
实测值&方程算得的值& 偏差& 偏差平方\\
$y_i$&$\hat y_i$&$y_i-\hat y_i$&$\left(y_i-\hat y_i\right)^2$\\
\hline
114&113.4&0.6&0.36\\
124&127.2&$-3.2$&10.24\\
143&141.0&2.0&4.00\\
158&154.8&3.2&10.24\\
166&168.6&$-2.6$&6.76\\
\hline
$\Sigma$&&0&31.60\\
\hline
\end{tabular}
\end{center}
从上表可以看出
\[\sum^n_{i=1}\left(y_i-\hat y_i\right)=0\]
这不是偶然的,可以证明,在一般情况下,总有$\sum\limits^n_{i=1}\left(y_i-\hat y_i\right)=0$. 事实上,
\[\begin{split}
\sum^n_{i=1}\left(y_i-\hat y_i\right)&=\sum^n_{i=1}y_i-\sum^n_{i=1}\left(\hat a+\hat b x_i\right) \\
&=n\bar y -n\hat a-n\hat b \bar x=n\left(\hat y-\hat a-\hat b \bar x\right)
\end{split} \]
由于已知$\hat a=\bar y-\hat b\bar x$,所以有$\sum\limits^n_{i=1}\left(y_i-\hat y_i\right)=0$
因此,这一结果常常可以作为验算所计算的结果是否正确,但是,在实际使用时,在对大量数据进行计算时,由于
舍入误差的累积会使$\sum\limits^n_{i=1}\left(y_i-\hat y_i\right)\ne 0$,不过这个$\sum\limits^n_{i=1}\left(y_i-\hat y_i\right)$不会大,而在$\sum\limits^n_{i=1}\left(y_i-\hat y_i\right)$的绝对值很大时,这往往是由于计算上的错误所造成的.