3.1回归分析的基本思想及其初步应用 课件(1)


3.1回归分析的基本思想及 其初步应用(一)

数学3——统计内容
1. 画散点图

2. 了解最小二乘法的思想
3. 求回归直线方程

? ? ? y ? bx ? a
4. 用回归直线方程解决应用问题

复习

变量之间的两种关系

问题1:正方形的面积y与正方形的边长x之间 的函数关系是 y = x2 确定性关系 问题2:某水田水稻产量y与施肥量x之间是否 有一个确定性的关系? 例如:在 7 块并排、形状大小相同的试验田上 进行施肥量对水稻产量影响的试验,得

到如下所示的一组数据:
施化肥量x 水稻产量y 2018/5/23

15

20

25

30

35

40

45

330 345郑平正 365 445 制作 405

450 455

施化肥量x
水稻产量y

15

20

25
365

30

35

40

45

330 345

405 445

450 455

y
500 450 400 350 300 10

水稻产量

··
20

·

·
30

· · ·
施化肥量
40 50

x

1、定义:
自变量取值一定时,因变量的取值带有一定 随机性的两个变量之间的关系叫做相关关系。 注 1)相关关系是一种不确定性关系; 2) 对具有相关关系的两个变量进行统计 分析的方法叫回归分析。

现实生活中存在着大量的相关关系。 如:人的身高与年龄; 产品的成本与生产数量;

商品的销售额与广告费;
家庭的支出与收入。等等

探索1:水稻产量y与施肥量x之间大致有何

规律?

施化肥量x
水稻产量y

15

20

25
365

30

35

40

45

330 345

405 445

450 455 散点图

y
500 450 400 350 300 10

水稻产量

··
20

·

·

· · ·

施化肥量
30 40 50

x 发现:图中各点,大致分布在某条直线附近。

探索2:在这些点附近可画直线不止一条,哪条直 线最能代表x与y之间的关系呢?

500

y

水稻产量

450
400 350 300 10

· · · ·
20 30

··

·

y ? ? x ??

施化肥量
40 50

x

1、回归直线方程
1、所求直线方程叫做回归直线方程; 相应的直线叫做回归直线。

?

2、对两个变量进行的线性分析叫做线性回归分析。

?? b

? ( x ? x)( y ? y) ? x y ? nx y
i ?1 i i

n

n

? ( x ? x)
i ?1 i

n

?

2

i ?1 n

i

i

?x
i ?1

2 i

? nx

2

,

? ? ? y ? bx a

最小二乘法:

? ? ? y ? bx ? a

n n ? ? (x i -x)(yi -y) ? x i yi -nxy ? ? b= i=1 ? i=1 = , ? n n 2 2 2 ? (x -x) x -nx ? ? i i ? i=1 i=1 ? ? ?a=y-bx. ? ? 1 n 1 n 其中x= ? x i ,y= ? yi . n i=1 n i=1

(x, y)

称为样本点的中心。

2、求回归直线方程的步骤:
1 n 1 n (1)求 x ? ? xi , y ? ? yi n i ?1 n i ?1
(2)求? xi 2 , ? xi yi .
i ?1 i ?1 n n

(3)代入公式

?

?? b

? ( x ? x)( y ? y) ? x y ? nx y
i ?1
? b

n

n

i

i

? ( x ? x)
i ?1 i

n

?

2

i ?1 n

i

i

?x
i ?1

2 i

? nx

2

,

a ? y ? bx,......(1)

^

(4)写出直线方程为y=bx+a,即为所求的回归直线方程。

^

例1、观察两相关量得如下数据: x -1 -2 -3 -4 -5 5 y -9 -7 -5 -3 -1 1

3 5

4 3

2 7

1 9

求两变量间的回归方程.
解:列表:

i
xi yi

1
-1 -9

2
-2 -7 14

3
-3 -5 15

4
-4 -3 12

5
-5 -1 5

6
5 1 5

7
3 5 15

8
4 3 12

9
2 7 14

10
1 9 9

x iy i 9

x ? 0, y ? 0,

?x
i ?1

10

2 i

? 110, ? y ? 330, ? x i y ? 110.
2 i ?1 i i ?1 i

10

10

?? ?b

? x y ? 10 x ? y
i ?1 10 i i

10

?x
i ?1

2 i

? 10 x

2

110 ? 10 ? 0 ? ?1 110 ? 10 ? 0

? ? a ? y ? bx ? 0 ? b ? 0 ? 0
? 所求回归直线方程为
y ? x.

例2:已知10只狗的血球体积及血球的测量值如下:
x 45 42 46 48 42 35 58 40 39 50

y

6.53 6.30 9.52 7.50 6.99 5.90 9.49 9.20 6.55 8.72

x(血球体积,mm), y(血球数,百万) (1)画出上表的散点图; (2)求出回归直线并且画出图形; (3)回归直线必经过的一点是哪一点?

3、利用回归直线方程对总体进行线性相关性的检验 例3、炼钢是一个氧化降碳的过程,钢水含碳量的多少 直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼 时间的关系。如果已测得炉料熔化完毕时,钢水的含碳 量x与冶炼时间y(从炉料熔化完毕到出刚的时间)的一 列数据,如下表所示:

x(0.01%) y(min)

104
100

180
200

190
210

177
185

147
155

134
135

150
170

191
205

204
235

121
125

(1)y与x是否具有线性相关关系; (2)如果具有线性相关关系,求回归直线方程; (3)预测当钢水含碳量为160个0.01%时,应冶炼多少分 钟?

(1)列出下表,并计算
i
1 2 3 4 5 6 7 8 9 10

xi

104

180

190

177

147

134

150

191

204

121

yi

100

200

210

185

155

135

170

205

235

125

xiyi

10400

36000 39900 32745 22785 18090 25500 39155 47940 15125

x ? 159.8, y ? 172,

? x ? 265448, ? y ? 312350, ? x y ? 287640
2 2 i ?1 i i ?1 i i ?1 i i

10

10

10

于是,r ?

? x y ?10 x ? y
i ?1 i i

10

(? x ? 10 x )(? y ? 10 y )
i ?1 2 i 2 i ?1 2 i 2

10

10

? 0.9906.

(2)设所求的回归方程为

? ?a ? ? bx ? y

?b ?
^

^

?x y
i ?1 10 i

10

i

? 10 x ? y ? 1.267
2

?x
i ?1

2 i

? 10 x

? ? ?30.51. a ? y ? bx
? =1.267x-30.51 所以回归直线的方程为 y
? ? 1.267.160-30.51=172 (3)当x=160时,y

探究
对于一组具有线性相关关系数据

( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn ),
我们知道其回归方程的截距和斜率的最小二乘估计公式 分别为:

a ? y ? b x,......(1)
b?
^

^

^

? ( x ? x)( y ? y) ? x y ? nx y
i ?1 i i

n

n

? ( x ? x)
i ?1 i

n

?

2

i ?1 n

i

i

?x
i ?1

2 i

? nx

2

,......(2)

1 n 1 n 其中x ? ? xi , y ? ? yi . ( x, y ) 称为样本点的中心。 n i ?1 n i ?1
你能推导出这个公式吗?

假设我们已经得到两个具有相关关系的变量的一组数据

( x1, y1 ),( x2 , y2 ),...,( xn , yn ) 且回归方程是:^ y=bx+a,
其中,a,b是待定参数。当变量x取 它与实际收集到的

xi (i ? 1, 2,..., n)时 yi 之间的偏差是 yi ? yi ? yi ? (bxi ? a)
( xi , yi ) yi ? yi

y
( x1 , y1 )

o

( x2 , y2 )

x

易知,截距

a 和斜率
^

b 分别是使 Q(? , ? ) ? yi ? yi ? yi ? (? xi ? ? )

^

? , ? 的值。由于 取最小值时 n Q(? , ? ) ? ?[ yi ? ? xi ? ( y ? ? x) ? ( y ? ? x) ? ? ]2
? ?{[ yi ? ? xi ? ( y ? ? x)]2 ? 2[ yi ? ? xi ? ( y ? ? x)] ? [( y ? ? x) ? ? ] ? [( y ? ? x) ? ? ]2} ? ?[ yi ? ? xi ? ( y ? ? x)] ? 2?[ yi ? ? xi ? ( y ? ? x)] ? ( y ? ? x ? ? ) ? n( y ? ? x ? ? ) 2 ,
2 i ?1 i ?1 n n n

i ?1

i? 1 x)] ? ( y ? ? x ? ? ) ? ( y ? ? x ? ? ) 注意到, [ yi ? ? xi2 ? ( y ? ? 2 ?[ yi ? ? xi ? ( y ? ? x)] ? n n n
2 i ?1 i ?1 n) ? 2? ? n ( xi ? x)( yi ? y ) ? ? ( yi ? y ) ? n( y ? ? x ? ? ) ? ?2? ( xi ? x ?1? ? )[ ?1 x ? n( y ? ? x )] i ?1 ? ( y ? ? ix ? yi ? ? i? i
2 ? ( y ? ? x ? ? )[ny ? n? ? x ?n n( y ? ? x)] ? ? 0, 2

2 2 因此, Q ( ? , ? ) ? [ y ? ? x ? ( y ? ? x )] ? n ( y ? ? x ? ? ) ? i i n n

n

i ?1

i ?1

i ?1

2 ( x ? x )( y ? y ) [ ( x ? x )( y ? y )] 2 ? ? i i i i n n ? ? ? ? i ?1 n ? n( y ? ? x ? ? )2 ? ? ( xi ? x) ? ? ? i ?1 n ? ? ( yi ? y ) 2 2 ? ? i ?1 i ?1 ( x ? x ) ( x ? x ) ? ? i i ? ? i ?1 i ?1 ? ?

n

在上式中,后两项和 ? , ? 无关,而前两项为非负 数,因此要使Q取得最小值,当且仅当前两项的值 均为0,即有

??

? ( x ? x)( y ? y)
i ?1 i i 2 ( x ? x ) ? i i ?1 n

n

? ? y??x

这正是我们所要推导的公式。

例题4 (课本例1)从某大学中随机选出8名女大 学生,其身高和体重数据如下表:
编号 1 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59

身高 165 体重 48

求根据一名女大学生的身高预报她的体重的 回归方程,并预报一名身高为172cm的女 大学生的体重。

分析:由于问题中 要求根据身高预报 体重,因此选取身 高为自变量,体重 为因变量.
1. 散点图;

2.回归方程:

? ? 0.849x ? 85.172 y
身高172cm女大学生体重 ? = 0.849×172 - 85.712 = 60.316(kg) y

相关系数
? n ? ? (xi -x)(yi -y) ? i=1 r= ? n n ? 2 2 (x -x) ? (y -y) ? ? ? i i i=1 i=1 ?
r>0正相关;r<0负相关.通常, r>0.75,认为两个变量有很强的相关性.

本例中,由上面公式r=0.798>0.75.

探究
身高为172cm的女大学生的体重一定 是60.316kg吗?如果不是,其原因是什 么?

郑平正 制作

如何描述两个变量之间线性相关关系的强弱?
在《数学3》中,我们学习了用相关系数r来衡量 两个变量之间线性相关关系的方法。 相关系数r ?

? (x
i ?1

n

i

? x)( yi ? y )
2

? (x
i ?1

n

i

? x)

?(y
i ?1

n

.
i

? y)

2

当r ? [0.75, 1], 表明两个变量正相关很强; 当r ? [?1, ?0.75], 表明两个变量负相关很强; 当r ? [?0. 25, 0.25], 表明两个变量相关性较弱。

相关关系的测度
(相关系数取值及其意义)
完全负相关 无线性相关 完全正相关

-1.0

-0.5

0

+0.5
正相关程度增加

+1.0

r
负相关程度增加


相关文档

《3.1回归分析的基本思想及其初步应用》课件1
3.1《回归分析的基本思想及其初步应用》课件
《3.1回归分析的基本思想及其初步应用》课件5
高中数学选修2-3公开课课件3.1回归分析的基本思想及其初步应用(1)
高中数学选修3.1回归分析的基本思想及其初步应用 (1)人教版ppt课件
高中数学人教A版选修2-3课件:3.1 回归分析的基本思想及其初步应用
3.1 回归分析的基本思想及其初步应用 课件(复习)
3.1回归分析的基本思想及其初步应用 课件(2)
3.1回归分析的基本思想及其初步应用课件(苏教版选修2-3)
【数学】3.1 回归分析的基本思想及其初步应用 课件(人教A版选修2-3)
电脑版