专题12 概率与统计的综合应用
【要点提炼】
1.抽样方法
抽样方法包括简单随机抽样、分层抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.
2.统计中的四个数据特征
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即= (x1+x2+…+xn).
(4)方差与标准差.
s2= [(x1-)2+(x2-)2+…+(xn-)2],
3.直方图的两个结论
(1)小长方形的面积=组距×=频率.
(2)各小长方形的面积之和等于1.
4.回归分析与独立性检验
(1)回归直线=x+经过样本点的中心(,),若x取某一个值代入回归直线方程=x+中,可求出y的估计值.
(2)独立性检验
对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:
y1 | y2 | 总计 | |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | n |
则K2= (其中n=a+b+c+d为样本容量).
5.概率模型公式及相关结论
(1)古典概型的概率公式.
P(A)==.
(2)条件概率.
在A发生的条件下B发生的概率:P(B|A)==.
(3)相互独立事件同时发生的概率:若A,B相互独立,则P(AB)=P(A)·P(B).
(4)若事件A,B互斥,则P(A∪B)=P(A)+P(B),
P()=1-P(A).
6、独立重复试验与二项分布
如果事件A在一次试验中发生的概率是p,那么它在n次独立重复试验中恰好发生k次的概率为Pn(k)=Cpk(1-p)n-k,k=0,1,2,…,n.用X表示事件A在n次独立重复试验中发生的次数,则X服从二项分布,即X~B(n,p)且P(X=k)=Cpk(1-p)n-k(k=0,1,2,…,n).
7、超几何分布
在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则P(X=k)=,k=0,1,2,…,m,其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*,此时称随机变量X服从超几何分布.超几何分布的模型是不放回抽样,超几何分布中的参数是M,N,n.
8、离散型随机变量的均值、方差
(1)离散型随机变量ξ的分布列为
ξ | x1 | x2 | x3 | … | xi | … | xn |
P | p1 | p2 | p3 | … | pi | … | pn |
离散型随机变量ξ的分布列具有两个性质:①pi≥0;
②p1+p2+…+pi+…+pn=1(i=1,2,3,…,n).
(2)E(ξ)=x1p1+x2p2+…+xipi+…+xnpn为随机变量ξ的数学期望或均值.
D(ξ)=(x1-E(ξ))2·p1+(x2-E(ξ))2·p2+…+(xi-E(ξ))2·pi+…+(xn-E(ξ))2·pn叫做随机变量ξ的方差.
(3)数学期望、方差的性质.
①E(aξ+b)=aE(ξ)+b,D(aξ+b)=a2D(ξ).
②X~B(n,p),则E(X)=np,D(X)=np(1-p).
③X服从两点分布,则E(X)=p,D(X)=p(1-p).
【方法指导】
1、求解概率与分层抽样综合问题的步骤:
(1)利用分层抽样的抽样比,求出各层的样本数或各层抽取的样本数;
(2)计算样本空间所包含的基本事件个数与所求事件包含的基本事件的个数;
(3)利用古典概型的概率计算公式得出结果.
2、破解概率与统计图表综合问题的“三部曲”:
(1)第一步会赏图:能读懂已知统计图表所隐含的信息,并会进行信息提取;
(2)第二步会转化:对文字语言较多的题,需要根据题目信息耐心阅读,步步实现文字语言与符号语言间的转化;
(3)第三步会运算:对统计图表所反馈的信息进行提取后,结合古典概型的概率公式进行运算.
3、概率与统计案例交汇的数学问题常见的主要有两类:一类是结合回归分析问题考查离散型随机变量的分布列和数学期望,这里需要注意非线性回归的求解思路;另一类是概率与独立性检验交汇问题,这里需要注意的是进行独立性检验时,提出的假设是两者无关.
4、概率统计与方程、函数的交汇的主要体现:
(1)在函数与方程的背景下考查概率统计知识;
(2)利用函数、方程的知识解决概率统计中存在的决策优化(最值)问题.
5、概率统计与数列、不等式的交汇主要体现在以实际生活中的概率统计知识、几何图像、棋类游戏等为背景考查数列的递推关系.一般是根据概率的有关知识探索数列的前几项,再研究递推关系,求得通项公式以及前n项和.
命题点一会解决概率与抽样方法的综合问题
【典例1】(2021·江西高三其他模拟(文))
高于 | 不高于 | 合计 | |
患流感 | 20 | 25 | |
不患流感 | 15 | ||
合计 | 50 |
(2)为了了解患流感与年龄的关系,已知某地患有流感的老年、中年、青年的人数分别为108人,72人,36人.按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少一人是中年人的概率.
0.10 | 0.05 | 0.025 | 0.01 | |
2.701 | 3.841 | 5.024 | 6.635 |
【知识点】 分层抽样的概率解读 独立性检验的基本思想解读 计算古典概型问题的概率
【拓展练习】
(2021·安徽蚌埠市·高三二模(文))
(1)请补全频率分布直方图并估计这名参赛者成绩的平均数(同一组数据用该组区间的中点值作代表);
(2)采用分层抽样的方法从这人的成绩中抽取容量为的样本,再从该样本成绩不低于分的参赛者中随机抽取名进行问卷调查,求至少有一名参赛者成绩不低于分的概率.
命题点二会解决概率与统计图表的综合问题
【典例2】(2021·陕西榆林市·高三一模(文))
(2)据统计,该城市被访者的签约率约为44%.为把该城市年满18周岁居民的签约率提高到55%以上,应着重提高图2中哪个年龄段的签约率?并根据已有数据陈述理由.
【拓展练习】
(2021·江苏南通市·高三期末)
(Ⅰ)估计这600辆车在9:20~10:40时间内通过该收费站点的时刻的平均值(同一组中的数据用该组区间的中点值代表);
(Ⅱ)为了对数据进行分析,现采用分层抽样的方法从这600辆车中抽取10辆,再从这10辆车随机抽取4辆,设抽到的4辆车中,在9:20~10:00之间通过的车辆数为X,求X的分布列;
(Ⅲ)根据大数据分析,车辆在每天通过该收费站点的时刻T服从正态分布,其中可用3日数据中的600辆车在9:20~10:40之间通过该收费站点的时刻的平均值近似代替,用样本的方差近似代替(同一组中的数据用该组区间的中点值代表).假如4日全天共有1000辆车通过该收费站点,估计在9:46~10:40之间通过的车辆数(结果保留到整数).
附:若随机变量T服从正态分布,则,,.
命题点三会解决概率与统计案例的综合问题
【典例3】(2021·江西高三其他模拟(文))
第次考试 | |||||
数学成绩 |
(2)为取得更好的成绩,他现在准备突破导数问题,现假定他在训练某道解答题时发现有两种方法可以求解;第一种方法需要个独立步骤:每个步骤解题正确的概率为,第二种方法需要个独立步骤:每个步骤解题正确的概率为,若以最终解题正确的概率高低为决策依据,小明在解该道导数题时应选择哪种方法?
参考公式:回归直线方程的斜率和截距的最小二乘法估计公式分别为,.
【拓展练习】
(2020·全国高三其他模拟(理))
销售额不少于3万元 | 销售额不足3万元 | 合计 | |
线上销售时间不少于6小时 | 4 | 19 | |
线上销售时间不足6小时 | |||
合计 | 45 |
(2)(i)按分层抽样的方法,在上述样本中从销售额不少于3万元和销售额不足3万元的两组商户上抽取9家商户,设抽到销售额不足3万元且每天线上销售时间不足6小时的人数是,求的分布列(概率用组合数算式表示);
(ii)若将频率视为概率,从小商品批发市场内所有商户中每天销售额不少于3万元的商户中随机抽取20家,求这些商户中每天线上销售时间不少于6小时的商户家数的数学期望和方差.
附:
() | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 |
2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
命题点四概率统计与方程、函数的综合问题
【典例4】(2021·江西新余一中高二其他模拟(理))
(1)根据散点图判断与哪一个适宜作为关于的回归方程;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果试建立与的回归方程;(计算结果保留整数)
(3)在(2)的条件下,设且,试求的最小值.
参考公式:回归方程中,,.
【拓展练习】
(2021·安徽马鞍山市·高三一模(文))
单价x(元) | 80 | 85 | 90 | 95 | 100 |
销量y(副) | 140 | 130 | 110 | 90 | 80 |
(2)若每副该加热手套的成本为65元,试销售结束后,请利用(1)中所求的线性回归方程确定单价为多少元时,销售利润最大?(结果保留到整数)
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线的斜率和截距的最小二乘估计分别为
参考数据:
【知识点】 求回归直线方程解读 根据回归方程进行数据估计
命题点五会解决概率统计与数列、不等式的综合问题
【典例5】(2021·福建漳州市·高三其他模拟)
(1)若甲回答完5个问题后,甲上的台阶等级数为,求的分布列及数学期望;
(2)若甲在回答过程中出现在第个等级的概率为,证明:为等比数列.
【拓展练习】
(2020·河南新乡市·高三一模(理))
已知甲测试成绩的中位数为75.
(1)求,的值,并分别求出甲、乙两人测试成绩的平均数(假设同一组中的每个数据可用该组区间中点值代替).
(2)某学校参加该项竞赛仅有一个名额,结合平时的训练成绩甲、乙两名学生进入最后选拔,学校为此设计了如下选拔方案:答题过程中,若答对则继续答题,若答错则换对方答题例如,若甲首先答题,则他答第1题,若答对继续答第2题如果第2题也答对,继续答第3题,直到他答错则换成乙开始答题,……,直到乙答错再换成甲答题依次类推两人共计答完21道题时答题结束,答对题目数量多者胜出.已知甲、乙两人答对其中每道题的概率都是,假设由以往20次的测试成绩平均分高的同学在选拔比赛中最先开始作答,且记第道题也由该同学(最先答题的同学)作答的概率为,其中
①求,;
②求证为等比数列,并求的表达式.
【专题训练】
(2020·陕西汉中市·高三一模(理))
年龄 | |||||
接受的人数 |
岁以下 | 岁及岁以上 | 总计 | |
接受 | |||
不接受 | |||
总计 |
0.100 | 0.050 | 0.010 | 0.001 | |
2.706 | 3.841 | 6.635 | 10.828 |
【知识点】 独立性检验解决实际问题解读 超几何分布的分布列
(2021·广西高三其他模拟(文))
日期代码x | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
累计确诊人数y . | 4 | 8 | 16 | 31 | 51 | 71 | 97 | 122 |
为了分析该国累计感染人数的变化趋势,小王同学分别用两个模型:①,②对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差):经过计算得,,,,其中,.
(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由;
(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);
(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数是多少?
附:回归直线的斜率和截距的最小二乘估计公式分别为:
,
【知识点】 求回归直线方程解读 根据回归方程进行数据估计
(2020·江苏省天一中学高三其他模拟)
(1)如果比赛准备了1000个排球,估计质量指标在(260,265]内的排球个数(计算结果取整数).
(2)第10轮比赛中,记中国队3:1取胜的概率为.
(i)求出f(p)的最大值点;
(ii)若以作为p的值记第10轮比赛中,中国队所得积分为X,求X的分布列.
参考数据:ζ ~N(u,),则p(μ-σ<X<μ+σ)≈0.6826,p(μ-2σ<X <μ+2σ)≈0.9544.
(2020·北京高三其他模拟)
高一年级 | 高二年级 | |
9 7 4 6 4 3 1 2 0 | 0 1 2 3 | 4 2 6 0 1 2 2 6 7 0 |
(2)将两个年级中学习时长超过25小时的学生称为“学习达人”.设,现从所有“学习达人”中任选3人,求高一年级的人数的分布列和数学期望;
(3)记高二年级学习时间的方差为,若在高二年级中增加一名学生得到一组新的数据,若该名学生的学习时长为20,记新数据的方差为,比较与的大小(直接写结论).
【知识点】 由茎叶图计算平均数解读 写出简单离散型随机变量分布列解读
(2020·宁夏高三其他模拟(理))
(Ⅰ)试估计在这50万青年学生志愿者中,英语测试成绩在80分以上的女生人数;
(Ⅱ)从选出的8名男生中随机抽取2人,记其中测试成绩在70分以上的人数为X,求的分布列和数学期望;
(Ⅲ)为便于联络,现将所有的青年学生志愿者随机分成若干组(每组人数不少于5000),并在每组中随机选取个人作为联络员,要求每组的联络员中至少有1人的英语测试成绩在70分以上的概率大于90%.根据图表中数据,以频率作为概率,给出的最小值.(结论不要求证明)
(2019·河北唐山一中高考模拟(文))
第一天 | 第二天 | 第三天 | 第四天 | 第五天 | |
就餐人数(百人) | 13 | 9 | 8 | 10 | 12 |
原材料(袋) | 32 | 23 | 18 | 24 | 28 |
(2)已知购买食材的费用(元)与数量(袋)的关系为,投入使用的每袋食材相应的销售单价为 元,多余的食材必须无偿退还食材公司,据悉下周一大约有人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)
参考公式:,
参考数据:, ,
【知识点】 求回归直线方程解读 根据回归方程进行数据估计