第一篇:数学建模常用模型方法总结
运筹学模型(优化模型)
数学建模常用模型方法总结
无约束优化 线性规划 连续优化 非线性规划 整数规划 离散优化 组合优化 多目标规划 目标规划 动态规划 从其他角度分类 网络规划 多层规划等… 数学规划模型
图论模型存储论模型排队论模型博弈论模型
可靠性理论模型等…
运筹学应用重点: ①市场销售 ②生产计划 ③库存管理 ④运输问题 ⑤财政和会计 ⑥人事管理 ⑦设备维修、更新和可靠度、项目选择和评价 ⑧工程的最佳化设计 ⑨计算器和讯息系统 ⑩城市管理
优化模型四要素:①目标函数 ②决策变量 ③约束条件
④求解方法(MATLAB--通用软件 LINGO--专业软件)
聚类分析、主成分分析因子分析
多元分析模型 判别分析
典型相关性分析 对应分析 多维标度法
概率论与数理统计模型
假设检验模型 相关分析 回归分析 方差分析
贝叶斯统计模型 时间序列分析模型 决策树 逻辑回归
微分方程模型
传染病模型 马尔萨斯人口预测模型
人口预测控制模型
经济增长模型 Logistic 人口预测模型 战争模型等等。
灰色预测模型 回归分析预测模型
预测分析模型 差分方程模型
马尔可夫预测模型 时间序列模型 插值拟合模型 神经网络模型
系统动力学模型(SD)
综合评价与决策方法 灰色关联度
主成分分析
秩和比综合评价法理想解读法等
旅行商(TSP)问题模型背包问题模型车辆路径问题模型
物流中心选址问题模型经典 NP 问题模型 路径规划问题模型
着色图问题模型多目标优化问题模型
车间生产调度问题模型最优树问题模型二次分配问题模型
模拟退火算法(SA)
遗传算法(GA)智能算法
蚁群算法(ACA)
(启发式)常用算法模型 神经网络算法
蒙特卡罗算法元胞自动机算法穷
模糊综合评判法模型数据包络分析
举搜索算法小波分析算法
确定性数学模型
三类数学模型 随机性数学模型
模糊性数学模型
第二篇:数学建模_传染病模型
传染病模
摘要: 本次实验是让同学们进一步了解、巩固、加强微分方程模型的建模、求解能力;学习掌握用MATLAB进行二维和三维基本图形绘制。因为MATLAB具有很强的图形处理功能和丰富的图形表现方法。它提供了大量的二维、三维图形函数,使得数学计算结果可以方便地、多样性地实现可视化,这是其它语言所不能比拟的。MATLAB不仅能绘制几乎所有的标准图形,而且其表现形式也是丰富多样的。MATLAB不仅具有高层绘图能力,而且还具有底层绘图能力——句柄绘图方法。在面向对象的图形设计基础上,使得用户可以用来开发各专业的专用图形。help graph2d可得到所有画二维、三维图形的命令。
描述传染病的传播过程,分析受感染人数的变化规律,预报传染病高潮到来的时刻,预防传染病蔓延的手段,按照传播过程的一般规律,用机理分析方法建立模型。
数学建模
问题重述
问题: 有一种传染病(如SARS、甲型H1N1)正在流行。现在希望建立适当的数学模型,利用已经掌握的一些数据资料对该传染病进行有效地研究,以期对其传播蔓延进行必要的控制,减少人民生命财产的损失。考虑如下的几个问题,建立适当的数学模型,并进行一定的比较分析和评价展望。
1、不考虑环境的限制,设单位时间内感染人数的增长率是常数,建立模型求t时刻的感染人数。
2、假设环境条件下所允许的最大可感染人数为。单位时间内感染人数的增长率是感染人数的线性函数,最大感染时的增长率为零。建立模型求t时刻的感染人数。
3、现有卫生防疫部门采集到的某地区一定时间内一定间隔区间的感染人数数据(见下表),利用该数据确定上述两个模型中的相关参数,并将它们的预测值与实际数据进行比较分析(计算仿真偏差)并对两个模型进行适当的评价。(注:该问题中,设最大可感染人数为202_人)
4、假设总人口可分为传染病患者和易感染者,易感染者因与患病者接触而得病,而患病者会因治愈而减少且对该传染病具有很强的免疫功能,建立模型分析t时刻患病者与易感染者的关系,并对传染情况(如流行趋势,是否最终消灭)进行预测。
问题分析
1、这是一个涉及传染病传播情况的实际问题,其中涉及传染病感染人数随时间的变化情况及一些初始资料,可通过建立相应的微分方程模型加以解决。
2、问题表述中已给出了各子问题的一些相应的假设。
3、在实际中,感染人数是离散变量,不具有连续可微性,不利于建立微分方程模型。但由于短时间内改变的是少数人口,这种变化与整体人口相比是微小的。因此,为了利用数学工具建立微分方程模型,我们还需要一个基本假设:感染人数是时间的连续可微函数。
关键字: 社会、经济、文化、风俗习惯等因素
:传染病模型
模型1 在这个最简单的模型中,设时刻t的病人人数x(t)是连续、可微函数,并且每天每个病人有效的人数为常数增加,就有x(tt)x(t)x(t)t
再设t0时有x0有个病人,即得微分方dxdtx,x(0)x0(1)接触(足使人致病)考察t到tt病人人数的
程
方程(1)的解为
x(t)x0et(2)
结果表明,随着t的增加,病人人数x(t)无限增长,这显然是不符合实际的。
建模失败的原因在于:在病人有效接触的人群中,有健康人也有病人,而其中只有健康人才可以被传染为病人,所以在改进的模型中必须区别这两种人。
模型2 SI模型
假设条件为
1.在疾病传播期内所考察地区的总人数N不变,即不考虑生死,也不考虑迁移。人群分为易感染者(Susceptible)和已感染者(Infective)两类(取两个词的第一个字母,称之为SI模型),以下简称健康者和病人。时刻t这两类人在总人数中所占比例分别记作s(t)和i(t)。
2.每个病人每天有效接触的平均人数是常数,称为日接触率。当病人与健康者接触时,使健康者受感染变为病人。
根据假设,每个病人每变为病人,因为病人数天可使s(t)个健康者为Ni(t),所以每天共有Ns(t)i(t)个健康者被感染,于是病人数Ni的增加率,即有NdidtNsi(3)Nsi就是
s(t)i(t)1i0,则didti(1i),i(0)i0(5)
(4)再记初始时刻(t0)病人的比例为方程(5)是Logistic模型。它的解为
11te11i0(6)i(t)~t和didt~i的图形如图1和图2所示。
数学建模
由(5),(6)式及图1可知,第一,当di达最大值,这个时刻为dtmi1/2时didt到
1tmln1i01(7)
这时病人增加的最快,可以认为是医院的门诊量最大的一天,预示着传染病高潮的到来,是医疗卫生部门关注的时刻
tm与成反比,因为日接触率保健设施、提高卫生水潮的到来。第二,当人终将被传染,全变为实际情况。殊莫ª表示该地区的以改善卫生水平,越小卫生水平越高。所平可以推迟传染病高t时i1,即所有病人,这显然不符合
其原因是模型中没有考虑到病人可以治愈,人群中的健康者只能变成病人,病人不会再变成健康者。
模型3 SIR模型
大多数传染病如天花、流感、肝炎、麻疹等治愈后均有很强的免疫力,所以病愈的人即非健康者(易感染者),也非病人(已感染者),他们已经退出传染系统。这种情况比较复杂,下面将详细分析建模过程。
模型假设
1.总人数N不变。人群分为健康者、病人和病愈免疫的移出者(Removed)三类,称SIR模型。三类人在总数N中占的比例分别记作s(t),i(t)和r(t)。病人的日接触率为,日治愈率为(与SI模型相同),传染期接触为 =/。
模型构成
:传染病模型
由假设1显然有
s(t)+i(t)+r(t)=1(12)根据条件2方程(8)仍然成立。对于病愈免疫的移出者而言有
NdrdtNi(13)
再记初始时刻的健康者和病人的比例分别是s0(s00)和i0(i00)(不妨设移出者的初始值r00),则由(8),(12),(13)式,SIR模型的方程可以写作disii,dtdssi,dti(0)i0(14)
s(0)s0
方程(14)无法求出s(t)和i(t)的解析解,我们先作数值计算。
模型 4 SIR模型
SIR模型是指易感染者被传染后变为感染住,感病者可以被治愈,并会产生免疫力,变为移除者。人员流动图为:S-I-R。
大多数传染者如天花 流感 肝炎 麻疹等治愈后均有很强的免疫力,所以冰域的人即非易感者,也非感病者,因此他们将被移除传染系统,我们称之为移除者,记为R类
假设: 总人数为常数,且i(t)+s(t)+r(t)=n; 单位时间内一个病人能传染的人数与当时健康者人数成正比,比例系数为k(传染强度)。单位时间内病愈免疫的人数与但是的病人人数成正比,比例系数l。称为恢复系数。
可得方程:
diksili,dt
dsksi,dti(0)i00s(0)s00初值r(0)r00
模型分析:
由以上方程组的:dids=p/s-1 p=l/k, 所以i=pln
s0-s+n.容易看出当
t无限大时
i(t)=0;而当s0p时,i(t)单调下将趋于零;上批示,i(t)先单调上升的最高峰,然后再单调下降趋于零。所以这里仍然出现了门槛现象:p是一个门槛。从p的意义可知,应该降低传染率,提高回复率,即提高卫生医疗水平。
令t→∞可得: s0―s=2*s0(s0―p)/p 所以:δp s0=p+δ,当时,s≈2δ,这也就解释了本文开头的问题,即统一地区
数学建模
一种传染病每次流行时,被传染的人数大致不变。
模型的应用与推广:
根据传染病的模型建立研究进而推广产生了传染病动力学模型。传染病动力学[1]是对进行理论性定量研究的一种重要方法,是根据种群生长的特性,疾病的发生及在种群内的传播,发展规律,以及与之有关的社会等因素,建立能反映传染病动力学特性的数学模型,通过对模型动力学性态的定性,定量分析和数值模拟,来分析疾病的发展过程,揭示流行规律,预测变化趋势,分析疾病流行的原因和关键。对于202_年发生的SARS疫情,国内外学者建立了大量的动力学模型研究其传播规律和趋势,研究各种隔离预防措施的强度对控制流行的作用,为决策部门提供参考.有关SARS传播动力学研究多数采用的是SIR或SEIR模型.评价措施效果或拟合实际流行数据时,往往通过改变接触率和感染效率两个参数的值来实现.石耀霖[2]建了SARS传播的系统动力学模型,以越南的数据为参考,进行了Monte Carlo实验,初步结果表明,感染率及其随时间的变化是影响SARS传播的最重要因素.蔡全才[3]建立了可定量评价SARS干预措施效果的传播动力学模型,并对北京的数据进行了较好的拟合.参考文献:
[1]姜启源 编辅导 课程
(九)主讲教师 : 邓 磊
[2]西北工业大学(数学建模)精品课程
[3]耀霖.SARS传染扩散的动力学随机模型[J].科学通报,202_,48(13)1373-1377
第三篇:数学建模 模型优缺点评价
模型评价:
模型优点:
建立的模型方法简单易行,且易中应用于现实生活。模型缺点:
考虑的影响因素较少,在处理问题时可能存在一些误差。仅使用一个月的数据具有一定的局限性,另外对外伤患者都按急症处理,考虑的情况比较简单。
模型评价:
优点:
1)模型具有坚实可靠的数学基础。很多数学理论已经证明这是设计中继站分布的最好的方法; 模型易于实现;
模型使中继站发挥最大的效能。2)3)不足:
1)我们的模型只适用于人口均匀分布的情形;
2)我们仅考虑中继站信号的服务范围能够根据我们的需要进行调整的情形。
.模型评价
模型一能比较准确的计算大区域环境下的中继站最少数量,且模型思想简单,通俗易懂,形式简洁能被大多数人所理解。
模型在中继站覆盖半径大于区域半径的0.2倍时出现与模拟值差6误差是其最不如人意的,也是其最大的缺点。其出现的原因是当初步判断正六边形的圈数n时,当第n层形成的正六边形的顶点完全包含在圆形区域内的情况下所造成的。可以,在其中增加一条选择约束
2n1r222(3r)()R 22
当其成立时在计算结果上加6,就可以解决差6误差。
模型二根据日常实际在通信当中的随机性,以及在圆的直径在各同心圆交点的密度与其半径成反比的事实。假设中继站的密度也与其到中心的距离成反比。又由需要建立的网络层数N和中继站的覆盖正六边形的面积A,该密度为N/A。在人口分不未知的情况下采取这种近似。其中的随意性比较大,且没有数学依据是该模型的致命缺点。
第四篇:数学建模各种分析方法
现代统计学
1.因子分析(Factor Analysis)
因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。
运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。
2.主成分分析
主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
主成分分析和因子分析的区别
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。
5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。
和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。
总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。
3.聚类分析(Cluster Analysis)
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。
在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作。
4.判别分析(Discriminatory Analysis)
判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。
根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。
费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。
贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。
距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。5.对应分析(Correspondence Analysis)
对应分析是一种用来研究变量与变量之间联系紧密程度的研究技术。
运用这种研究技术,我们可以获取有关消费者对产品品牌定位方面的图形,从而帮助您及时调整营销策略,以便使产品品牌在消费者中能树立起正确的形象。
这种研究技术还可以用于检验广告或市场推广活动的效果,我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品的不同认知图来看出广告或市场推广活动是否成功的向消费者传达了需要传达的信息。
6.典型相关分析
典型相关分析是分析两组随机变量间线性密切程度的统计方法,是两变量间线性相关分析的拓广。各组随机变量中既可有定量随机变量,也可有定性随机变
量(分析时须F6说明为定性变量)。本法还可以用于分析高维列联表各边际变量的线性关系。注意:
1.严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的相关形式。
2.典型相关模型的基本假设和数据要求
要求两组变量之间为线性关系,即每对典型变量之间为线性关系;
每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系,可先线性化:如经济水平和收入水平与其他一些社会发展水之间并不是线性关系,可先取对数。即log经济水平,log收入水平。3.典型相关模型的基本假设和数据要求
所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后,再放入典型相关模型中进行分析。
7.多维尺度分析(Multi-dimension Analysis)
多维尺度分析(Multi-dimension Analysis)是市场研究的一种有力手段,它可以通过低维空间(通常是二维空间)展示多个研究对象(比如品牌)之间的联系,利用平面距离来反映研究对象之间的相似程度。由于多维尺度分析法通常是基于研究对象之间的相似性(距离)的,只要获得了两个研究对象之间的距离矩阵,我们就可以通过相应统计软件做出他们的相似性知觉图。
在实际应用中,距离矩阵的获得主要有两种方法:一种是采用直接的相似性评价,先所有评价对象进行两两组合,然后要求被访者所有的这些组合间进行直接相似性评价,这种方法我们称之为直接评价法;另一种为间接评价法,由研究人员根据事先经验,找出影响人们评价研究对象相似性的主要属性,然后对每个研究对象,让被访者对这些属性进行逐一评价,最后将所有属性作为多维空间的坐标,通过距离变换计算对象之间的距离。
多维尺度分析的主要思路是利用对被访者对研究对象的分组,来反映被访者对研究对象相似性的感知,这种方法具有一定直观合理性。同时该方法实施方便,调查中被访者负担较小,很容易得到理解接受。当然,该方法的不足之处是牺牲了个体距离矩阵,由于每个被访者个体的距离矩阵只包含1与0两种取值,相对较为粗糙,个体距离矩阵的分析显得比较勉强。但这一点是完全可以接受的,因为对大多数研究而言,我们并不需要知道每一个体的空间知觉图。
多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。在自然科学和社会科学的许多学科中,研究者都有可能需要分析处理有多个变量的数据的问题。能否从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论,不仅对所研究的专业领域要有很好的训练,而且要掌握必要的统计分析工具。对实际领域中的研究者和高等院校的研究生来说,要学习掌握多元统计分析的各种模型和方法,手头有一本好的、有长久价值的参考书是非常必要的。这样一本书应该满足以下条件:首先,它应该是“浅入深出”的,也就是说,既可供初学者入门,又能使有较深基础的人受益。其次,它应该是既侧重于应用,又兼顾必要的推理论证,使学习者既能学到“如何”做,而且在一定程度上了解“为什么”这样做。
最后,它应该是内涵丰富、全面的,不仅要基本包括各种在实际中常用的多元统计分析方法,而且还要对现代统计学的最新思想和进展有所介绍、交代。因子分析
主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?因子分析(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。
可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。
因子分析主要用于:
1、减少分析变量个数;
2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。
1.因子分析模型
因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
因子分析模型描述如下:
(1)X =(x1,x2,…,xp)¢是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等(只要将变量标准化即可实现)。
(2)F =(F1,F2,…,Fm)¢(m
(3)e =(e1,e2,…,ep)¢与F相互独立,且E(e)=0, e的协方差阵∑是对角阵,即各分量e之间是相互独立的,则模型:
x1 = a11F1+ a12F2 +…+a1mFm + e1
x2 = a21F1+a22F2 +…+a2mFm + e2
………
xp = ap1F1+ ap2F2 +…+apmFm + ep
称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。
其矩阵形式为:
x =AF + e.其中:
x=,A=,F=,e=
这里,(1)m £ p;
(2)Cov(F,e)=0,即F和e是不相关的;
(3)D(F)= Im,即F1,F2,…,Fm不相关且方差均为1;
D(e)=,即e1,e2,…,ep不相关,且方差不同。
我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e 称为X的特殊因子。
A =(aij),aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。
2.模型的统计意义
模型中F1,F2,…,Fm叫做主因子或公共因子,它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之间以及特殊因子与所有
公共因子之间都是相互独立的。模型中载荷矩阵A中的元素(aij)是为因子载荷。因子载荷aij是xi与Fj的协方差,也是xi与Fj的相关系数,它表示xi依赖Fj的程度。可将aij看作第i个变量在第j公共因子上的权,aij的绝对值越大(|aij|£1),表明xi与Fj的相依程度越大,或称公共因子Fj对于xi的载荷量越大。为了得到因子分析结果的经济解释,因子载荷矩阵A中有两个统计量十分重要,即变量共同度和公共因子的方差贡献。
因子载荷矩阵A中第i行元素之平方和记为hi2,称为变量xi的共同度。它是全部公共因子对xi的方差所做出的贡献,反映了全部公共因子对变量xi的影响。hi2大表明x的第i个分量xi对于F的每一分量F1,F2,…,Fm的共同依赖程度大。
将因子载荷矩阵A的第j列(j =1,2,…,m)的各元素的平方和记为gj2,称为公共因子Fj对x的方差贡献。gj2就表示第j个公共因子Fj对于x的每一分量xi(i=1,2,…,p)所提供方差的总和,它是衡量公共因子相对重要性的指标。gj2越大,表明公共因子Fj对x的贡献越大,或者说对x的影响和作用就越大。如果将因子载荷矩阵A的所有gj2(j =1,2,…,m)都计算出来,使其按照大小排序,就可以依此提炼出最有影响力的公共因子。
3.因子旋转
建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分析。如果求出主因子解后,各个主因子的典型代表变量不很突出,还需要进行因子旋转,通过适当的旋转得到比较满意的主因子。
旋转的方法有很多,正交旋转(orthogonal rotation)和斜交旋转(oblique rotation)是因子旋转的两类方法。最常用的方法是最大方差正交旋转法(Varimax)。进行因子旋转,就是要使因子载荷矩阵中因子载荷的平方值向0和1两个方向分化,使大的载荷更大,小的载荷更小。因子旋转过程中,如果因子对应轴相互正交,则称为正交旋转;如果因子对应轴相互间不是正交的,则称为斜交旋转。常用的斜交旋转方法有Promax法等。
4.因子得分
因子分析模型建立后,还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。例如地区经济发展的因子分析模型建立后,我们希望知道每个地区经济发展的情况,把区域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等。这时需要将公共因子用变量的线性组合来表示,也即由地区经济的各项指标值来估计它的因子得分。
设公共因子F由变量x表示的线性组合为:
Fj = uj1 xj1+ uj2 xj2+…+ujpxjp
j=1,2,…,m
该式称为因子得分函数,由它来计算每个样品的公共因子得分。若取m=2,则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2,并将其在平面上做因子得分散点图,进而对样品进行分类或对原始数据进行更深入的研究。
但因子得分函数中方程的个数m小于变量的个数p,所以并不能精确计算出因子得分,只能对因子得分进行估计。估计因子得分的方法较多,常用的有回归估计法,Bartlett估计法,Thomson估计法。
(1)回归估计法
F = X b = X(X ¢X)-1A¢ = XR-1A¢
(这里R为相关阵,且R = X ¢X)。
(2)Bartlett估计法
Bartlett估计因子得分可由最小二乘法或极大似然法导出。
F = [(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X =(A¢W-1A)-1A¢W-1X
(3)Thomson估计法
在回归估计法中,实际上是忽略特殊因子的作用,取R = X ¢X,若考虑特殊因子的作,此时R = X ¢X+W,于是有:
F = XR-1A¢ = X(X ¢X+W)-1A¢
这就是Thomson估计的因子得分,使用矩阵求逆算法(参考线性代数文献)可以将其转换为:
F = XR-1A¢ = X(I+A¢W-1A)-1W-1A¢
5.因子分析的步骤
因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。
(i)因子分析常常有以下四个基本步骤:
(1)确认待分析的原变量是否适合作因子分析。
(2)构造因子变量。
(3)利用旋转方法使因子变量更具有可解释性。
(4)计算因子变量得分。
(ii)因子分析的计算过程:
(1)将原始数据标准化,以消除变量间在数量级和量纲上的不同。
(2)求标准化数据的相关矩阵;
(3)求相关矩阵的特征值和特征向量;
(4)计算方差贡献率与累积方差贡献率;
(5)确定因子:
设F1,F2,…, Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;
(6)因子旋转:
若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。
(7)用原指标的线性组合来求各因子得分:
采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。
(8)综合得分
以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。
F =(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm)
此处wi为旋转前或旋转后因子的方差贡献率。
(9)得分排序:利用综合得分可以得到得分名次。
在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:
· 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。
· 构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。
· 进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。
如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。
第五篇:数学建模:模型的评价和推广
模型的评价和推广
7.1 模型的评价 7.1.1模型的优点:
(1)在数据处理方面,我们详细分析了视频数据,引用了标准车当量数(PCU),引用了通流量,规范了数据的格式和可用性,为下一步解题提供了简洁的数据资料。(2)在视频数据统计方面,我们实行分阶段定点查数,在每隔30秒的时间内取值,符合上游路口信号配时,并满足了第一相位、第二相位的地理性。
(3)模型在图像处理和显示上,我们采用SPSS和MATLAB双重作图,拟合数据的变化趋势及正态Q-Q图,使问题结果更加清晰、条理和直观。
(4)从数据中筛选出发生堵车时的合理数据,融合排队论模型的核心思想,给出科学直观的显示结果。
(5)在模型建立上,提取了排队论模型和交通波模型的理论架构,同时简化了无用的模型公式,尽量贴近数学建模“用最简单的方法解决最难问题“的思想。7.1.2 模型的缺点
(1)在视频数据采样上,采用的是人工读取,虽然大大提高了灵活性,但也容易使数据出现人为的偏差和不精确;视频中从小区从进入到道路上的车辆并没有进行确切的统计。
(2)在问题一中,只采用了一种分析方法,结果比较单一,没有系统和全面地分析横断面通行能力的变化过程。
(3)问题三的所建立的关系模型中没有明确体现横断面实际通行能力,这也就使我们的关系模型不能准确地反应变量之间的关系。
(4)在统计完全堵车时的汽车数量时没有明确的标准规定,只是单纯地用主观认识确定完全交通拥堵。7.2 模型的推广
依据题目中提供的视频数据和附录,建立了车祸横截面通行能力的通行量模型,并利用排队法的相关知识,确定了车辆排队长度、事故排队时间、路段上游车流量的函数关系,对城市中交通事故的处理方面有一定的参考价值。
模型中分析问题、解决问题的一些独到方法,排队法数据取样的总体思想,对其他数学问题及一般模型仍可使用。
另外,针对路边停车、占道施工等因素导致车道或道路横断面通行能力在单位时间内降低的现象,我们的方法对于交通管理部门可以作为分析解决问题的一种参考。