首页 > 精品范文库 > 6号文库
BI项目实施方案总结
编辑:蓝色心情 识别码:15-927878 6号文库 发布时间: 2024-02-28 11:36:30 来源:网络

第一篇:BI项目实施方案总结

项目实施阶段几个主要问题

1、数据准备

2、缺乏关键用户的参与

3、培训效果急于求成

4、需求扩大化

5、乙方的承诺

6、项目文档管理

一、数据准备

项目实施的数据准备阶段要求客户方提供完整的基础数据以及截至某一时间点的事务性数据,即便将数据整理完毕,其准确性也难以保证,导致不断出现反复核对修改数据,这样经常使得原计划的数据准备工作延期完成,而有的实际的业务数据已经发生,这给后期的业务处理带来很大的麻烦,导致项目总是模拟运行,无法实现按计划的顺利切换。(若是数据标准统一阶段无法按期完成,如何解决?或者按期完成了但是数据准确性不高,导致后期建模,报表等的修改,责任如何划分?修改的人天如何计算?)

解决方案---乙方应告知我们如何提供完整的、准确的数据字典,应如何去进行分类、编码、整理

二、缺乏关键用户的参与

项目实施不仅是软件供应商的事,关键用户必须全程参与项目实施,协调方案讨论、需求确认、计划审定并与实施人员一起推动项目实施,项目经理要定期进行阶段工作总结,分析存在的问题,总结项目实施的阶段性成果,制定下个阶段的实施计划,争取企业管理者的重视和信任

三、培训效果急于求成

培训不够正规,培训环境、人员、课件简陋,培训的效果大打折扣,客户对软件的功能、流程及设计思想认识不足,坚持过去模式,不能接受新系统带来的变化,项目经理的方案难以实施。(培训一定要让业务人员了解实施的整个过程以及各个阶段的内容和目标,要让业务人员明白实施能给他们带来的价值)

四、需求扩大化

需要一开始就明确需求,明确实施的范围和目标

五、销售人员不切实际的承诺

关于实施范围、要求能否实现等问题,一定要实施人员做出解答,而不能是销售人员

六、项目文档管理

需要有书面化的文档来明晰各自的职责,信息互通,共同把握实施的节奏(具体包括需求范围,人员职责等)需要标准的业务流程文档,有助于双方明晰业务流程,有效配合业务流程的重组和优化 标准编码、标准数据文档及标准参数设置文档等,可有效地减少重复的工作

从报表开发流程及参与者角色的角度谈一下BW项目: 1.用户需求阶段:

报表应用从需求出发,因为BW报表一般是分析型的报表,需要需求提出者对业务有相当的了解,有较高的综合、归纳能力,若需求不准确,需求多变,报表开发周期难免会延长。

2.需求分析、模型设计阶段

此阶段可以说是报表开发最重要的阶段,与单纯R/3报表开发相比,BW报表需要更多的设计、架构。此阶段的参与角色除了需求者以外,最重要的是架构师、业务顾问。业务顾问要对用户需求领域的业务非常清楚,架构师除了精通BW技术外,对需求业务领域也必须有深入的认识,并且架构师、业务顾问必须沟通良好,否则会面临较大风险。有了基本模型,可能还需要一些程序来实现其中部分功能,因为涉及大量数据,程序设计人员除了实现功能外,尤其需要关注程序的效率。

3.数据抽取阶段

模型设计完毕之后,就可以开始抽取、加载数据了。数据抽取、加载人员必须对BW数据流有清晰的理解,根据数据流程设计自动处理链,让系统自动运行,并知道各类错误如何解决。

4.报表开发、权限配置阶段

此对报表开发、权限配置人员的基本要求同样是精通BW报表制作及权限配置。

5.报表测试、推广阶段

报表出来后先要经过业务顾问、关键用户仔细测试。由于BW报表一般涉及大量数据,复杂逻辑,在推广前一定要经过仔细测试,最好将各种业务可能都测试到,确保报表准确。

第二篇:BI系统总结

团委引进CI的原因:

• 明确团委组织文化建设

• 增强团委对外的影响力,建立团委品牌,使我们更

方便、更有效地为同学服务。

• 营造团委内部的团队凝聚力

• 规范团委的制度与行为

• 传承团委优秀传统和工作经验,规划发展战略。BI:行为识别:置于中间层位的BI则直接反映组织理念的个性和特殊性,是组织实践管理理念与创造组织文化的准则

.BI(Behavior Identity)行为识别系统

工程学院团委的帮事宗旨应始终围绕团委的口号

“团结、高效、求真、务实”

一个组织的特色并不是体现在它的宣传上,而是体现在其特有的组织文化上,而其行为则直接体现其特色,BI系统不仅适合于现代企业,其特有的组织先进性也适合在其他组织上,工程学院团委经过长时间的探索,逐渐形成其特色的BI系统,以下主要体现在对内与对外两个方面。

• 对内:组织制度、干部教育 项目管理 工作环境 行为规范、经验传承成员发展、总结规范等

• 对外:活动策划 公共关系、第一,团委干部公共礼仪素质

(1)讲规则是根本:着装要求,社交谈吐;公共环境;电话和名片的使用

(2)懂处事是核心:与人方便,同己方便;与人讲话,看人脸色;与人美言,可免百忧;微笑是打开心锁的钥匙;情比理更能打动人的心弦

第一,团委干部公共演讲素质:用大脑想话;用语言传话;用身体融话

第二,团委干部公共策划素质:把想到的记下来;按记下来去实践;把做过的总结起来

1.组织制度:“无规矩不成方圆”。春秋战国时期,正是法家的法派商鞅使秦国 1

走向强大,终而一统天下。由此可见,没有制度,无以成组织。制度化有利于团委日常工作的开展。《共青团华南农业大学工程学院委员会章程》是团委所有干部的最高行动指南,还有《办公室管理制度》《项目管理制度》《请假制度》《会议制度》《干部绩效考核制度》《先进团支部评比条例》等规范团委成员的日常工作。

(一)制度(节选)

《共青团华南农业大学工程学院委员会章程》

1.团委会在校党委的直接领导下,开展各项有益于学生学习和身心健康的活动,促使学生

德、智、体、美、劳全面发展。做优秀团员入党的推荐、培养、考察工作。

2.团委宗旨:以“团结、高效、求真、务实”为原则,以服务广大同学为宗旨,以马克思

列宁主义、毛泽东思想、邓小平理论和“三个代表”重要思想为行动指南,以科学发展观为指导方针。团委意识:创新意识,服务意识,学习意识,奉献意识。

3.发挥党联系青年的桥梁和枢纽作用。关心学院广大同学的学习和生活,切实为同学服务,及时向上级反映同学的意见和要求。

4.积极参与和配合学院搞好团组织工作和学生会组织工作,致力于学生管理;带动全院学

生活动,组织全院学生学习党、团的思想,致力于把全院学生培养为有理想、有道德、有学问的、具备综合素质的优秀学生,为国家、为社会培养国家之栋梁,有用之才。要发扬团的优良传统和先锋作用,富于创造性地开展工作,把工程学院团委建设作为教育青年团员的坚强核心。

2.干部教育:

A:每一位团委干部都应该关注社会形势发展,接受团务教育和素质培训,不断提高办事的效率和质量。

B:平常应多一点向上一届的团委成员请教,向老师讨教等。

C:在平时的工作中多思考,多学习,充分利用网络、图书馆、往届团委资料光碟,积累有经验的前辈传承下来的底蕴。

D:多一点与本学院的学生组织交流,相互交流与学习。

E:可以以学院团委的名义,与兄弟学院的团委或其他组织进行经验交流和相互学习,以达到共同进步的目的。

3.项目管理:就是在有限资源的约束下,运用系统的观点、方法和理论,对项目涉及的全部工作进行有效地管理。项目化管理是以培养干部的创新精神和实践能力为目的的,并在团委的宏观政策指导下,通过对每个活动和每件工作实行专人总负责,专人总管理的方法,使各方面的人力、物力、信息、资金等多方面资源达到最优配置的一种学生工作运行方式。项目化管理为学生干部搭建成长的平台,给他们留下自我发展的时间和空间

项目管理办法:

(1)、成立筹委会时,负责人必须尽可能收集多关于项目的资料

(2)、筹委会必须于活动开展前向副书记提交初步策划意向书

(3)、获得批准、并结合老师意见后完善活动的具体策划书,工作开展

(4)、活动进行过程中,筹委会必须定时向副书记汇报情况

(5)、活动后筹委会内部必须2天内向负责人汇报财政状况

(6)、活动后必须于3天内向副书记上交财务清单,副书记也应在一周内进 行结余

(7)、活动后5天内必须向副书记和秘书部提交电子版详细项目总结报告

(8)、在完成财务结余和总结审核后,筹委会正式解散

附录:《办公室管理制度》

1、办公室作用:(1)日常办公场所(2)来访同学的“窗口”(3)存放团委学生会档案

办公室管理人员:秘书部

办公室地址:工程学院北楼3082、值班时间:周一至周五:上午10:00-11:30,下午4:30-6:00

值班组长:每日秘书小组值班人员

值班人员的要求:准时值班,不缺勤或早退,请假必须提前一天找人替班并告知当日值

班组长。到位后及时填写值班记录。仪表穿戴整洁,佩带工作证,热

情待人。服从当日值班组长指挥。离开办公室需关闭所有电器、关好

门窗。

3、档案管理:档案要一式两份,一份为电子版存于办公室电脑,文件档案分类存放入各类

文件夹。团委学生会成员经值班组长同意方可就地查阅。若需外借或拷贝电

子版需值班组长同意并登记,外借期限为2天。

4、电脑使用制度:严禁用于私人用途。电脑D盘为各类档案,严禁在负责人统一整理之前删除任何档案。工作环境:一个组织运行的高效与良好,离不开一个良好的工作环境。快乐的团队成员是工程团委的财富,和谐的团队文化是工程团委的灵魂。

团委的工作环境应该体现出人文关怀,成员间互爱互助

A:组织关心成员:在成员生日时送上诚挚的祝福,营造一种大家庭氛围

B:组员相互帮忙:当组员有困难时,大家尽力帮助,助人度难,以增强团委组员的凝聚力,创建一种和谐的环境;

C:部长热心对待干事:当干事做错事情时,部长们应热心帮忙纠正,体谅干事。D节日组织一些文体活动:如在中秋节组织不会家的成员们一起欢聚等行为规范:

A:团委成员工作期间必须佩带工作证,大型活动或集体工作期间必须穿上团委工作服。

B:团委成员在出席工作会议时应该具备两样道具:笔和笔记本。会议中禁止玩手机、交头接耳,手机应调置静音状态,保持会场肃静

C:平常接到领导的工作指示或安排时,应严格执行,按时完成,完美完成。

D:组员见面时要相互问好。

E:在工作期间组员们要认真严肃,切勿大喊大叫,乱走乱跑。

F:在日常工作中,应待人以礼,助人为乐,尊师为重。

G:在行为规范中,符合大学生行为准则是前提,一切行为规范都以其开展。H:大家应该懂得互相尊重,用微笑去真挚交流。

I:参加工作会议时,避免缺席、迟到、早退现象。按会议要求提前10分钟进场,如有事不能参加会议,应事先按团委规定逐级办理请假手续;在完成上级组织下达的工作任务时,应充分理解工作内容,常常向组织汇报工作进度,保证工作的衔接;任务实施时,遇到疑问和同事或组织商量。

6沟通规范:

团委成员信息沟通应该为“双向高效”沟通。

A:“双向”是指上级布置工作时对下级的耐心指导和经验传承和下级向上级汇报工作是的工作总结和心得体会。

B高效”是指工作要定量化,在分工合作的模式下按时甚至提前完成工作。但高效并不代表只追求快而忘了质量,团委的高效应该是在高质量的前提下追求快。

C:团委委员的通知由秘书部负责,团委小组成员的通知由所属部门负责。

7成员发展:

团委成员的培养采取直接上级负责制,直接上级要注重下级的发展,进行随时随地随事地培养。

A;对于团委部长级以上干部建议选修管理学课程;对于团委全体成员进行系列培训,由秘书部负责安排,由各个部门直接培训。

B:团委成员作为学生干部,更应该懂得在日常工作中总结经验,自我学习,不断提高为人民服务的悟性。

C:在工作中,团委成员要积极开展批评和自我批评,不断完善自我,完善团委。D:谦虚地向有经验的同学或老师请教。

E:懂得利用图书馆或网络的知识,解决工作中的问题。

8经验传承:

团委每完成一个项目,应该通过系统总结,将经验以文字记录或光盘的形式传承下来。不断经验积累,避免重复投资,降低项目成本,实现高效管理。

A:在项目完成后一周内,项目负责人以及各相应分管部门把总结和和项目的所有相关资料交到秘书部汇总存档。

B;平常工作中,上级应该主动向下级介绍工作经验。

9总结规范:

A:项目负责人的总结内容包括:①项目实际具体策划书;②逐点罗列成功经验或突破,并相应作具体说明;③逐点罗列不足之处或教训,并相应分析原因和作出建议;④活动经费结算清单。

B:筹委会内部成员总结内容包括:①介绍项目分管工作,对相关细节有必要作说明; ②逐点罗列成功经验或突破,并相应作具体说明;③逐点罗列不足之处或教训,并相应分析原因和作出建议。④对活动后,自己心里的体会。

1.活动策划:

1.活动项目化,活动系列化,宣传有效化,资金多元化,工作透明化

2.策划书策划书的主要内容及应注意的细节

(1)背景、主题(2)活动目的及意义(3)主办,承办,协办方(4)活动对象(影响范围)(5)活动时间地点活动内容(6)活动筹备委员会(7)具体流程(8)效果预测(9)物资清单(10)经费预算(11)突发情况处理方案(12)第二第三备选方案

2.公共关系:

• 正确处理学院团委与年级团总支间的关系,明确组织的责权,肯定团总支的独

立性。

• 积极配合校团委、院党委开展工作,加强与各兄弟学院团委的交流合作,优势

互补,相互促进,共谋华农学生组织的发展。

• 坚持独立性原则的基础上,密切团结院学生会,发挥两大组织合作的巨大作用,携手开创工程学院学生工作的美好明天

共青团华南农业大学工程学院委员会章程

总则

第一条 华南农业大学工程学院团委是在学院党委直接领导下的学生群众组织,她以共

产主义精神教育青年,帮助青年用马克思列宁主义、毛泽东思想和现代科学文

化知识武装自己,引导青年在社会主义现代化建设中,锻炼成为有理想,有道

理,守纪律的共产主义事业的接班人。团委会在校党委的直接领导下,开展各

项有益于学生学习和身心健康的活动,促使学生德、智、体、美、劳全面发展。

团委会要配合党委开展适合学生特点的思想教育工作,引导学生树立正确的人

生观、世界观、道德观。团委会代表青年学生的利益,维护青年学生利益,倾

听同学们的呼声,充分发挥桥梁和纽带作用。对团员进行党的基础知识及党的路线、方针、政策的教育,做优秀团员入党的推荐、培养、考察工作。

第二条 团委宗旨:

以“团结、高效、求真、务实”为原则,以服务广大同学为宗旨,以马克思列

宁主义、毛泽东思想、邓小平理论和“三个代表”重要思想为行动指南,以科学

发展观为指导方针。

第三条 团委意识:创新意识,服务意识,学习意识,奉献意识。

第四条 院团委的基本任务:

热爱祖国,热爱人民,坚决拥护中国共产党的纲领,以马克思列宁主义,毛泽

东思想和邓小平理论及江泽民同志“三个代表”的重要思想为行动指南,以科

学发展观为指导方针,解放思想,实事求是,与时俱进,总揽全局、统筹规划,团结各年级学院团员青年。坚定不移地贯彻党在社会主义初级阶段的基本路线,造就有理想,有道德,有文化,有纪律的社会主义接班人,努力为党输送新鲜

血液。加强学院广大团员的思想政治工作,帮助团员青年学习科学文化知识,发挥团总支的先锋作用,不断提高团员青年的文化素质与政治思想觉悟。

始终把实现好、维护好、发展好广大团员学生的根本利益作为团委一切工

作的出发点和落脚点,尊重学生主体地位,发挥学生首创精神,保障学生

各项权益。

发挥党联系青年的桥梁和枢纽作用。关心学院广大同学的学习和生活,切实为

同学服务,及时向上级反映同学的意见和要求。

积极参与和配合学院搞好团组织工作和学生会组织工作,致力于学生管理;带

动全院学生活动,组织全院学生学习党、团的思想,致力于把全院学生培养为

有理想、有道德、有学问的、具备综合素质的优秀学生,为国家、为社会培养

国家之栋梁,有用之才。要发扬团的优良传统和先锋作用,富于创造性地开展

工作,把工程学院团委建设作为教育青年团员的坚强核心。

详细内容请查看《共青团华南农业大学工程学院委员会章程》

第三篇:BI学习心得

BI学习心得 BI是什么

通过学习理解,可将BI归结为一句话:从数据中挖取利润。

1.1 初识BI 初识BI的概念,是从《BI相关知识介绍.ppt》开始的。通读之后,我了解三件事: 1)、沃尔玛将啤酒和尿布摆在一起出售,提高了啤酒的销量; 2)、BI是Business Intelligence的缩写,商务智能。官方定义:是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术。3)、BI的分析过程图,如下:

图1.1—BI Analyse的过程

同时,幻灯片中还介绍了大量的中英文概念,让我非常的混乱。为了更好的学习了解BI,首先需要克服的就是名词解释,其次是通过实例了解BI的应用。1.2 常见名词浅释

 ETL:数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 Data Warehouse:数据仓库,是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。而不是一种可以购买的产品。 Data mart:数据集市,或者叫做“小数据仓库”。如果说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只是面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。 OLAP(On-Line Analytical Processing):联机在线分析处理,是一类软件技术,它们使用户(业务分析师、经理和执行官)能够以交互形式快速、一致地探查数据,用户看到的是经过转换后的原始数据的各种信息视图,它们可以反映业务的真实维数。 ROLAP:基于Codd的12条准则,各个软件开发厂家见仁见智,其中一个流派,认为可以沿用关系型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构(star schema)就出现了。后来又演化出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的OLAP称为Relational OLAP,简称ROLAP。代表产品有Informix Metacube、Microsoft SQL Server OLAP Services。 MOLAP:Arbor Software严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。被人们称为Muiltdimension OLAP,简称MOLAP,代表产品有Hyperion(原Arbor Software)Essbase、Showcase Strategy等。 Client OLAP:相对于Server OLAP而言。部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。代表产品有Brio Designer,Business Object。 DSS:决策支持系统(Decision Support System),相当于基于数据仓库的应用。决策支持就是在收集所有有关数据和信息,经过加工整理,来为企业决策管理层提供信息,为决策者的决策提供依据。 Ad hoc query:即席查询,数据库应用最普遍的一种查询,利用数据仓库技术,可以让用户随时可以面对数据库,获取所希望的数据。 EIS:主管信息系统(Executive Information System),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。

 BPR:业务流程重整(Business Process Reengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊端的一项工作,数据仓库的重要作用之一。 BI:商业智能(Business Intelligence),指数据仓库相关技术与应用的通称。指利用各种智能技术,来提升企业的商业竞争力。 Data Mining:数据挖掘,Data Mining是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策  CRM:客户关系管理(Customer Relationship Management),数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用。但是,从商业运作的角度来讲,CRM其实应该算是一个古老的“应用”了。比如,酒店对客人信息的管理,如果某个客人是某酒店的老主顾,那么该酒店很自然地会知道这位客人的某些习惯和喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间和服务。这就是一种CRM。 Meta Data:元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。

1.3 实例应用

BI应用实例:

某家上市公司的销售副总裁每周五下午要和全国各大区的销售总监开视频会议,一般情况下他需要事先了解一下公司上周的销售情况,这时他进入公司的商业智能系统,查看销售周报表,报表的横坐标是时间,纵坐标有:“销售目标”、“实际收入”、“收入指标达成率”。这张报表显示了每周销售变化情况。

副总裁为了进一步弄清楚某一大区及大区下属的几大城市的销售数据,只要使用钻取功能,用鼠标轻轻在屏幕上点击几下,该大区及大区下各城市的销售数据便一目了然。钻取即这种从“全国水平”(宏观)到“地区水平”(微观)的分析过程。然后,副总裁需要了解在某一区域的销售数据中,哪些是直销完成的,哪些是渠道完成的,这种从报表视图的某一个角度到另外一个角度的视角转换过程被称为“切片”。钻取和切片的操作都非常简便,只需用鼠标简单地在电子报表上轻点几下即可完成。在上面的分析过程中,涉及到了“维”这个概念,即观察问题的角度。

这位销售副总裁的分析维度包括:时间、大区、销售模式,以这三个维为三个轴线来观察数据,就形成了一个信息立方体,立方体的每一个小单元都包含了企业管理者需要追踪的消息,包括一个特定地区、特定时间、特定销售渠道的各项指标的全部信息,通过对立方体的切片或切块分割,可以从不同的视角观察各种数据。通过“钻取”和“切片”,这位副总裁知道了销售情况的变化是哪个大区、哪些城市、直销或者代理渠道出现了问题,这种灵活快速的查询和分析如果通过过去的ERP报表查询是很难完成的。

通过实例可知,使用BI系统,可以将不同的数据源关联对应在一起,对企业信息进行管理、分析、自动生成报表,提高分析决策的效率和质量。

1.4 BI的定义

商务智能是指将企业的各种数据及时地转换为企业管理者感兴趣的信息(或者知识),并以各种方式展现出来,帮助企业管理者进行科学决策,加强企业的竞争优势。这里的数据不仅仅指企业内部的各种数据,而且包括企业外部的数据,例如行业、市场状况和客户资源的数据等等。

从技术角度看,商务智能的过程是企业的决策人员以企业中的数据仓库为基础,经由联机分析处理工具、数据挖掘工具加上决策规划人员的专业知识,从数据中获得有用的信息和知识,帮助企业获取利润。

从应用角度看,商务智能帮助用户对商业数据进行联机分析处理和数据挖掘,例如预测发展趋势、辅助决策、对客户进行分类、挖掘潜在客户等等。

从数据角度看,商务智能使得很多事务性的数据经过抽取、转换之后存入数据仓库,经过聚集、切片或者分类等操作之后形成有用的信息、规则,来帮助企业的决策者进行正确的决策。

综上所述,我认为

BI的定义:商务智能是利用各种技术,对数据进行收集、存储、分析并提供可视化界面显示,从而更容易、快捷的获得信息知识,帮助管理者做出更好的业务决策。BI技术简析

通过阅读资料,我认为把商业智能看成是一种解决方案的说法比较恰当。它是将数据仓库、OLAP和数据挖掘等技术组合到一起的综合运用。BI技术的关键是将来自不同的业务系统数据库中的数据,提取出来,进行清理以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。商业智能的这个基本过程如图所示:

图2—BI结构图

一些文章中将BI分为四个主要阶段:数据预处理、建立数据仓库、数据分析、数据展现。同时认为数据仓库、OLAP和数据挖掘技术是商业智能的三大技术支柱。2.1 数据预处理——ETL ETL是商业智能(BI)的重要组成部分,是英文Extract-Transform-Load的缩写,即填充、更新数据仓库的数据抽取、转换、装载的过程。这是实现商业智能之前的数据采集步骤。这一步骤完成之后,对库中数据的数据挖掘、分析处理才可以进行。

对于ETL而言,“是什么”是很容易理解的,也就是将分散的、不易利用的数据进行整理,变成规则清晰的、易于利用的、(可能同时还是)集中的数据。

2.1.1 ETL设计

ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。数据的抽取是从各个不同的数据源抽取到ODS(OperationalDataStore,操作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完了之后直接写入DW(DataWarehousing,数据仓库)中去。

2.1.2 ETL实现

ETL的实现有多种方法,常用的有三种。一种是借助ETL工具(如Oracle的OWB、SQLServer2000的DTS、SQLServer2005的SSIS服务、Informatic等)实现,一种是SQL方式实现,另外一种是ETL工具和SQL相结合。前两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。第三种是综合了前面二种的优点,会极大地提高ETL的开发速度和效率。

2.1.3 数据的抽取

这一部分需要在调研阶段做大量的工作,首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据,手工数据量有多大,是否存在非结构化的数据等等,当收集完这些信息之后才可以进行数据抽取的设计。

1、对于与存放DW的数据库系统相同的数据源处理方法

这一类数据源在设计上比较容易。一般情况下,DBMS(SQLServer、Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问。

2、对于与DW数据库系统不同的数据源的处理方法

对于这一类数据源,一般情况下也可以通过ODBC的方式建立数据库链接——如SQLServer和Oracle之间。如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中。另外一种方法是通过程序接口来完成。

3、对于文件类型数据源(.txt,.xls)可以培训业务人员利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取。或者还可以借助工具实现,如SQLServer2005的SSIS服务的平面数据源和平面目标等组件导入ODS中去。

4、增量更新的问题

对于数据量大的系统,必须考虑增量抽取。一般情况下,业务系统会记录业务发生的时间,我们可以用来做增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间所有的记录。利用业务系统的时间戳,一般情况下,业务系统没有或者部分有时间戳。

2.1.4 数据的清洗转换

一般情况下,数据仓库分为ODS、DW两部分。通常的做法是从业务系统到ODS做清洗,将脏数据和不完整数据过滤掉,在从ODS到DW的过程中转换,进行一些业务规则的计算和聚合。

1、数据清洗

数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

(1)不完整的数据:这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。

(2)错误的数据:这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。

(3)重复的数据:对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。

数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。

2、数据转换 数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。

(1)不一致数据转换:这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001,这样在抽取过来之后统一转换成一个编码。

(2)数据粒度的转换:业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。一般情况下,会将业务系统数据按照数据仓库粒度进行聚合。

(3)商务规则的计算:不同的企业有不同的业务规则、不同的数据指标,这些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这些数据指标计算好了之后存储在数据仓库中,以供分析使用。

2.1.5 数据的装载

ETL的装载部分,可查询的资料较少。仅查阅到与抽取在一起的部分描述内容。ETL的核心还是在于T这个过程,也就是转换,而抽取和装载一般可以作为转换的输入和输出,或者,它们作为一个单独的部件,其复杂度没有转换部件高。和OLTP系统中不同,那里充满这单条记录的insert、update和select等操作,ETL过程一般都是批量操作,例如它的装载多采用批量装载工具,一般都是DBMS系统自身附带的工具,例如Oracle SQLLoader和DB2的autoloader等。

2.1.6 ETL日志、警告发送

1、ETL日志

ETL日志分为三类。一类是执行过程日志,这一部分日志是在ETL执行过程中每执行一步的记录,记录每次运行每一步骤的起始时间,影响了多少行数据,流水账形式。一类是错误日志,当某个模块出错的时候写错误日志,记录每次出错的时间、出错的模块以及出错的信息等。第三类日志是总体日志,只记录ETL开始时间、结束时间是否成功信息。如果使用ETL工具,ETL工具会自动产生一些日志,这一类日志也可以作为ETL日志的一部分。记录日志的目的是随时可以知道ETL运行情况,如果出错了,可以知道哪里出错。

2、警告发送

如果ETL出错了,不仅要形成ETL出错日志,而且要向系统管理员发送警告。发送警告的方式多种,一般常用的就是给系统管理员发送邮件,并附上出错的信息,方便管理员排查错误。

ETL是BI项目的关键部分,也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为BI项目后期开发提供准确的数据。

2.2 BI支撑技术——数据仓库/数据集市

数据仓库:商业智能的基础。

对于一个企业来说,最关键也最为重要的是,如何以一种有效的方式逐步整理各个业务处理系统中积累下来的历史数据,并通过灵活有效的方式为各级业务人员提供统一的信息视图,从而在整个企业内实现真正的信息共享。数据仓库技术正好满足了这一需求。数据仓库是商业智能系统的基础,如果没有数据仓库,没有企业数据的融合,数据分析就成为了无源之水。

数据仓库定义为:“一个面向主题的、集成的、反映历史变化的、相对稳定的数据集合,用于支持管理决策”。与传统的事物处理系统有不同的是,数据仓库是一种过程,它是对分布在组织或企业内部各处的业务数据进行整合、加工和分析的过程。而不是一种可以购买的产品。

2.2.1 数据仓库常用术语

 数据仓库

数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。

数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确,因为它必须在特定的时间基础上从操作环境中提取出来。 数据集市

数据仓库只限于单个主题的区域,例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。 事实

事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。每个事实包括关于事实(收入、价值、满意记录等)的基本信息,并且与维度相关。在某些情况下,当所有的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。我们稍后讨论有关缺无事实的情况。 维度

维度是绑定由坐标系定义的空间的坐标系的轴线。数据仓库中的坐标系定义了数据单元,其中包含事实。

坐标系的一个例子就是带有 x 维度和 y 维度的 Cartesian(笛卡尔)坐标系。在数据仓库中,时间总是维度之一。 数据挖掘

在数据仓库的数据中发现新信息的过程被称为数据挖掘,这些新信息不会从操作系统中获得。 分析空间

分析空间是数据仓库中一定量的数据,用于进行数据挖掘以发现新信息同时支持管理决策。 切片

一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。 切块

一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。 星型模式 一种使用关系数据库实现多维分析空间的模式,称为星型模式。星型模式将在本白皮书中稍后进行进一步讨论。 雪花模式

不管什么原因,当星型模式的维度需要进行规范化时,星型模式就演进为雪花模式。

2.2.2 面向主题(Subject-oriented)

“主题”是一个较为抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面。从信息管理的角度看,主题是在一个较高的管理层次上对数据进行综合、归类所形成的分析对象;从数据组织的角度看,主题就是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据本身,还涉及到数据之间的关系。

“面向主题”则表明了数据仓库中数据组织的基本原则,是指数据仓库内的信息是按主题进行组织的,而不像传统事物处理系统那样单一地按照业务功能及性能要求进行组织。传统的操作型系统是围绕公司的应用进行组织。如对一个电信公司来说,应用问题可能是营业受理、专业计费和客户服务等,而主题范围可能是客户、套餐、缴费和欠费等。

2.2.3 集成(Integrated)

“集成”是指数据仓库中的信息并不是对各个数据源简单的选择、抽取,而是首先进行一系列的加工、整理和转换等来消除源数据中的不一致;同时按照本行业的逻辑模型设计便于查询及分析的数据仓库。然后按照组织或企业的需求,针对不同的主题对数据进行某种程度的综合、概括和聚集,将源数据加载进数据仓库。经过这样的处理,数据就具有了集成性,可以用于决策分析。

2.2.4 反映历史变化(Time-variant)

“反映历史变化”是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。而信息本身相对稳定,是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作。

2.2.5 相对稳定(Non-volatile)

“相对稳定”是指数据一旦进入数据仓库,一般情况下会被长期保留,所涉及的数据操作也主要是查询、分析,很少会被修改或删除,通常也只需要定期地加载和刷新。相对稳定性保证了数据仓库中的数据能够真实地反映历史变化。

数据仓库中所存放的数据在物理上是分离的。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常它只需要两种数据访问:数据的初始化装入和数据访问。

2.2.6 了解实时数据仓库的定义

实时数据仓库是两种事物的组合:实时行为和数据仓库。实时行为是一种即时发生的行为。行为可以是任何事情,如超市中小商品的销售行为。一旦行为完成,就有关于它的数据。数据仓库捕获有关商业行为的数据,而实时数据仓库在商业行为发生时就捕获数据。当商业行为完成时,相关数据就已经进入到数据仓库并且能立即使用。换句话说,实时数据仓库是这样一个系统,只要行为发生、数据变得可用时,就能从中获得信息。

实时vs.近似实时之间的区别可以下面一个词概括:反应时间。反应时间是指行为的完成时间和该行为的数据在数据仓库中可利用时间之间的延迟。实时情况下,反应时间是可以忽略不计的;在近似实时情况下,反应时间是一段时间,比如2小时。为了使系统变得更精确,一些人使用了“实时”这个概念。

2.3 BI分析技术——OLAP 2.3.1 什么是OLAP

当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。下表列出了OLTP与OLAP之间的比较。

联机分析处理(OLAP)是以海量数据为基础的复杂分析技术。它支持各级管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析处理,并且能以直观易懂的形式将查询和分析结果展现给决策人员。

OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”这个概念。

区别于传统的联机事务处理(OLTP)系统,OLAP有12条准则:

1、OLAP模型必须提供多维概念视图

2、透明性准则

3、存取能力推测

4、稳定的报表能力

5、客户/服务器体系结构

6、维的等同性准则

7、动态的稀疏矩阵处理准则

8、多用户支持能力准则

9、非受限的跨维操作

10、直观的数据操纵

11、灵活的报表生成

12、不受限的维与聚集层次 虽然随着技术的发展,部分准则有所突破,但这些准则仍然是OLAP技术的基础。

2.3.2 OLAP核心技术——维

“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。

OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。 钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。♢ roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数; ♢ 而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。 切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。 旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。 Drill across:(未找到相关介绍) Drill through:(未找到相关介绍)

2.3.3 OLAP的分类

OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。ROLAP 表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。ROLAP通常使用三层架构,其数据库层和应用逻辑层是分离的,并且其数据存储在关系型数据库中

MOLAP 表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP 中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。

MOLAPS和ROLAPS相比,具有更短的处理时间,更快的响应速度,并且对于用户需求更为灵活。而ROLAPS在处理的数据总量和支持的客户数方面强于MOLAPS。

Hybrid online analytical processing(混合联机分析处理,HOLAP),HOLAP表示基于混合数据组织的OLAP实现。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。从字面上我们可以大致看出,HOLAP是上面两种分类的融合,它同时利用了多维数据库和关系数据库。HOLAP的优势在于它可以在性能需求和存储量需求间找到一个平衡点,从而充分利用系统潜能。

还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。

2.3.4 OLAP工具描述

OLAP 工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,„„,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。

2.4 BI分析技术——数据挖掘

2.4.1 什么是数据挖掘

数据挖掘又称知识发现(Knowledge Discovery in Database,简称KDD),是从大量数据中抽取有意义的、隐含的、以前未知的并有潜在使用价值的知识的过程。数据挖掘是一个多学科交叉性学科,它涉及统计学、机器学习、数据库、模式识别、可视化以及高性能计算等多个学科。利用数据挖掘技术可以分析各种类型的数据,例如结构化数据、半结构化数据以及非结构化数据、静态的历史数据和动态数据流数据等。

2.4.2 数据挖掘分类

数据挖掘涉及的学科领域和方法很多,有人工智能、数据统计、可视化、并行计算等。数据挖掘有多种分类方法。

 根据挖掘任务

可分为分类模型发现、聚类、关联规则发现、序列分析、偏差分析、数据可视化等。(1)分类(Classification)其旨在生成一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。既可以用此模型分析已有的数据,也可以用它来预测未来的数据。

(2)聚集(Clustering)聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。

(3)数据可视化(Description and Visualization)数据可视化严格地讲不是一个单独的数据挖掘任务,它被用来支持其他挖掘任务。可视化是采用图形、图表等易于理解的方式表达数据挖掘结果。

(4)关联规则(Affinity grouping or association rules)关联规则是寻找数据库中值的相关性,主要是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。(5)序列分析(Sequence Analysis)序列模式分析同样也是试图找出数据之间的联系。但它的侧重点在于分析数据之间前后(因果)关系,因此对数据往往要求引入时间属性。序列模式分析非常适于寻找事物的发生趋势或重复性模式。

(6)偏差分析(Deviation Analysis)是用来发现与正常情况不同的异常和变化,并进一步分析这种变化是否是有意的诈骗行为,还是正常的变化。如果是异常行为,则提示预防措施;如果是正常的变化,那么就需要更新数据库记录。

 根据挖掘对象

可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库以及环球网Web。

 根据挖掘方法

可粗略地分为:机器学习方法、统计方法、神经网络方法、决策树、可视化、最近邻技术等。在机器学习中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等;在统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。

2.4.3 数据挖掘技术

数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分类、回归及时间序列分析等。

1、数据总结

继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲,多维分析也可以归入这一类。

2、聚类分析

是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始细分之前不知道要把用户分成几类,因此通过聚类分析可以找出客户特性相似的群体,如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不同客户群体的营销方案。

聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。

以客户关系管理为例,利用聚类技术,根据客户的个人特征以及消费数据,可以将客户群体进行细分。例如,可以得到这样的一个消费群体:女性占91%,全部无子女、年龄在31到40岁占70%,高消费级别的占64%,买过针织品的占91%,买过厨房用品的占89%,买过园艺用品的占79%。针对不同的客户群,可以实施不同的营销和服务方式,从而提高客户的满意度。

对于空间数据,根据地理位置以及障碍物的存在情况可以自动进行区域划分。例如,根据分布在不同地理位置的ATM机的情况将居民进行区域划分,根据这一信息,可以有效地进行ATM机的设置规划,避免浪费,同时也避免失掉每一个商机。

对于文本数据,利用聚类技术可以根据文档的内容自动划分类别,从而便于文本的检索。

3、关联分析

关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。

对于结构化的数据,以客户的购买习惯数据为例,利用关联分析,可以发现客户的关联购买需要。例如,一个开设储蓄账户的客户很可能同时进行债券交易和股票交易,购买纸尿裤的男顾客经常同时购买啤酒等。利用这种知识可以采取积极的营销策略,扩展客户购买的产品范围,吸引更多的客户。通过调整商品的布局便于顾客买到经常同时购买的商品,或者通过降低一种商品的价格来促进另一种商品的销售等。

对于非结构化的数据,以空间数据为例,利用关联分析,可以发现地理位置的关联性。例如,85%的靠近高速公路的大城镇与水相邻,或者发现通常与高尔夫球场相邻的对象等。

4、分类分析

目的是构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1, v2,...,vn;c),其中vi表示字段值,c表示类别。

分类分析通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。利用这些规则和方法对未知类别的样本分类时应该具有一定的准确度。其主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法以及support vector machines等。利用分类技术,可以根据顾客的消费水平和基本特征对顾客进行分类,找出对商家有较大利益贡献的重要客户的特征,通过对其进行个性化服务,提高他们的忠诚度。

利用分类技术,可以将大量的半结构化的文本数据,如WEB页面、电子邮件等进行分类。可以将图片进行分类,例如,根据已有图片的特点和类别,可以判定一幅图片属于何种类型的规则。对于空间数据,也可以进行分类分析,例如,可以根据房屋的地理位置决定房屋的档次。

5、回归

是通过具有已知值的变量来预测其它变量的值。一般情况下,回归采用的是线性回归、非线性回归这样的标准统计技术。一般同一个模型既可用于回归也可用于分类。常见的算法有逻辑回归、决策树、神经网络等。

6、时间序列

时间序列是用变量过去的值来预测未来的值。

时间序列分析的是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律。

7、序列分析

序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,其依据除了统计上的概率之外,还要加上时间的约束。

8、预测

预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。

2.5 BI表示/展现技术——信息可视化与Web应用

数据经过分析后得到的即为商业智能。为了使它们直观、简练地呈现在用户面前,需要采用一定的形式表示和发布出来,通常采用的是一些查询和报表工具。不过,目前越来越多的分析结果是以可视化的形式表示出来。这就需要采用信息可视化技术。所谓信息可视化是指以图形、图像、虚拟现实等易为人们所辨识的方式展现原始数据间的复杂关系、潜在信息以及发展趋势,以便我们能够更好地利用所掌握的信息资源。

随着Web应用的普及,商业智能的解决方案能够提供基于Web的应用服务,这样就扩展了商业智能的信息发布范围,享有访问权限的用户只要能够登陆互连网,就可以及时访问自己所关心的内容。作为基于Web的商业智能解决方案,需要一些基本的组成要素,包括基于Web的商业智能服务器、会话管理服务、文件管理服务、调度、分配和通知服务、装载平衡服务和应用服务等。以应用服务为例,需要为用户的查询、分析和报表请求提供浏览器插件。由于商业智能应用涉及到对多个分散在各地的异构数据库的存取,因此还需要CORBA、IIOP协议和Java、XML语言的支持。

第四篇:BI实验报告

BI课程

学号:

姓名:王晓郁

专业:计算机科学与技术

日期:

实验报告

0841902112(08中法)202_年5月20日

实验、QL Server BI Step by Step SSIS 3 【开发语言及实现平台或实验环境】

sql server 202_

【实验目的】

(1)利用SSIS把SQL Server中的数据导出与导入。(2)熟悉和掌握实验的各种操作。

(3)能够在实际的事例中灵活运用学到的有关知识。

【实验原理】 1.SQL语句查询 2.SSIS包功能

【实验要求】

(1)利用SSIS实现了数据的导入和导出,把Product表中的数据导出成Excel,然后对产品编号和名称两个字段经过派生的功能进行转换再导入到数据库中。(2)按照实验步骤所示内容认真完成每一个步骤;

【实验步骤】 1.打开Vs.net 202_,选择商业智能项目,然后选择模板中的Integration Service项目,输入项目名称:

创建好后,就在默认的Package包中进行设计。

2.向控制流中添加一个数据流组件(Data Flow Task),双击进入数据流.从左边的工具箱中选择OLEDB数据源(OLE DB Source),可以看到,添加进去后是红色的.双击设置一下连接,如果没有已经创建的链接,则新建一个连接,选定后设置直接访问Produt表。

OK,确认了之后,发现红色的错误提示已经不存在了。

3.接下来直接再添加一个目标数据源,将数据导出成Excel数据格式,所以选择Excel Destination,同样,双击对Excel连接管理器进行配置,配置好文件名称和路径以后(此处选择在首行显示列名,这样会从第二行开始才开始显示数据),如果文件不存在,直接选择下面的新建,创建新的Excel工作表。

4.然后从左边切换到映射,对数据流中的元数据的列和Excel表中的列进行一一映射,因为刚才是自动创建的Excel工作表,所以默认是根据名称对应的.这样我们就完成了对Product产品表的导出,在右边的解决方案中,右击执行包,可以看到绿色执行成功.5.通过设置sql语句导出所有颜色为黑色的产品,让我们把OLEDB数据源的访问模式改成sql命令,然后输入查询语句:

SELECT * FROM Production.Product WHERE(Color = 'Black')

6.接下来,我们再将刚才导出的产品数据导入Product表中.再添加Excel Source和OLE DB Destination,其实就是做和导出相反的过程.把 Excel Source的OLEDB连接指向Excel连接管理器。

OLE DB Destination的连接设置成OLE DB Source中的数据库连接,同样,设置成以[表或视图]的方式访问Product表,确定后发现有红色错误。需要将rowguid字段,这两个字段都是数据库中自动生成的.再次确认后会发现已经没有错误,只剩下了黄色的警告,现在暂时不理会这个警告。

7.把刚才生成的Excel文件删除,重新配置Excel连接管理器生成新的空Excel文件(或者把生成的Excel中的数据删除),然后再次运行包,刚才的数据导出仍然正常,数据导入显示的是没有导入任何数据,这是因为在数据中刚才的数据导出和导出并没有先后,所以他们是同步执行的,执行导入时发现里面的数据为空,所以没有导入成功任何数据.不过,尝试着把数据导入的操作直接放在Excel Destination后面是失败的,Excel Destination就是数据流目标,意味着整个流程的结束.(此时Excel Destination中只可定义一个错误输出)。

8.切换到控制流,再添加一个数据流任务,将第一个数据流任何指向这个(鼠标拖拉绿色箭头):

9.双击刚添加的数据导入(已经编辑的数据流组件名称),把刚才的数据流中的组件剪切过来.清空Excel数据再次运行包,有错误 ,看下面的错误信息: An OLE DB record is available.Source: “Microsoft SQL Native Client” Hresult: 0x80040E2F Description: “语句已终止。”.An OLE DB record is available.Source: “Microsoft SQL Native Client” Hresult: 0x80040E2F Description: “不能在具有唯一索引 'AK_Product_ProductNumber' 的对象 'Production.Product' 中插入重复键的行。”.10.暂时通过添加一次转换,在刚才的数据流源和数据流目标中间再添加一个派生列组件(Derived Column ,Updates column values using expressions).添加一个新列NewProductNumber,在Excel中的产品编号后面加1,组成新的产品编号,同样派生出一个新的产品名称Name,因为在数据库中同样也有唯一性约束.11.还要修改OLE DB目标中的映射,将目标列的ProductNumber对应的输入列ProductNumber改成刚才派生的NewProductNumber.将目标列的Name对应的输入列Name改成刚才派生的NewName.清空Excel数据,再次运行包,都变成了绿色,执行全部成功

12.通过对比数据库,确实已经成功的添加进了93行新的数据

【参考文献】

1、SSIS_StepV2.pdf文档

【心得体会】

1.熟悉了sql server 202_的环境和熟练了SOL语言的使用。

2.通过实验得知,控制流中的数据导出和导入两个组件其实是前后约束条件的,也就是必须数据导出必须成功了才会执行导入(后面会介绍).另外,所谓的数据导出并不会局限于数据库的导入与导出,数据流源和数据流目标都可以是Excel,Flat File(txt,csv),XML,DataReader等连接.也就是说同样可以实现txt导入Excel,或者是XML导入数据库等操作。

第五篇:汉语拼音bi怎么发音

汉语拼音中,每一个都有其独特的发音,你知道汉语拼音bi怎么发音吗?不知道也没有关系,我们一起来学习吧。下面是小编帮大家整理的汉语拼音bi怎么发音,希望大家喜欢。

汉语拼音b怎么发音?

在英文中,B(发音为/bi/,bee)是ISO基础拉丁字母表中的第2个字母。

在欧洲和斯堪的纳维亚半岛上,“B”被用来表示“平面”,在计算机科学中,B是信息存储单元——字节的符号。

在工程方面,B是一个级别的单位。

在化学中,B是硼的符号,是一种化学元素。

汉语拼音的第一个声母,读音:波

网络中B是用来骂人的语气词,常见于网络中(网络用语)。常与

2、S等字符组合使用

发音方法

汉语拼音有两种拼读方法:

拼读法:前音轻短后音重。(例:b+a=ba)

直呼法:先做声母的嘴形再做韵母的音。

拼音有声母和韵母。韵母发音时较响亮,声母发音较轻快。

韵母又分单韵母和复韵母,只包含一个元音的,叫单韵母;包含几个元音或者由元音、辅音组合而成的,叫复韵母。汉字音节的韵母,由韵头、韵腹和韵尾3个部分组成。韵头,又称介音;韵腹,称元音;韵尾则有元音和辅音尾两种。以“卡”字而论,q是声母,ia是复韵母。i是韵头;a是韵腹。

BI项目实施方案总结
TOP