BI是企业对商业数据的收集、管理和分析的系统过程,目的是使企业的各级决策者获得知识或洞查力,帮助他们做出对企业更有利的决策。BI是数据仓库、OLAP(On-line Analytical Processing,联机分析处理)和DM(Data Mining,数据挖掘)等相关技术走向商业应用后形成的一种应用技术。
DW(Data Warehouse,数据仓库)是一个面向主题、集成的、非易失的、反映历史变化的数据集合,用于支持管理决策。
数据仓库的特征:
- 数据仓库是面向主题的。
- 数据仓库是集成的。数据仓库实现数据由面向应用的操作型环境向面向分析的数据仓库集成。
- 数据仓库是非易失的。数据仓库的数据通常是一起载入与访问的,在数据仓库环境中并不进行一般意义上的数据更新。
- 数据仓库随时间的变化性。数据挖掘就是从存放在数据库、数据仓库或其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式化的非平凡过程。
数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。
描述型数据挖掘的内容包括:
- 数据总结:它继承于数据分析中的统计分析。数据总结的目的是对数据进行浓缩,给出它的紧凑描述。
- 聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间的差别明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分。
- 关联分析:是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式与此类似,寻找的是事件之间时间上的相关性,如对股票涨跌的分析等。
- 分类:目的是构造一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。
- 回归:是通过具有已知值的变更来预测其他变量的值。一般情况下,回归采用的是线性回归和非线性回归这样的标准统计技术。
- 时间序列:时间序列是用变量过去的值来预测未来的值。