Project Description

  大数据涉及的技术很多,主要包括数据采集、数据存储、数据管理、数据分析和挖掘四个环节:

  • 在数据采集阶段主要使用的技术是数据抽取工具ETL;
  • 在数据存储环节主要有结构化数据、非结构化数据和半结构化数据的存储与访问;结构化数据一般存放在关系型数据库中,通过数据查询语言(SQL)来访问;非结构化(如图片、视频、doc文件等)和半结构化数据一般通过分布式文件系统的NoSQL(not only SQL)进行存储,比较典型的NoSQL有GOOGLE的BIgtable、Amazon的Dynamo和Apache的HBASE;
  • 大数据的管理主要使用了分布式并行处理技术,比较常用的有Mapreduce;
  • 数据挖掘分析和挖掘是根据业务需求对大数据进行关联、聚类、分类等钻取和分析。