学大数据必知的“13款开源Java大数据工具”！

　　那么为什么会产生如此之大的数据集？因为当今的数据已经无所不在并且存在着巨大的回报：收集通信数据的RFID传感器，收集天气信息的传感器，移动设备给社交网站发送的GPRS数据包，图片视频，在线购物产生的交易记录，应有尽有！大数据是一个巨大的数据集，包含了任何数据源产生的信息，当然前提是这些信息是我们感兴趣的。

　　然而大数据的含义绝不只与体积相关，因为大数据还可以用于寻找新的真知、形成新的数据和内容；我们可以使用从大数据中提取的真知、数据和内容去使商业更加灵活，以及回答那些之前被认为远超当前范畴的问题。这也是大数据被从以下4个方面定义的原因：Volume（体积）、Variety（多样）、Velocity（效率）以及Veracity（Value，价值），也就是大数据的4V。

　　Volume说的是一个业务必须捕获、存储及访问的数据量，仅仅在过去两年内就生产了世界上所有数据的90%。现今的机构已完全被数据的体积所淹没，轻易的就会产生TB甚至是PB级不同类型的数据，并且其中有些数据需要被组织、防护（窃取）以及分析。

　　世界上产生的数据有80%都是半结构化的，传感器、智能设备和社交都是通过Web页面、网络日志文件、社交论坛、音频、视频、点击流、电子邮件、文档、传感系统等生成这些数据。传统的分析方案往往只适合结构化数据，举个例子：存储在关系型数据库中的数据就有完整的结构模型。数据类型的多样化同样意味着为支持当下的决策制定及真知处理，我们需要在数据储存和分析进行根本的改变。Variety代表了在传统关系数据库中无法轻易捕获和管理的数据类型，使用大数据技术却可以轻松的储存和分析。

　　Velocity则需要对数据进行近实时的分析，亦称“sometimes 2 minutes is too late!”。获取竞争优势意味着你需要在几分钟，甚至是几秒内识别一个新的趋势或机遇，同样还需要尽可能的快于你竞争对手。另外一个例子是时间性数据的处理，比如说捕捉罪犯，在这里数据必须被收集后就完成被分析，这样才能获取最大价值。对时间的数据保质期往往都很短，这就需求组织或机构使用近实时的方式对其分析。

　　通过分析数据我们得出如何的抓住机遇及收获价值，数据的重要性就在于对决策的支持；当你着眼于一个可能会对你企业产生重要影响的决策，你希望获得尽可能多的信息与用例相关。单单数据的体积并不能决定其是否对决策产生帮助，数据的真实性和质量才是获得真知和思最重要的因素，因此这才是制定成功决策最的基础。

　　然而当下现有的商业智能和数据仓库技术并不完全支持4V理论，大数据解决方案的开发正是针对这些挑战。

　　HDFS是Hadoop应用程序中主要的分布式储存系统， HDFS集群包含了一个NameNode（主节点），这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode（数据节点，可以有很多）。HDFS针对海量数据所设计，所以相比传统文件系统在大批量小文件上的优化，HDFS优化的则是对小批量大型文件的访问和存储。

　　Hadoop MapReduce是一个软件框架，用以轻松编写处理海量（TB级）数据的并行应用程序，以可靠和容错的方式连接大型集群中上万个节点（商用硬件）。

　　Apache HBase是Hadoop数据库，一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问，并针对了商用服务器集群上的大型表格做出优化——上百亿行，上千万列。其核心是Google Bigtable论文的开源实现，分布式列式存储。就像Bigtable利用GFS（Google File System）提供的分布式数据存储一样，它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。

　　Apache Cassandra是一个高性能、可线性扩展、高有效性数据库，可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中，Cassandra同类最佳，为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存，Cassandra的数据模型提供了方便的二级索引（column indexe）。

　　Apache Hive是Hadoop的一个数据仓库系统，促进了数据的综述（将结构化的数据文件映射为一张数据库表）、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言，同时当使用这个语言表达一个逻辑变得低效和繁琐时，HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。

　　Apache Pig是一个用于大型数据集分析的平台，它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行，也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言—&mdashig Latin，开发的初衷是易于编程和可扩展性。

　　Apache Chukwa是个开源的数据收集系统，用以大型分布系统。建立于HDFS和Map/Reduce框架之上，继承了Hadoop的可扩展性和稳定性。 Chukwa同样包含了一个灵活和强大的工具包，用以显示、和分析结果，以数据的使用达到最佳效果。

　　Apache ZooKeeper是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置、命名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

　　Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库中数据导入Hadoop的HDFS中，也可以将HDFS中数据导入关系型数据库中。

　　Apache Mahout是个可扩展的机器学习和数据挖掘库，当前Mahout支持主要的4个用例：

　　3月Java免费训练营预约开班中，五天经典Java大数据+Java课程免费送，热门技术，一线名师，助力你快速实现高薪名企！马上点击阅读原文抢报本月Java大数据+Java免费训练营吧！

杭州论文网

学大数据必知的“13款开源Java大数据工具”！