数据收集系统 Chukwa__Chukwa_Hadoop_HDFS_SequenceFile_MapReduce_

当前位置: 软件>java软件

数据收集系统 Chukwa

来源: 发布时间：2015-02-05

本文导语: 什么是 Chukwa，简单的说它是一个数据收集系统，它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能，帮助我们进行数据的收集和整理。 ...

什么是 Chukwa，简单的说它是一个数据收集系统，它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能，帮助我们进行数据的收集和整理。

为了更加简单直观的展示 Chukwa，我们先来看一个假设的场景。假设我们有一个规模很大 ( 牵扯到 Hadoop 的总是很大。。。。) 的网站，网站每天产生数量庞大的日志文件，要收集，分析这些日志文件可不是件容易的事情，读者可能会想了，做这种事情 Hadoop 挺合适的，很多大型网站都在用，那么问题来了，分散在各个节点的数据怎么收集，收集到的数据如果有重复数据怎么处理，如何与 Hadoop 集成。如果自己编写代码完成这个过程，一来需要花费不小的精力，二来不可避免的会引入 Bug。这里就是我们 Chukwa 发挥作用的时候了，Chukwa 是一个开源的软件，有很多聪明的开发者在贡献着自己的智慧。它可以帮助我们在各个节点实时监控日志文件的变化，增量的将文件内容写入 HDFS，同时还可以将数据去除重复，排序等，这时 Hadoop 从 HDFS 中拿到的文件已经是 SequenceFile 了。无需任何转换过程，中间繁杂的过程都由 Chukwa 帮我们完成了。是不是很省心呢。这里我们仅仅举了一个应用的例子，它还可以帮我们监控来自 Socket 的数据，甚至定时执行我们指定的命令获取输出数据，等等，具体的可以参看 Chukwa 官方文档。如果这些还不够，我们还可以自己定义自己的适配器来完成更加高级的功能。

数据收集系统 Chukwa[图片]

您可能感兴趣的文章:

数据收集和索引系统 Moloch

MySQL 数据库信息收集工具 Rain Gauge

sqlserver 数据库连接字符串中的可选项收集

关于数据库优化问题收集汇总

本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术，将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外，均为转载、整理或搜集自网络。欢迎任何形式的转载，转载请注明出处。