广州电脑培训_电脑培训班_电脑培训课程-北大青鸟电脑学校
当前位置:网站首页 > 电脑培训网-热点问答 > 正文

Apache流式处理工具(一):Flume

作者:广州电脑培训甘发布时间:2020-10-17分类:电脑培训网-热点问答浏览:756


导读:为大家简要介绍Apache流式处理工具的其中一种:Flume。这款产品性能优异,可横向伸缩,并提供插件机制,可通过定制组件进行扩展。ApacheFlume  ...

为大家简要介绍Apache流式处理工具的其中一种:Flume。这款产品性能优异,可横向伸缩,并提供插件机制,可通过定制组件进行扩展。


Apache Flume

        Flume部署由一个或多个使用拓扑配置的代理组成。Flume代理是一个JVM进程,它承载Flume拓扑的基本构建块,即源、通道和接收器。Flume客户机将事件发送到源,然后将它们成批地放在名为channel的临时缓冲区中,数据从该缓冲区流向连接到数据最终目的地的接收器。接收器也可以是其他Flume代理程序的后续数据源。代理可以链接,并且每个代理都有多个源、通道和接收器。


        Flume是一个分布式系统,可用于收集、聚合流事件并将其传输到Hadoop中。它有许多内置的源、通道和接收器,例如Kafka通道和Avro接收器。Flume是基于配置的,它有拦截器来对通道中的数据执行简单的转换。


        如果不小心,使用Flume很容易丢失数据。例如,为高吞吐量选择内存通道有一个缺点,即当代理节点关闭时,数据将丢失。文件通道将以增加延迟为代价提供持久性。即使如此,由于数据没有复制到其他节点,因此文件通道仅与底层磁盘一样的可靠性。Flume通过多跳/扇入扇出流提供了可伸缩性。对于高可用性(HA),可以水平扩展代理。


电脑培训网-热点问答排行
最近发表
标签列表