广州电脑培训_电脑培训班_电脑培训课程-北大青鸟电脑学校
当前位置:网站首页 > 电脑培训网-热点问答 > 正文

Apache流式处理工具(二):Kafka

作者:广州电脑培训甘发布时间:2020-10-17分类:电脑培训网-热点问答浏览:775


导读:上一节为大家简要介绍 《Apache流式处理工具(一):Flume》,这一节我给大家Apache流式处理第二款工具:Kafka。ApacheKafka &nb...

上一节为大家简要介绍 《Apache流式处理工具(一):Flume》,这一节我给大家Apache流式处理第二款工具:Kafka。


Apache Kafka

        Kafka是一种分布式高吞吐量消息总线,可将数据生成者与消费者分开。消息按主题组织,主题分为多个分区,分区在群集中的节点之间复制(称为代理)。与Flume相比,Kafka具有更好的可扩展性和消息持久性。 Kafka现在有两种样式:一种是“经典”生产者/消费者模型,另一种是新的Kafka-Connect,它为外部数据存储提供可配置的连接器(源/接收器)。


        kafka可以用于大型软件系统组件之间的事件处理和集成,此外,kafka附带kafka流,它可以用于简单的流处理,而不需要单独的集群,如apache spark或apacheFlink。


        由于消息被持久化在磁盘上,并且在集群中被复制,因此数据丢失情况不像Flume那样常见。也就是说,无论是使用Kafka客户端还是通过Connect API,生产者/来源和消费者/接收器通常都需要自定义编码。与Flume一样,消息大小也有限制。最后,为了能够进行通信,Kafka的生产者和消费者必须就协议、格式和架构达成一致,这在某些情况下可能会有问题。


电脑培训网-热点问答排行
最近发表
标签列表