大数据相关整理
一、KAFKA
1、特性
- 持久性:文件性存储,日志文件存储消息,达到阈值写磁盘,减少磁盘i/o,如果宕机会丢数据
- 高吞吐:普通机器百万qps
- 支持通过kafka服务器和消费机集群分区消息?
- 支持hadoop并行数据加载
2、术语
- Broker:消息中间处理节点,kafka节点=broker,一个或多个broker组成kafka集群
- Topic:kafka根据topic归类消息
- Producer:生产者
- Consumer:消费者
- ConsumerGroup:消费组
- Partition:物理概念,一个topic分多个partition,partition内部有序
3、其他
partition存储层面是append log文件,追加log文件尾部,offset标记消息在文件位置,offset是long数字,顺序写磁盘效率高于随机写内存,保证高吞吐
4、部署
1 | [root@kafka ~]# wget https://archive.apache.org/dist/kafka/2.2.1/kafka_2.11-2.2.1.tgz |
二、FLINK
1 | https://flink.apache.org/zh/downloads.html |
三、HADOOP
1 | cat /etc/profile |
四、HBASE
1 | hbase.apache.org/downloads.html |
五、CLICKHOUSE
六、HIVE
七、ELASTICSEARCH
八、LOGTSASH
Q&A
jar包不包含scala文件?
1 | <?xml version="1.0" encoding="UTF-8"?> |