想用来做实时报表分析是不那么合适的; 做 ClickHouse 不容易啊,其实并发能力很低; 但是大数据量查询方面还可以,所以基本上就是堆资源去查出来的; 对于业务来说,实时读写并不现实,ClickHouse 有很多异步的逻辑: - 首先是 zk 的异步和不实时 - 修改是异步的;副本之间同步是异步的; - mutation 的修改是异步的;
—————————以下为原文摘抄———————————————————————————————————
ClickHouse 原理解析与应用实践
推荐序一
我们在 2016 年发布了 ClickHouse 的开源版本
如果细看 ClickHouse 的架构,你会发现其中没有什么新颖的技术,其中使用的大部分技术都是经过了多年研究并已在其他数据库中实现了的成熟技术
推荐序二
在用户行为分析转化漏斗场景里,ClickHouse 比 Spark 快了近 10 倍
前言
本书内容基于 ClickHouse 19.17.4.11 版本编写,演示时所用操作系统为 CentOS 7.7。
1.3 OLAP 常见架构分类
OLAP 名为联机分析,又可以称为多维分析,是由关系型数据库之父埃德加·科德(Edgar Frank Codd)于 1993 年提出的概念
下钻:从高层次向低层次明细数据穿透。例如从“省”下钻到“市”,从“湖北省”穿透到“武汉”和“宜昌”。
上卷:和下钻相反,从低层次向高层次汇聚。例如从“市”汇聚成“省”,将“武汉”“宜昌”汇聚成“湖北”。
切片:观察立方体的一层,将一个或多个维度设为单个固定值,然后观察剩余的维度,例如将商品维度固定为“足球”。
切块:与切片类似,只是将单个固定值变成多个值。例如将商品维度固定成“足球”“篮球”和“乒乓球”。
1.4 OLAP 实现技术的演进
在 ROLAP 架构下,直接使用这些数据库则借助物化视图的形式实现数据立方体
1.5 一匹横空出世的黑马
ElasticSearch 支持实时更新,在百万级别数据的场景下可以做到实时聚合查询,但是随着数据体量的继续增大,它的查询性能也将捉襟见肘
在 1 亿数据集体量的情况下,ClickHouse 的平均响应速度是 Vertica 的 2.63 倍、InfiniDB 的 17 倍、MonetDB 的 27 倍、Hive 的 126 倍、MySQL 的 429 倍以及 Greenplum 的 10 倍
1.7 ClickHouse 的名称含义
全称是 ClickStream,DataWareHouse,简称 ClickHouse
1.9 ClickHouse 不适用的场景
不擅长根据主键按行粒度进行查询(虽然支持),故不应该把 ClickHouse 当作 Key-Value 数据库使用
第 2 章 ClickHouse 架构概述
特别是在分片和副本方面,有些时候数据的分片甚至需要手动完成
多主对等网络结构
2.1 ClickHouse 的核心特性
能用钱解决的问题,千万别花时间
能升级硬件解决的问题,千万别优化程序
存储媒介距离 CPU 越近,则访问数据的速度越快
利用 CPU 向量化执行的特性,对于程序的性能提升意义非凡。
ClickHouse 是大小写敏感的
向量化执行是通过数据级并行的方式提升了性能
多线程处理就是通过线程级并行的方式实现了性能的提
相关推荐
© 2023-2025 百科书库. All Rights Reserved.
发表评价