一篇论文带你回顾数据库过去 20 年的发展
该论文回顾数据库20年发展,指出技术螺旋演进,关系模型与SQL仍占主导,新兴系统多被其吸收融合,强调开源组件与标准的重要性。
该论文回顾数据库20年发展,指出技术螺旋演进,关系模型与SQL仍占主导,新兴系统多被其吸收融合,强调开源组件与标准的重要性。
RedPanda宣称性能优于Kafka,但其基准测试存在争议,Kafka在多种场景下表现更优,实际性能需结合具体工作负载验证。
文章深入解析了Hudi的内部机制与一致性模型,重点阐述其基于Timeline和FileGroup的读写流程、乐观并发控制及对写入端的时间戳单调性等严格要求,揭示了其复杂性与潜在数据一致性风险。
Delta通过递增版本的DeltaLog记录写入,采用Copy-on-write或Merge-on-read实现数据更新,并利用PutIfAbsent或表锁解决并发写入冲突,其一致性模型基于分区级冲突检测。
Paimon通过LSM树和Deletionvector优化主键表读写,多写者不同bucket无一致性问题,但同bucket写入可能导致更新丢失或悬空Deletionvector。
本文深入解析Iceberg数据湖格式的内部机制与一致性模型,涵盖写入流程、快照管理、并发控制及冲突检测机制,确保多写者场景下的数据一致性。
Ursa是兼容Kafka协议的湖仓原生存算分离流引擎,通过将数据直接写入对象存储并内置Compaction服务,降低存储成本并支持高效分析。
KIP-1150提出Kafka存算分离架构,通过将数据存储至远程对象存储(如S3)并采用无Leader设计,降低跨可用区复制成本,提升可扩展性与成本效率。
Lance是一种专为机器学习和AI优化的列式数据格式,通过摒弃RowGroup、引入DataPage及内置索引,解决Parquet在随机访问、超大列、大宽表支持上的不足,更好适配AI工作负载并对接主流AI生态。
QCon北京大会大模型正在重新定义软件参会总结