论文 | Yuxia's Blog

当 AI Agent 成为调用方，我们需要怎样的日志系统？

基于 UIUC 论文 AgileLog 的深度分析：当 AI Agent 成为流数据系统的一等公民，底层共享日志需要支持 forking。论文提出 Continuous Fork 新抽象和 Bolt 系统实现，通过 Diskless 架构、HLI、Tail-Only Updates、Lazy Tail Tree 四项技术实现廉价、隔离、可扩展的 fork。

从 GPT-1 到 GPT-3：现代大语言模型的技术底座是如何形成的

GPT-1至GPT-3逐步确立了现代大语言模型的三大基础：预训练获得通用能力、从文本中学习任务模式、通过prompt实现零微调的任务调用。

深入理解列存格式：Arrow，Parquet，ORC

本文深入对比Arrow、Parquet、ORC三种列存格式，分析其在压缩、编码、读写性能等方面的差异，总结各自优劣及适用场景。

一篇论文带你回顾数据库过去 20 年的发展

该论文回顾数据库20年发展，指出技术螺旋演进，关系模型与SQL仍占主导，新兴系统多被其吸收融合，强调开源组件与标准的重要性。

VLDB-2025 Best Industry Paper - Ursa: A Lakehouse-Native Data Streaming Engine for Kafka

Ursa是兼容Kafka协议的湖仓原生存算分离流引擎，通过将数据直接写入对象存储并内置Compaction服务，降低存储成本并支持高效分析。