CMU15445-存储引擎-1 | CHENSHONE的博客

cmu15445

database

发布日期: 2023-04-07

文章字数: 1.3k

阅读时长: 4 分

阅读次数:

基于磁盘的体系结构

数据库中的数据主要存储在磁盘（non-volatile disk，非易失的）中，DBMS主要负责数据在磁盘和内存（non-volatile and volatile storage）中来回移动。

如下图所示，存储体系结构越往上速度越快、容量越小、价格越贵。

内存及往上存储结构支持随机访问，访问地址最小单位是字节，也就说可以读取单个字节数据；ssd及以下存储结构顺序访问，访问地址最小单位是块，存取最小也是一块，比如只想存1B的数据，也需要占一块的空间。

存储体系结构

通常情况下，在磁盘上，随机访问都比顺序访问要慢的多。因此DBMS希望最大化顺序访问。

也就是说，在写入数据时，应该尽量减少随机写，让数据存储在连续块（block）中。

同时分配多个页面（page）称为区间（extent）。

如上图所示，在磁盘中，db里的数据按页存储，有一个directory来标记不同的页分别在哪里，每个页中都有一个header来存放该页的元数据。

上图的例子是想要拿到page#2，先从disk中将directory读到内存的buffer池中，然后根据directory找到page#2，读到buffer池中，执行器疫情再分析page#2。

DBMS（几乎）总是想自己控制事情，并能比操作系统做得更好。

OS并不知道DBMS对数据的操作具体是如何的，遇到缺页的情况，盲目的替换，会导致极差的性能。因此DBMS应该自主控制。

DBMS将数据库作为一个或多个文件存储在磁盘上，通常是一种专有格式。操作系统对这些文件的内容一无所知。

一个页面是一个固定大小的数据块。

每个页面都有一个唯一的标识符。DBMS使用一个中介层将页面ID映射到物理位置。

在DBMS中的 “页”有三种不同的概念：

一个硬件页是存储设备可以容纳的最大数据块的数据块，存储设备可以保证故障安全写入的最大数据块。

堆文件是一个无序的页面集合，其tuples是以随机顺序存储的。

有两种方法来表示堆文件：

对于任何页面存储架构，我们需要决定如何组织页面内的数据。

我们假设只是在存储tuple。

有两种方法：