mysql实现原理-MySQL 实现原理

原理解释 2026-06-08CST11:23:50

MySQL 这玩意儿，说白了就是让电脑那个叫“内存”的玩意儿，给硬盘里的数据做个特别搞怪的搬运工。我们平时用的数据库，脑子里得有个“仓库”存数据，但仓库根本装不下，毕竟硬盘忒卡了。

故此得有个叫“索引”的临时工，帮 CPU 把数据按顺序排好，让 CPU fetching 数据的时候顺道还能把脏数据擦掉。这过程啊，就像是仓库管理员（CPU）拿着一个庞大的托盘（内存）去仓库（硬盘）拉货。托盘忒沉，直接拉肯定拉不动，只能先把货物堆在托盘上，等卸完再倒下去。

这时候，仓库管理员手里那个标记着位置的纸片（索引）就派上用场了。他得知道每个货物目前在哪，查起来才准。先聊聊最基础的那个“内存”。CPU 住在一个叫“内存”的盒子里，它是为了跑飞快设计的。当你要查个数据时，CPU 得先想想能不能从内存里拿出来。

要是找到了，直接掏出来给程序用；要是没找到，就赶紧溜到硬盘去翻，翻到这一行数据就给它找出来。这就涉及到 MySQL 最核心的那根针——索引。它不是用来存字段的，那个忒占地方且不好查，索引是专门用来排序的。它就像仓库管理员贴的标签，告诉你这个货物在货架的哪一层。有了标签，CPU 不用盲目翻，而是顺着标签走，直接定位到那个货架位置。查表实际上就两步走，但大量人会搞混。

第一步是“定位”，就是 CPU 拿着索引的标签，像找山洞一样，在硬盘的扇区里找那个标签对。找到后，CPU 就拿着标签把数据读出来，塞进内存里。

这时候数据在内存里仿佛是个“刚洗好的盘子”，拿得比在铁锅里热着舒服多了。第二步才是“解码”，也就是把内存里的数据变成程序需求的格式，比如把大整数变成机器能懂的字节流，要么把汉字转成字符数组。

这一转化过程，本质上是 CPU 在内存和硬盘之间打叉叉。CPU 把硬盘里的标签拿出来，在内存里对应着那个标签位置的数据，略微改动一下，就是目前的值了。那为啥有时候数据会少半斤呢？这就得靠“覆盖索引”了。想象一下，你在铁锅里炒菜，锅底下有铲子，铲子底下有铁板和铁屑。

要是你想查菜，得挖铲子，还得动铲子底下的铁板。

这就好比没覆盖索引，查询得从内存里把数据读出来，再去硬盘读索引，还要去硬盘读存数据，直接跑了三趟。要是把这个“盖帽子”的操作做得完美，那就叫“覆盖索引”。

这时候，你只需求直接从硬盘的索引位置跳到内存里的存位置，顺便把索引那份数据也塞进去。别看硬盘本身还是得动一次，但 CPU 就不用跑硬盘去读索引了。

这样一来，查询就只动了两趟：从硬盘读一次数据，从内存读一次索引。

这就是为啥覆盖索引能大幅削减磁盘 I/O 的关键所在。举个例子，咱们用个好办的表。表里有个用户表，id 是主键，name 是名字，info 是详细信息。 ```sql CREATE TABLE users ( id INT NOT NULL, name VARCHAR(50), info TEXT ); ``` 目前你要查一个 ID 是 5 的用户信息。第一种查法是没覆盖索引。CPU 拿着 index 5 去找硬盘，找到后读出来 id=5, name='admin', info='...'，然后把这个信息塞到内存。接着，CPU 把内存里的 id 拿到硬盘，再找 index 5。找到了，读出来 name='admin', info='...'。这时候，CPU 得把硬盘里存名字的那块区域也读出来，塞到内存里。一共读了三次硬盘。第二种查法就是用了覆盖索引。

这时候，硬盘上存了三种数据：id、name、info。CPU 拿着 index 5 找硬盘，找到后，直接读出来 id=5, name='admin', info='...，然后把这个信息塞到内存里。出于这三个数据都在硬盘上，CPU 根本不需求再去读内存，也不需求把硬盘里名字的那块单独拿出来。故此，MySQL 之故此如此牛，就是出于它能设计出这种“索引 + 覆盖”的组合拳。对付大表，没有覆盖索引，CPU 就得去硬盘里跑多次；有了它，CPU 就能在硬盘上跑一遍，省得 CPU 去硬盘里跑两遍。自然，这也不是完美的。覆盖索引有个前提，就是数据量不能忒大，否则内存都塞满了，索引的位置和数据的位置就分不清了，CPU 拿错了数据，程序就报错了。并且索引本身也是有成本的，维护索引挺慢，更新数据的时候得停一停，不能随意改索引指向。故此，MySQL 的设计 philosophy 就挺中庸了。它不追求把所有查询都做成覆盖索引，那是浪费空间。它只针对那些最惨烈的查询做覆盖，其他时候还是老老实实恢复那种“读硬盘”的模式。

毕竟，数据库要存亿级数据，要是每个查询都跑三遍硬盘，哪怕只读一次，工夫也崩了。最终，关于更新。当你往表里加新数据，要么改数据的时候，MySQL 得先停下所有读操作。出于它得先拿着索引的标签，从硬盘里把当前的所有标签都扫一遍，擦干净利落，告诉数据库“旧的标签都不存有了，目前重新来”。

这个过程叫“刷表”，别看看起来挺慢，但实际上是为了保证数据的持久性。写操作完，再重新往轨道上放新的标签，索引就重建好了。整个过程啊，就是 CPU 拿着索引的标签，在硬盘和内存之间扮演着一个“翻译官”和“搬运工”。

有时候它得把硬盘上的标签读到内存，有时候它得从内存把硬盘上的标签读回来。

关键是，得尽量削减它跑硬盘的次数。

要是它跑了几十次，数据库就废了，用户连登录都费劲。

故此，我们平时写 SQL 的时候，那个（id, name）这种联合索引，实际上就是给 CPU 指了一条通往“少跑硬盘”的高速公路。