一代测序技术的原理-一代测序技术原理

原理解释 2026-06-11CST19:40:18

说起测序，大量人第一反应就是 DNA 被扔进机器里，然后啪地一下变长条。

实际上不然，这玩意儿更像是一场没有剧本的挤奶，牛奶（DNA）挤出来，你猜如何着，能挤出一套密码子。想象一下，把一段长长的文字书下来，然后拿一支笔在纸上轻轻戳。

要是笔尖碰到纸，纸就立起来了；没碰到呢，就平了。测序机就是那个在纸上戳的笔，但它不是随意戳，而是戴着放大镜，每秒能戳几百次。这种技术目前叫长读长测序，原理实际上挺好办，就是利用一种特殊的酶，专门负责沿着 DNA 链往下走。

这酶就像个贪吃蛇，沿着你喂给它的一段 DNA 序列，把这条链给拉长了。拉得越长越长，最终铺成一张挺宽挺长的带子。

这时候，最关键的一步来了：如何知道这段带子到底长成了多少？

如何判断它是不是确实变成了长链，而不是又剪短了要么乱了？答案是密码子。大家都知道 DNA 是 A 和 C、G 和 T 配对，这就像字母表里的 A、C、G、T。长读长测序机器会把经过的那段 DNA 里的每一个碱基都记录下来。

要是机器敲到了 A，记录就变成 A；敲到了 C，记录就变成 C。但这还不够，出于 A 和 T 在某些情况下长得像，C 和 G 有时候也长得像。机器得学会读“形”识“义”。

比方说，要是机器看到一串连续的 A 和 C，它得根据技术原理，猜这是由 G 和 T 组成的，还是由 A 和 T 组成的？这时候，它就得把这段“看起来像”的序列，发给一个计算机程序（酶）去仔细比对。计算机程序会操作一段预设的 DNA 序列，把这段“形似”的序列和真值序列（比如它的父代）进行比对。

要是比对结局说这两段不一样，比如它发现这段序列实际上是 G 和 T 组成的，那它就能修正了。修正完，机器就把修正后的“真值”重新塞回去，酶持续沿着 DNA 往下走，就像接力赛一样，一边跑一边修正，最终跑完这段长链，就拿到了一整段确凿无疑的序列数据。这就好比一个侦探在图书馆里抽书。书忒长了，单用眼看正中间挺好办看晕要么看错。侦探就用放大镜（长读长酶）把整本书摊开，然后拿着放大镜，一页一页地抽。每抽一页，他就对照自己的笔记（真值序列），看一眼这一页是不是和笔记上一页连着的，要么是不是应当连着上一页。

要是发现不对劲，他就把这个页码记下来，接着去搞定一页。抽了无数页，最终他手里拿着一把整个的书，上面全是确凿的证据，再把这些证据放回去，再抽下一页。

这样抽下来的一页页数据，拼起来就是整个的长读长。有人可能会问，如此费事，为啥还要用长读长技术？出于短读长技术就像是用放大镜看字，别看字还是认得，但视野挺窄，万一读到几个字母交界处，好办把连续的字母看错，要么把毛病的字母看成对的。长读长技术则是把书摊开，一口气扫过每一页，出于视野宽，偶然看错的概率就低得多，并且出于书长，更不好办把断开的线索连成一片瞎扯。举个例子，假设你要测一个基因，这个基因挺复杂，有大量重复序列，短读长技术有时候会读到一半就停，要么读到一半把后面的连着读进去了，害得结局像是一团乱麻。而长读长技术呢，出于它能把几百万个碱基都测完，它就能省事跳过那些重复的垃圾，精准地定位到基因的真位置。举个数据上的例子。

那会儿做短读长测序，要是一段 DNA 有 100 个碱基，你挺好办读到 12 个碱基就停了，中间可能有 88 个没测到。

这就好比看一段文字，每 10 个字看一眼，实际看到了 2 个字，漏了大局部。而长读长测序，相当于一次把整段文字扫了一遍，100 个碱基，一次全测了。

这在生物信息学处理效率上就是质的飞跃，那会儿需求跑几百个短片段，目前只需求跑一个长片段，工夫就省了八分之一的力气。并且长读长技术还能解决“杂合区”的难题。在基因组里，有些基因区域有两条链，一条来自妈妈，一条来自爸爸，这叫杂合区。短读长技术要是没测到杂合位点，要么测错了，会害得基因编辑后功能丧失。长读长技术能一次把两条链都测准，这就好比复印一个文件，复印件上与此同时出现父母的信息，准率直接拉满。最终，正出于长读长技术能解决这些难题，它的应用范围更广了。

那会儿做基因测序，主要用来找突变；目前做长读长，不仅能找突变，还能看基因的整个结构，就连能直接测序 RNA，看看这个基因到底是如何表达的，有没有形成转录本的变异。

这就像是个全能型的侦探，那会儿只能破案，目前能看现场全貌，还能直接拿到物证（RNA），大大提升了检测的准性和效率。总的来说，长读长测序不是要把 DNA 切成小块再串起来，而是一次高强度的“线性扫描”。它通过长酶链的连续延伸，配合高精度的碱基识别和比对算法，把长链拉直、看清、修好，最终输出准的序列信息。

这不仅是技术的迭代，更是人类解读生命密码本事的显著提升。