说起测序,大量人第一反应就是 DNA 被扔进机器里,然后啪地一下变长条。

实际上不然,这玩意儿更像是一场没有剧本的挤奶,牛奶(DNA)挤出来,你猜如何着,能挤出一套密码子。想象一下,把一段长长的文字书下来,然后拿一支笔在纸上轻轻戳。

要是笔尖碰到纸,纸就立起来了;没碰到呢,就平了。测序机就是那个在纸上戳的笔,但它不是随意戳,而是戴着放大镜,每秒能戳几百次。 这种技术目前叫长读长测序原理实际上挺好办,就是利用一种特殊的酶,专门负责沿着 DNA 链往下走。

这酶就像个贪吃蛇,沿着你喂给它的一段 DNA 序列,把这条链给拉长了。拉得越长越长,最终铺成一张挺宽挺长的带子。

这时候,最关键的一步来了:如何知道这段带子到底长成了多少?

如何判断它是不是确实变成了长链,而不是又剪短了要么乱了? 答案是密码子。大家都知道 DNA 是 A 和 C、G 和 T 配对,这就像字母表里的 A、C、G、T。长读长测序机器会把经过的那段 DNA 里的每一个碱基都记录下来。

要是机器敲到了 A,记录就变成 A;敲到了 C,记录就变成 C。但这还不够,出于 A 和 T 在某些情况下长得像,C 和 G 有时候也长得像。机器得学会读“形”识“义”。

比方说,要是机器看到一串连续的 A 和 C,它得根据技术原理,猜这是由 G 和 T 组成的,还是由 A 和 T 组成的?这时候,它就得把这段“看起来像”的序列,发给一个计算机程序(酶)去仔细比对。计算机程序会操作一段预设的 DNA 序列,把这段“形似”的序列和真值序列(比如它的父代)进行比对。

要是比对结局说这两段不一样,比如它发现这段序列实际上是 G 和 T 组成的,那它就能修正了。修正完,机器就把修正后的“真值”重新塞回去,酶持续沿着 DNA 往下走,就像接力赛一样,一边跑一边修正,最终跑完这段长链,就拿到了一整段确凿无疑的序列数据。 这就好比一个侦探在图书馆里抽书。书忒长了,单用眼看正中间挺好办看晕要么看错。侦探就用放大镜(长读长酶)把整本书摊开,然后拿着放大镜,一页一页地抽。每抽一页,他就对照自己的笔记(真值序列),看一眼这一页是不是和笔记上一页连着的,要么是不是应当连着上一页。

要是发现不对劲,他就把这个页码记下来,接着去搞定一页。抽了无数页,最终他手里拿着一把整个的书,上面全是确凿的证据,再把这些证据放回去,再抽下一页。

这样抽下来的一页页数据,拼起来就是整个的长读长。 有人可能会问,如此费事,为啥还要用长读长技术?出于短读长技术就像是用放大镜看字,别看字还是认得,但视野挺窄,万一读到几个字母交界处,好办把连续的字母看错,要么把毛病的字母看成对的。长读长技术则是把书摊开,一口气扫过每一页,出于视野宽,偶然看错的概率就低得多,并且出于书长,更不好办把断开的线索连成一片瞎扯。 举个例子,假设你要测一个基因,这个基因挺复杂,有大量重复序列,短读长技术有时候会读到一半就停,要么读到一半把后面的连着读进去了,害得结局像是一团乱麻。而长读长技术呢,出于它能把几百万个碱基都测完,它就能省事跳过那些重复的垃圾,精准地定位到基因的真位置。 举个数据上的例子。

那会儿做短读长测序,要是一段 DNA 有 100 个碱基,你挺好办读到 12 个碱基就停了,中间可能有 88 个没测到。

这就好比看一段文字,每 10 个字看一眼,实际看到了 2 个字,漏了大局部。而长读长测序,相当于一次把整段文字扫了一遍,100 个碱基,一次全测了。

这在生物信息学处理效率上就是质的飞跃,那会儿需求跑几百个短片段,目前只需求跑一个长片段,工夫就省了八分之一的力气。 并且长读长技术还能解决“杂合区”的难题。在基因组里,有些基因区域有两条链,一条来自妈妈,一条来自爸爸,这叫杂合区。短读长技术要是没测到杂合位点,要么测错了,会害得基因编辑后功能丧失。长读长技术能一次把两条链都测准,这就好比复印一个文件,复印件上与此同时出现父母的信息,准率直接拉满。 最终,正出于长读长技术能解决这些难题,它的应用范围更广了。

那会儿做基因测序,主要用来找突变;目前做长读长,不仅能找突变,还能看基因的整个结构,就连能直接测序 RNA,看看这个基因到底是如何表达的,有没有形成转录本的变异。

这就像是个全能型的侦探,那会儿只能破案,目前能看现场全貌,还能直接拿到物证(RNA),大大提升了检测的准性和效率。 总的来说,长读长测序不是要把 DNA 切成小块再串起来,而是一次高强度的“线性扫描”。它通过长酶链的连续延伸,配合高精度的碱基识别和比对算法,把长链拉直、看清、修好,最终输出准的序列信息。

这不仅是技术的迭代,更是人类解读生命密码本事的显著提升。