芯片这东西,说白了就是让晶体管动起来,然后指挥它们干活。别被那些光怪陆离的叫法吓跑,比如 CMOS、FPGA 要么 ASIC,那些词听起来像天书。

实际上最核心的就是电,电给一堆细小的开关送电流,这些开关能开能关,来回切换,就能算出大量个东西。想象一下,你手里有个遥控器,按键是开关,电路是底座,根据你按的哪个键,电流就如何走,多快,几毫秒,微秒,纳秒,这些工夫单位直接拍板了系统的反应速度。 早期的芯片没那么复杂,可能就几百万个晶体管,那时候算得都比较慢,像老式台灯似的,一开一关,慢慢亮。

后来有了微处理器,性能提升挺快,2005 年之前,桌面电脑大约每秒能跑几亿次运算,也就是 GigaFLOPS,那一代人游戏机、MP3 播放器简直都指望这东西。但目前的趋势变了,摩尔定律别看还在,但单纯堆晶体管已经不够了。出于制程在变慢,单颗芯片的算力上限越来越低。便大家启动搞“横向”,把不同技术的芯片拼在一起,叫异构计算。 比如 GPU(图形处理单元),它的核心是成千上万个计算单元并行工作,每个单元负责做同一件事。

不过 GPU 别看快,但不精通算加法、减法这种基础数学,也就是我们常说的线性运算。

这就好比有一群高中生,他们都挺了得,都会弹钢琴,但都不会背乘法口诀表。

要是你要算 1+2+3+4+5,他们一个个弹,得慢吞吞的。

这时候就需求到另一类芯片,比如 CPU 要么专用的加速器,他们精通拿人的“乘法口诀表”,瞬间就能把所有数加起来。

这种分工,在目前的手机芯片里特别常见。手机里可能有一颗专门算矩阵乘法的大浮点单元,一颗专门算整数运算的单元,加起来算个十亿次浮点运算可能只需求几分钟,但要是不如此分,光靠几颗 CPU 要么几颗 GPU,真得得算挺久。 再看存芯片,也有点类似的故事。DRAM 就是那种每天看着数据漏掉的,数据存一毫秒就忘,故此用来做内存缓存。目前大量芯片为了摆脱这种“忘恩负义”的存,用了 SRAM,断电也不丢数据,可是比 DRAM 贵,体积又大。便出现了一种叫 NVM 的东西,像 Flash,要么 TPRAM 这种,它们既有 SRAM 的速度,又有 Flash 的持久性,还能存二进制数据,就是 0 和 1,撇脱直接写进程序里。 还有回看那些神奇的加速器,比如 NPU。

那会儿 AI 模型训练数据量忒大,人工计算忒慢。

后来出现了像 Tensor 流行器、MoE(混合专家模型)要么 GEMM(通用矩阵乘)这些架构。它们的设计逻辑是,把大模型切分成大量小块,交给不同等级的单元去处理。

比如卷积操作,专门就有硬件电路把 3x3 的窗口算完,不用软件去循环算。

这种设计在 AI 芯片里特别常见,比如苹果的新手机,要么谷歌的 TPU,它们都在疯狂优化这类算子,让模型训练快得像闪电一样。 再说说传感器芯片。目前的手机传感器,像陀螺仪、加速度计,实际上内部是个摇摇乐,靠电容的变化来当数数。但有些高端传感器,比如激光雷达要么红外传感器的核心,需求极高的精度,就连要纳秒级的反应工夫。

这时候就不得不把传统模拟电路换成数字电路,把模拟信号变成数字信号再算,要么用特殊的 NRD(数字神经模拟)技术,在数字和模拟之间走钢丝,既保留物理世界的模拟特性,又拥有数字世界的精确管住。

比如摄像头里的自动对焦,那会儿靠软件算法找焦点,目前直接把像素点的位移量传回 CPU,CPU 算出对焦距离,直接告诉电机转多少圈,多快,多准。 还有像 RISC-V 这种开源架构,最近在芯片界大受欢迎。IBM 就连自己抓了人做编译器优化,改进了大量指令,让性能提升特别显著。

这种开源的特性,让全球设计者都能用,不用非得依赖某一家厂商的黑盒。

比如目前做物联网设备,要么边缘计算网关,可能就会选一种基于 RISC-V 的芯片,出于它的性价比、可定制性和生态都做得特别好,不像 ARM 那样被锁得挺死,也不像 x86 那样对低功耗的优化做得没那么极致。 最终说回最基础的那点——物理极限。芯片设计一辈子是在物理边界和算法需求之间找平衡。当你把晶体管缩到纳米级,散热就是个大难题。

要是芯片发烫了,性能不仅上不去,还会降速,就连死机。

这也是为啥目前大家都在搞 3nm、2nm 就连更先进的制程,出于尺寸小了,单颗芯片能塞下的晶体管数量反而变多了,这就是后来摩尔定律反弹的缘由。 总结来说,目前的芯片设计,已经不是单一的技术堆砌,而是系统工程。它是算法、材料、EDA 工具、制造工艺、封装和散热在一起的。一个算法能不能跑,往往不取决于代码写得多么漂亮,而取决于硬件能不能精准地匹配到它的要求。未来吧,芯片设计会变得更智能,AI 不仅能写代码,可能还能帮硬件工程师写电路,就连预测哪儿会有热点,哪儿需求换散热片。

毕竟,芯片就是数字世界的肌肉,肌肉得练得结实,还得懂得如何分工,如何干活,如何不累着,如何不烧坏。