架构存储优先OR存算一体:主流市场终将作何选择?

架构存储优先OR存算一体:主流市场终将作何选择?

针对这一瓶颈,目前业界也走出了多条不同的路径(www.zhongyi5.cn)。其中,较为常见的方法就是通过加大存储带宽的方式,即采用高带宽的外部存储,从核心算法入手来设计低比特权重的神经网络模型。除此之外,谢源指出:“未来的计算机体系结构可能要改变传统的把计算和存储分开的冯·诺依曼架构,其中的一个架构创新的方向是计算和存储一体化(process-in-memory),在存储里面加上计算的功能,让存储器件也能做神经网络的计算。”

这种存算一体化的模式,有几条不同的演变路径。据编者了解,其中一种方式是在DRAM和SSD中植入计算芯片或者逻辑计算单元,这被叫做内存内处理或近数据计算,此种方式非常适合云端的大数据和神经网络训练等应用;而另外一种,就是将存储和计算模块完全集成在一起,采用存储器件单元直接来完成计算工作,这比较适合于神经网络的推理型应用。

知存科技就是采用第二种路径,即将存储和计算结合到闪存单元中的存算一体的方式,来优化存储与算力之间的矛盾,王绍迪解释到:“知存科技的存算一体化原理是,Flash存储单元本身就可以存储神经网络的权重参数,同时又可以完成和此权重相关的乘加法运算,就是将乘加法运算和存储全部融合到一个Flash单元里。例如,只需要100万个Flash单元,就可以存储100万个权重参数,同时并行完成100万次乘加法运算。采用这种方式,深度学习网络可以被映射到多个Flash阵列,这些Flash阵列不仅存储,还和深度学习网络同时完成网络的推理,这个过程不需要逻辑计算电路。这种方式的运算效率非常高,单个Flash单元能够完成7、8 bit的乘加法运算。”

不过,对于存算一体化的处理模式,也并不是所有人都看好。鲁勇认为:“存算一体的处理方式,其实违反了芯片中的成本结构。芯片中之所以设计和区分片上的缓存SRAM以及片外的DRAM,就是因为如果所有存储都放入芯片内部,成本就会大幅上升,且会上升几十倍到上百倍。”

这也是存算一体化的模式没有得到业内的普遍认可的原因,当然不仅仅只是成本问题。更具体来讲,也是因为现阶段存算一体芯片还没有进行大规模量产的缘故,少了点说服力。因此,探境科技打造了自己独创的SFA存储优先架构方案,鲁勇表示:“不同于常见的解决内存瓶颈的方法,SFA即存储优先架构是‘以存储调度为核心’的计算架构,数据在存储之间的搬移过程中就完成了计算,这对于数据来说只是一种演变。与通常计算的先有计算指令后提供数据相反,SFA架构中,存储是优先的出发点。考虑数据在搬移过程中做计算,也就是由数据带动计算而非算子带动数据。具体到安防领域,该领域的数据处理在于两个维度,第一是每秒处理的帧率要越来越高,其二是图像分辨率上要高。基于SFA架构的芯片,能够更好地优化存储和计算,从而高效地解决该问题。”

但可以看到的是,对于存算一体的方案,目前业内包括大部分的半导体公司以及AI公司都已经开始慢慢认可这种技术方向,包括美国的英特尔、ARM、软银、微软、亚马逊、博世、摩托罗拉等都参与到存算一体技术方向的投资。

wKhk7V4JcLeAcXwSAACesIaxqks720.jpg

王绍迪表示:“存算一体技术确实是非常复杂的,这也是为什么大部分半导体公司AI公司都选择投资创业公司去完成这件事情,而不是自己从头去开发,包括我们公司在存算一体技术上的积累已经也是超过六年才完成,流片已经超过十次,技术本身非常复杂,目前来看良率其实并不是一个问题,因为它本身是一个成熟的工艺,在工艺方面并没有做调整,所以良率都是可以保证的。但在芯片不断的流片设计当中会发现很多新的问题需要去解决,包括一些新的技术优化方式去提高运算效率,在发现这些新的点之后,我们会去改变,优化设计,尝试提出新的架构,然后去不断地优化芯片,去把芯片从工作到量产当中这样去不断的推进。”

编者预计,在诸如安防监控这类需要对超大规模数据进行集中快速处理的场景,未来存储与算力之间的矛盾将长期存在,这还需要各路AI芯片厂商在架构层面上做出更多的创新和探索。存算一体和存储优先方案的试水,也算是给了业界更多的思路。但不论如何,编者认为方案的性价比仍然是决定其能否被市场接受并成为主流的核心考量因素。因此,谁能最终在性价比上技高一筹,谁就能在日益兴盛的AI安防芯片市场大放异彩。

主营产品:红木灯饰,古典灯饰,陶瓷灯,台地灯,羊皮灯