美资实现显卡矩阵的方法,非常简单。
因为设计显卡的最初目的,不是玩游戏。
而是辅助批量计算,降低cpu功耗。
也就是把简单繁琐的任务,比如视频解码,构图、绘图和渲染,交给一批低功率cpu,令主cpu有时间做其它事情。
所以显卡又叫图形处理器、图形加速器。
那么,显卡可以把一张图片的代码,分成8位,或者16位,或者32位,然后并行处理为‘像素块’,再进行构图、绘图、渲染,最终把像素块汇总到显示器,形成一张图片。
那它肯定可以处理‘高数中唯一不让人头疼的矩阵’。
只是在过去的几年中,没人想到‘辅助批量计算’可以应用到基因测序。
现在美资知道之后,直接把技术拿出来,再套用一个操作系统,用于驱动显卡矩阵,也就搞定了一切。
甚至得益于3dfx的sli技术(可灵活伸缩的连接接口),也就是‘把两张或以上的显卡连在一起,作单一输出使用,从而达至绘图处理效能加强的效果’,进一步提高显卡矩阵的效率。
以及得益于crossfire技术(显卡交火),设置多个显示器,对显卡矩阵进行分区、监视,提高准确率。
还得益于cuda统一计算机设备架构,把显卡矩阵编制成‘一个超级大显卡’,方便维护和管理。
而以上技术,其实都已经公开。
并且当做显卡卖点,大肆宣传。
所以美资压根就没想过,可以搞出基因优化和显卡矩阵式算法的三元农业,竟然连这么简单的东西都没有。
以至于科技局轻轻松松就从互联网上,搜刮了一大堆‘辅助批量计算’的应用、驱动、ui操作页面和硬件设计方案。
其包括:
矩阵乘法的并行化,比如把矩阵a和矩阵b划分多个子矩阵,然后把子矩阵的乘积计算任务,划分为多个并行任务,然后在gpu的处理核心上同时执行。
内存管理,比如把显存进行分区,再存入矩阵数据,然后设置管理系统,减少内存访问开销、提高内存访问数据。
算法优化,比如使用循环剥离、向量化等技术,优化矩阵乘法的计算过程。
共享存储:比如根据矩阵数量,设置一个额外的高速存储器,用于临时存储数据,跟内存有些区别。
如