麒麟970前传

咖客电子工程2018-12-15 15:22:28

小编从世界只能大会返回,感概万千,好久没关注U的市场了,也对国货有抗性。 但,但,但,这次,麒麟970引起了我的注意。

什么是麒麟970呢?

它是由海思半导体芯片设计公司,当然,它属于华为集团,

于2004年4月建立,总部位于中国广东省深圳,

现为中国最大的无晶圆厂芯片设计公司。

不需要晶圆厂,因为有台湾台积电代工就好了。

主要产品为无线通讯芯片,包括拥有WCDMA、LTE等功能的手机系统单芯片。

其实,海思半导体的前身是创建于1991年的华为集成电路设计中心。

那里边是神的国度。随便一个人都是殿堂级人物。

纵观海思这些年,从2009年第一款理论级芯片,开始,仅仅10年,就追赶上了列强们,尽管,K3V1的试验并没有用于产品,但打下了良好的基础,以至于在

三年后,2012年,K3V2正式投入使用,当时呢使用40nm工艺,指令系统是ARMv7,这个指令集在当时已经很全面了,其PU架构采用ARM-Cortex-A9架构,哈哈,你们手里的开发板,都还没扔掉吧。当年,就为华为荣耀系列装备上了这款芯片。


话说ARM架构是个啥?

它过去称作高级精简指令集机器(Advanced RISC Machine),

更早时候称作:Acorn RISC Machine),

如果说那时候奔腾4拥有复杂指令集,那arm架构说的是一个32位精简指令集(RISC)处理器架构,其广泛地使用在许多嵌入式系统设计。

精减了,流水钱特别设计了,针对瞬间大吞吐量优化了,没用的指令就不执行了。提到CPU的逻辑流水线设计,那篇幅就长了。

别看它执行的指令不多但在很多领域上也有作为,它节能,ARM处理器非常适用于移动通信领域,匹配其主要设计目标为低成本、高性能、低耗电的特性。另一方面,超级计算机消耗大量电能,ARM同样被看好,因为很多复杂的难题都可被梳理成多元的简单问题。


简单来说arm架构要求处理在处理某个问题时,能处于不同的模式。

他们是:

用户模式,这种模式可访问一些文件,但没有特权。

系统模式,仅无需例外进入的特权模式。

仅以执行明确写入CPSR的模式位的指令进入当然,在汇编时候考虑到了执行安全。

Supervisor (svc) 模式,在CPU被重置或者SWI指令被执行时进入的特权模式。

Abort 模式,预读取中断或数据中断异常发生时进入的特权模式。

未定义模式,未定义指令异常发生时进入的特权模式。

干预模式,处理器接受一条IRQ干预时进入的特权模式。

快速干预模式,处理器接受一条IRQ干预时进入的特权模式。

Hyp 模式,armv-7a为cortex-A15处理器提供硬件虚拟化引进的管理模式。

等等吧,说起指令集,不得不讲8086,碍于篇幅,只好断章取义了。

arm是一种架构。任何这个架构的处理器单片机,都要标注。

ARM架构之父是艾康电脑公司,

它是该公司于1983年开始的开发项目,所以说所有ARM架构的CPU的祖先们都源自1983年。

当时这个团队由Roger Wilson和Steve Furber带领,

着手开发一种类似高级6502架构的处理器。

那时候Acorn电脑有一大堆建构在6502处理器上的电脑,

因此能设计出一颗类似的芯片即意味着对公司有很大的优势。


大家纷纷采用6052的架构,于是MOS 6502这款1975年由MOS科技所研发的8位微处理器。成了所有ARM架构的祖先

当年6502刚问世时是当时性能最强的8位CPU,且价格只有大型业者(如Motorola、Intel)相近产品的六分之一甚至更低。你肯定曾经拥有过,

或者见过,因为它被用在了,这上............


快来参拜娱乐之祖!

时间大约在1980年代晚期,苹果电脑开始与艾康电脑合作开发新版的ARM核心。由于这项目非常重要,艾康电脑甚至于1990年将设计团队另组成一间名为安谋国际科技(Advanced RISC Machines Ltd.)的新公司。

这使得ARM有时候反而称作Advanced RISC Machine

小编认为就是这令大家混淆了概念。

其实它是Acorn RISC Machine。其母公司ARM Holdings plc在1998年时,

同时在伦敦证券交易所和纳斯达克挂牌上市

那时候,在各种电脑杂志上都讨论的SIMD,如今也从神圣走入了生活。

单指令流多数据流(Single Instruction Multiple Data)

简要来说它是一种采用一个控制器来控制多个处理器,

同一个瞬间对一组数据(又称“数据向量”)中的每一个分别执行相同的操作

从而实现空间上的并行性的技术。


这不是老生重谈,你像Intel的MMXn或SSEn,以及AMD的3D Now!指令集都采用SIMD的模式来实现对数据的运算。

而今,不同的是图形处理器(GPU)本身就拥有强大的并发处理能力和可编程流水线,原生滴,GPU面对单指令流多数据流时,运算能力远超传统CPU。

我们常用的OpenCL和CUDA它们都是目前最广泛使用的,

开源和专利通用图形处理器(GPGPU)运算语言,


(上图为英伟达的NVDLA深度学习方案,包括小规模和大规模两种思维模式)


当然,它们是一整套加速执行方案,可没那么简单。

用原文如下:

The small-NVDLA model opens up Deep Learning technologies in areas where it was previously not feasible. This model is a good fit for cost-sensitive connected Internet of Things (IoT) class devices, AI and automation oriented systems that have well-defined tasks for which cost, area, and power are the primary drivers. Savings (in terms of cost, area, and power) are achieved through NVDLA configurable resources. Neural network models can be pre-compiled and performance optimized, allowing larger models to be “cut down” and reduced in load complexity; this, in turn, enables a scaled down NVDLA implementation where models consume less storage and take less time for system software to load and process.

当然,还有大尺度方法:

The large-NVDLA model serves as a better choice when the primary emphasis is on high performance and versatility. Performance oriented IoT systems may perform inference on many different network topologies; as a result, it is important that these systems maintain a high degree of flexibility. Additionally, these systems may be performing many tasks at once, rather than serializing inference operations, so inference operations must not consume too much processing power on the host. To address these needs, the NVDLA hardware included a second (optional) memory interface for a dedicated high-bandwidth SRAM, and enables the ability to interface with a dedicated control coprocessor (microcontroller) to limit the interrupt load on the main processor.

新的内核有ARM和NVIDIA的CUDA两种特性,其体系结构布置为:


在该体系架构种有两种模式,

分别是独立模式和融合模式,

独立运行时,每个功能块都配置为执行时间和执行内容,(类似于深度学习框架中的独立层)

该模式可以直接操作主系统内存或专用SRAM内存。


融合。 熔合操作类似于独立操作,但是,一些块可以组装为管道。 

这通过绕过存储器的往返行程来提高性能,

而不是像传统的通过小的FIFO彼此进行通信的队列结构。


如果按照处理器的执行机理来分析,

总而言之,向量处理器,就是数组处理器。它直接操作一维数组(向量)指令集,这种机制正好与一次只能处理一个数据的标量处理器正相反。

向量处理器可以在特定工作环境中极大地提升性能,尤其是在数值模拟或者有限元模拟领域。

其实,最早出现于20世纪70年代早期,并在70年代到90年代期间成为超级计算机。事实上单一功能的向量处理器的超级计算机,早在90年代末就逐渐让出了主导地位。

我们来看,SIMD技术对于分形数学的加速是惊人的

现在,绝大多数商业化的CPU实现都能够提供某种形式的向量处理的指令,

用来处理多个(向量化的)数据集,也就是所谓的SIMD(单一指令、多重数据,也可能是流)

常见的向量指令集有 VIS, MMX, SSE, AltiVec 和 AVX。

向量处理技术也能在游戏主机硬件和图形加速硬件上看到。

在2000年左右,IBM,东芝和索尼合作开发了Cell处理器,我想你们都玩过PS3吧,它集成了一个标量处理器和八个向量处理器,


其他CPU设计还可能包括多重指令处理多重(向量化的)

数据集的技术——也就是所谓的MIMD(多重指令、多重数据)

——并实现了VLIM。

此类设计通常用于特定应用场合,而不是面向通用计算机的市场化产品。

感谢您阅读到此。



Copyright © 古田计算器虚拟社区@2017