PG中国电子技术有限公司-核异构体电池技术领军者

您好,欢迎访问PG电子官方网!20年专注核异构体电池研发,能量密度超传统电池1000倍

PG中国电子技术有限公司-核能电源专家

News技术前沿

您当前所在位置: 主页 > 技术前沿 > 企业新闻

一种异构众核架构上CPU共享数组引导维选取策略pdf

发布日期:2026-04-12  浏览次数:

  

一种异构众核架构上CPU共享数组引导维选取策略pdf(图1)

  本发明公开一种异构众核架构上CPU共享数组引导维选取策略,对矩阵引导维进行如下调整,并存储于CPU共享空间中:S1、申请CPU共享空间时,控制申请空间的首地址即src128B对界,使得从核DMA取时源地址始终128B对界;S2选取ld

  (19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114218150 A (43)申请公布日 2022.03.22 (21)申请号 4.5 (22)申请日 2021.04.30 (71)申请人 无锡江南计算技术研究所 地址 214038 江苏省无锡市滨湖区山水东 路699号 (72)发明人 尹万旺袁欣辉林蓉芬魏迪 孙浩男孙强史俊达王飞 郑岩 (74)专利代理机构 苏州创元专利商标事务所有 限公司 32103 代理人 王健 (51)Int.Cl. G06F 15/167 (2006.01) G06F 9/50 (2006.01) G06F 13/28 (2006.01) 权利要求书1页 说明书5页 附图3页 (54)发明名称 一种异构众核架构上CPU共享数组引导维选 取策略 (57)摘要 本发明公开一种异构众核架构上CPU共享数 组引导维选取策略,对矩阵引导维进行如下调 整,并存储于CPU共享空间中:S1、申请CPU共享空 间时,控制申请空间的首地址即src  128B对界, 使得从核DMA取时源地址始终128B对界;S2选取 ld=64*(6a+1),a为满足64*(6a+1)=N的最小整 数值;S3、如果S2中取得的ld%31 0,取a=a+1,使 得体冲突问题得到规避;S4、M×N双精度矩阵,行 主序,以S3中取得的ld作为引导维,以src为首地 址,存储在CPU共享空间中。本发明平衡从核DMA 取数据时各个存控上的访存量,实现负载均衡, A 且规避存控体冲突。 0 5 1 8 1 2 4 1 1 N C CN 114218150 A 权利要求书 1/1 页 1.一种异构众核架构上CPU共享数组引导维选取策略,其特征在于:对于大小为M×N的 双精度矩阵,N%64   0,M%m   0,行主序,引导维为ld,分块大小为m×64; 运算时,从核每次DMA获取某个分块运算,并按下表约定下列标记: 标记 含义 k 512 芯片共享空间地址以k字节为单位,由不同存控管理 n 6 核组数 stride=(ld‑64)*8B DMA时跨步大小,单位为字节 block 64 * 8B DMA时跨步向量块大小,单位为字节 src矩阵首地址 disp DMA时源地址相对于矩阵首地址偏移量,单位为字节 ld 矩阵引导维大小,单位为(矩阵元素)个数 ; 对矩阵引导维进行如下调整后,将矩阵根据调整后获得的引导维参数存储于CPU共享 空间指定地址中,供从核DMA访存取用: S1、申请CPU共享空间时,控制申请空间的首地址即src  128B对界,使得从核DMA取时源 地址始终128B对界; S2、选取  ld   64 *  (6a+1),a为满足64 *  (6a+1)   N的最小整数值,使得从核DMA 访存时存控利用率最高且DMA跨步满足128B对界; S3、如果S2中取得的ld%31 0,取a=a+1,使得体冲突问题得到规避; S4、M ×N双精度矩阵,行主序,以S3中取得的ld作为引导维,以src为首地址,存储在CPU 共享空间中。 2 2 CN 114218150 A 说明书 1/5 页 一种异构众核架构上CPU共享数组引导维选取策略 技术领域 [0001] 本发明涉及一种异构众核架构上CPU共享数组引导维选取策略,属于高性能计算 技术领域。 背景技术 [0002] 异构众核处理器最突出的优势是高性能,尤其适用于高性能计算领域,主要应用 于超大规模并行机等大型实用系统中,同时它也存在着访存带宽受限的问题。科学计算中, 矩阵运算是常见的工具,在基于异构众核处理器的超算上,矩阵运算时,从核通常需要通过 带跨步DMA实现LDM与芯片共享空间之间数据的批量交换;但是,不合适的跨步大小会极大 降低访存性能,这也成为限制异构众核处理器性能指标的瓶颈。 [0003] 矩阵运算由于其计算量巨大,耗时长,往往通过并行算法提高效率;同时,为了减 少通信,会将一部分数据放在共享内存上。在异构众核处理器上,通过将矩阵分块后分配给 各个从核运算实现并行;芯片共享空间中的数据可以整个处理器共享,通过将数据放在芯 片共享空间可以减少通信。从核往往通过带跨步DMA实现LDM与芯片共享空间之间矩阵数据 的批量交换,来获取所需要的矩阵分块,跨步的选取会影响各个存控的利用率,并且不合适 的跨步大小会导致体冲突,极大影响访存性能,跨步大小由矩阵分块大小及矩阵引导维共 同决定。 [0004] 现有技术的缺点:1、芯片共享空间地址的编址方式导致,根据跨步特点,各个存控 访存量会存在不均衡的问题;2、当两次访存地址满足特定条件时,会造成体冲突;3、DMA参 数不合适比如源地址、跨步未128B对界导致性能下降。 [0005] 异构众核芯片集成了多个核组,每个核组包括1个通用主核核心、存储控制器、协 议处理部件、8x8从核阵列。主存采用虚地址,分核组私有空间和核组共享空间,共享空间地 址的编址方式如附图2所示:以芯片包含四个核组为例,共享空间地址以512为单位,由不同 核组存控管理,即共享空间地址根据除以2048的余数,由不同核组存控管理。示例中,余数 为0‑511,由核组0存控管理;余数为512‑1023,由核组1存控管理;余数为1024‑1535,由核组 2存控管理;余数为1536‑2047,由核组3存控管理。访存时所利用的存控数越多,则带宽利用 越饱满。 [0006] 实际运算中,根据DMA跨步大小特点,部分存控可能没有参与其中。举例如下,考虑 DMA时,芯片共享空间编址方式如图1所示,访存地址从0开始,数据量足够大,向量块大小为 512字节,根据跨步大小,存控具体的利用情况如下表所示: 跨步mod (512 * 4) 存控利用数 0 4 512 2 1024 4 1536 1 方便起见,考虑跨步512B对界的情况,当跨步除以2048的余数为1536时,所有的访 3 3 CN 114218150 A 说明书 2/5 页 存过程都只利用到了一个存控;当跨步被2048整除时,访存过程利用到了所有四个存控;这 两种情况下访存带宽会有接近四倍差距。 [0007] 不同的异构众核芯片上,核组数会有所不同,可以按照如上例子做类似推导。作如 下标记:记共享空间地址以k为单位,由不同核组存控管理;记核组数为n。考虑DMA时,芯片 共享空间编址类似图1,访存地址从0开始,数据量足够大,向量块大小为k字节,为尽可能利 用所有存控,跨步被(k * n)整除是一种理想的情况。 [0008] DRAM中最核心的部件是存储阵列,它是由基本动态存储单元构成的一个阵列(2M 行 × 2N列),由于物理实现的考虑,对于大容量存储器,不能使用单一的超大阵列来实现, 而是要使用多个较小的阵列实现,这样一个阵列称之为一个体(bank),DDR3颗粒里面有8个 bank,DDR4中有8或16个bank。而且,DDR4较之前的DDR存储器,在bank的层次之上增加了 bank  group(简称bg)的结构,4个bank构成1个bg。bank  group主要影响访存时序参数, group内的命令延迟适用一种参数(较大),group间的命令延迟适用另一种时序参数。附图3 为存储阵列示意图。 [0009] DDR4的地址分为行地址ROW、列地址COL、体地址BANK,体地址进一步分为bank  group的地址BG和bank group内的bank地址BA。考虑连续两次访存时,存控通过某个映射 将物理地址转换为DDR4地址,映射后的两次DDR4地址如果在同一个体中不同行,则访存操 作无法并行,只能串行,从而导致访存性能下降,称之为体冲突。在上述问题情形中,当行主 序矩阵引导维为31的倍数时,对矩阵某个分块的DMA取会产生体冲突,造成性能下降。 发明内容 [0010] 本发明的目的是提供一种异构众核架构上CPU共享数组引导维选取策略,使得从 核DMA取矩阵分块数据时性能最佳。 [0011] 为达到上述目的,本发明采用的技术方案是:提供一种异构众核架构上CPU共享数 组引导维选取策略,对于大小为M×N的双精度矩阵,N%64   0,M%m   0,行主序,引导维 为ld,分块大小为m×64; 运算时,从核每次DMA获取某个分块运算,并按下表约定下列标记: 标记 含义 k 512 芯片共享空间地址以k字节为单位,由不同存控管理 n 6 核组数 stride=(ld‑64)*8B DMA时跨步大小,单位为字节 block 64 * 8B DMA时跨步向量块大小,单位为字节 src矩阵首地址 disp DMA时源地址相对于矩阵首地址偏移量,单位为字节 ld 矩阵引导维大小,单位为(矩阵元素)个数 ; 对矩阵引导维进行如下调整后,将矩阵根据调整后获得的引导维参数存储于CPU 共享空间指定地址中,供从核DMA访存取用: S1、申请CPU共享空间时,控制申请空间的首地址即src  128B对界,使得从核DMA取 时源地址始终128B对界; 4 4 CN 114218150 A 说明书 3/5 页 S2、选取  ld   64 *  (6a+1),a为满足64 *  (6a+1)   N的最小整数值,使得从核 DMA访存时存控利用率最高且DMA跨步满足128B对界; S3、如果S2中取得的ld%31 0,取a=a+1,使得体冲突问题得到规避; S4、M ×N双精度矩阵,行主序,以S3中取得的ld作为引导维,以src为首地址,存储 在CPU共享空间中。 [0012] 由于上述技术方案的运用,本发明与现有技术相比具有下列优点: 本发明提出一种适用于异构众核架构的处理器的引导维选取策略,通过调整矩阵 引导维,平衡从核DMA取数据时各个存控上的访存量,实现负载均衡,且规避存控体冲突,同 时优化DMA参数,使得对芯片共享空间数组的DMA访存能够达到理论带宽,从而减少从核获 取矩阵分块数据的等待时间,提高运算效率。 附图说明 [0013] 附图1为对主存带跨步的DMA读写示意图; 附图2为四核组芯片‑共享空间编址方式示例图; 附图3为存储阵列示意图; 附图4为矩阵数据传输示意图。 具体实施方式 [0014] 实施例:本发明提供一种异构众核架构上CPU共享数组引导维选取策略,对于大小 为M×N的双精度矩阵,N%64   0,M%m   0,行主序(矩阵以一维数组形式存储),引导维为 ld,分块大小为m×64; 运算时,从核每次DMA获取某个分块运算,并按下表约定下列标记: 标记 含义 k 512 芯片共享空间地址以k字节为单位,由不同存控管理 n 6 核组数 stride=(ld‑64)*8B DMA时跨步大小,单位为字节 block 64 * 8B DMA时跨步向量块大小,单位为字节 src矩阵首地址 disp DMA时源地址相对于矩阵首地址偏移量,单位为字节 ld 矩阵引导维大小,单位为(矩阵元素)个数 ; 对矩阵引导维进行如下调整后,将矩阵根据调整后获得的引导维参数存储于CPU 共享空间指定地址中,供从核DMA访存取用: S1、申请CPU共享空间时,控制申请空间的首地址即src  128B对界,此时,由于分块 大小为64,使得从核DMA取时源地址始终128B对界; S2、为了提升存控利用率,选取  ld   64 *  (6a+1),a为满足64 *  (6a+1)   N的 最小整数值,使得从核DMA访存时存控利用率最高且DMA跨步满足128B对界; S3、为规避体冲突,如果S2中取得的ld%31 0,取a=a+1,使得体冲突问题得到规 避; 5 5 CN 114218150 A 说明书 4/5 页 S4、M ×N双精度矩阵,行主序,以S3中取得的ld作为引导维,以src为首地址,存储 在CPU共享空间中。 [0015] 对上述实施例的进一步解释如下: 实际问题情形如下:双精度矩阵大小为MxN,N%64   0,M%m   0,行主序(矩阵以 一维数组形式存储),引导维为ld,分块大小为mx64;运算时,从核每次DMA获取某个分块运 算。 [0016] 按下表约定下列标记: 标记 含义 k 512 芯片共享空间地址以k字节为单位,由不同存控管理 n 6 核组数 stride=(ld‑64)*8B DMA时跨步大小,单位为字节 block 64 * 8B DMA时跨步向量块大小,单位为字节 src矩阵首地址 disp DMA时源地址相对于矩阵首地址偏移量,单位为字节 ld 矩阵引导维大小,单位为(矩阵元素)个数 相关硬件条件如下: 1、异构众核芯片每个CPU包含6个核组,CPU共享空间以512B为单位,由不同存控管 理。 [0017] 2、从核DMA取时,当源地址与目的地址为128B对界,跨步为128B倍数时性能最佳。 [0018] 3、在上述问题情形中,当行主序矩阵引导维为31的倍数时,对矩阵某个分块的DMA 取会产生体冲突,造成性能下降。 [0019] 示意如附图4。 [0020] 对矩阵引导维进行如下调整后,将矩阵根据调整后获得的引导维参数存储于CPU 共享空间指定地址中,供从核DMA访存取用: 1、申请CPU共享空间时,控制申请空间的首地址即src  128B对界,使得从核DMA取 时源地址始终128B对界; 2、选取  ld   64 *  (6a+1),a为满足64 *  (6a+1)   N的最小整数值,使得从核 DMA访存时存控利用率最高且DMA跨步满足128B对界; 3、如果步骤2中取得的ld%31 0,取a=a+1,使得体冲突问题得到规避; 4、M ×N双精度矩阵,行主序,以S3中取得的ld作为引导维,以src为首地址,存储在 CPU共享空间中。 [0021] 此时,从核每次DMA取该矩阵某个分块,性能最佳。 [0022] 采用上述一种异构众核架构上CPU共享数组引导维选取策略时,其提出一种适用 于异构众核架构的处理器的引导维选取策略,通过调整引导维长度,平衡各个存控上的访 存量,实现负载均衡,且规避存控体冲突,同时优化DMA参数,使得对芯片共享空间数组的 DMA访存能够达到理论带宽。 [0023] 为了便于更好的理解本发明,下面将对本文中使用的术语进行简要的解释: 异构众核芯片:将少量承担管理、通信和运算功能的通用主核核心和大量承担运 算功能的精简从核核心集成在一颗完整芯片上的高性能异构中央处理器;一颗芯片上集成 6 6 CN 114218150 A 说明书 5/5 页 了多个核组,每个核组包括1个PG电子官方网通用主核核心、存储控制器、协议处理部件、8x8从核阵列;通 用主核核心运行通用的操作系统,主要承担整个芯片的管理和控制功能,也承担一定的运 算功能和芯片与外部的通信功能;从核核心起到加速计算的功能。 [0024] 芯片共享空间:异构众核芯片上,主存地址空间采用虚地址,分核组私有空间和核 组共享空间;不同核组间,相同的私有空间地址映射向不同的内存空间,相同的共享空间地 址映射向相同的内存空间。 [0025] 引导维:矩阵在内存中实际存储时第一维的大小,列优先存储时为矩阵的行数,行 优先存储时为矩阵的列数。 [0026] LDM(Local Data Memory):异构众核芯片上,从核的本地存储空间。 [0027] 从核DMA(Direct Memory Access):DMA机制实现LDM与主存之间数据的批量交换; DMA有如下几个关键参数:DMA行为,数据的源地址、目的地址,向量块大小(单位:字节),跨 步大小(单位:字节),数据量(单位:字节)等,附图  1简单描述了对主存带跨步的DMA读写。 [0028] Padding:对矩阵进行边界填充,在矩阵的边界上填充一些值,以增加矩阵的大小。 [0029] 体冲突:体(Bank)是指共享内存按照固定大小划分为若干的存储模块,若一个存 储器请求的2个地址落入同一个存储体内,就会出现存储体冲突。 [0030] DRAM(Dynamic Random Access Memory):动态随机存储器。 [0031] DDR:全称为Double Data‑Rate Synchronous DRAM,通过使用两个时钟沿作为控 制信号,从而使DRAM的速度翻倍。 [0032] PA(Physical Address):物理地址。 [0033] 上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人 士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明 精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。 7 7 CN 114218150 A 说明书附图 1/3 页 图1 图2 8 8 CN 114218150 A 说明书附图 2/3 页 图3 9 9 CN 114218150 A 说明书附图 3/3 页 图4 10 10

  2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问加。

  3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。

  4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

  2021年人力资源年终工作汇报 附2026年人力预算测算表 可直接套用.pptx

  提供农业、铸造、给排水、测量、发电等专利信息的免费检索和下载;后续我们还将提供提供专利申请、专利复审、专利交易、专利年费缴纳、专利权恢复等更多专利服务。并持续更新最新专利内容,完善相关专利服务,助您在专利查询、专利应用、专利学习查找、专利申请等方面用得开心、用得满意!

  电视采访报道(中传大)中国大学MOOC慕课 章节测验期末考试答案.docx

  农业区位因素及其变化课件2024-2025学年高一地理人教版(2019)必修二.pptx

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者

在线客服
服务热线

服务热线

13956963336

微信咨询
返回顶部
X

截屏,微信识别二维码

微信号:13956963336

(点击微信号复制,添加好友)

打开微信

微信号已复制,请打开微信添加咨询详情!