片上互连网络跨层交互的应用层优化框架

片上网络论文 应用映射论文 多播路由论文 死锁避免论文
论文详情
随着集成电路技术的发展,芯片上的集成晶体管数目呈指数增加。当集成电路工艺进入到65 nm以下,线延时不再随着工艺特征尺寸缩小而减少。芯片的性能无法随着器件数目和时钟频率的增加而成比例的提升。随着系统应用复杂度的增加,可以将多个处理器核、存储器以及其他的知识产权核(intellectual propertycore,简称IP核),通过片上网络互连的方式,集成到单一芯片中。片上网络设计需要考虑低能耗、高带宽、低传输延迟、可扩展、可靠性等设计要求和挑战。从系统的角度综合考虑这些设计挑战和要求,基于层次交互构件方法,重点研究片上网络设计亟待解决的三个关键问题:应用映射、多播路由,以及消息依赖造成的死锁。首先,针对二维片上网络,本论文提出一种感知应用通信特性和拓扑结构的应用映射算法:基于应用模板的高效应用映射算法(template-aware efficient mapping,简称TEM)。TEM按照应用的通信轨迹图的特性,将应用分为两大类,1)存在通信热点的应用和2)通信比较均匀的应用。对于第一类应用,TEM将热点及其相连的节点映射到靠近的资源节点;对于第二类应用,TEM采用图划分的方式进行映射。TEM可以被用在二维网格、环绕网格、蝶形胖树等拓扑结构。将TEM映射算法的结果作为遗传算法(genetic algorithm,简称GA)的初始群体,得到更为优化的映射算法GA+TEM。采用SPLASH-2基准测试的通信轨迹作为Noxim片上网络仿真器的输入,实验结果表明,GA+TEM比单纯使用GA算法明显降低了通信能耗(5%-20%)。本论文进一步提出了一种针对三维集成片上网络的增量式应用映射算法:高能效的运行时增量式应用映射算法框架(energy efficient run-time incremental mapping framework,简称ERIM)。ERIM根据新到达应用的任务图的特性,将应用分为两种类型,1)通信密集型和2)计算密集型。对于这两种类型的应用,ERIM首先找到一个长方体形状的资源节点区域,以减少对未到达应用的影响。对于通信密集型的应用,ERIM通过有效地利用垂直方向所增加的连接度,来降低通信能耗。而对于计算密集型的应用,ERIM尽量平衡在每一个垂直堆叠(vertical stack)上运行任务的处理器核之间的温度来避免温度超过门限值。实验结果表明,ERIM产生的映射结果比两个贪婪式映射算法的映射结果的能耗低达15%。其次,我们考虑多个应用被分配到同一个片上网络系统中而每一个应用的子区域可能不规则时,如何进行多播路由。本论文提出了一种面向不规则子区域的多播路由策略,其原理如下:基于一个现有的多播路由算法,比如多播XY路由,当发现一个输出端口所连接的网络节点不在同一个子区域内,就选择另外一个方向(称为替换方向,alternative).基于这个策略,提出了一个面向二维子区域的替换多播XY路由算法(alternative multicasting XY routing,简称AL+XY)和一个面向三维子区域的替换多播XYZ路由算法(alternative multicasting XY routing,简称AL+XYZ)。实验结果表明AL+XY比多次单播和区域内广播两种方法,能耗和延迟都低。当多播对单播比例为0.3、注入率为0.4(flit/cycle)的时候,多次单播和子区域内广播的能耗分别为AL+XY的2.2倍和2倍。在同样的多播对单播比例和注入率下,多次单播和子区域内广播的延迟分别为AL+XY的11和1.2倍。AL+XY可以被扩展为适用于三维集成片上网络子区域多播的AL+XYZ多播路由。AL+XY和AL+XYZ路由器在TSMC 65nm工艺下综合,工作频率为800MHz。AL+XY比二维网格片上网络的单播路由器面积增加了3%, AL+XYZ的面积比三维集成片上网络单播路由器面积增加了7%。最后,本论文中提出了一种可以避免在点对点流式传输系统中可能出现的请求-请求类型消息依赖造成的死锁的方法。消息依赖造成的死锁产生的原因是网络中的消息不能被目的节点消耗而驻留在网络中,这些消息相互依赖,从而造成死锁。本论文从理论上证明了一个避免请求一请求类型消息依赖造成的死锁的充分条件,并提出可以通过增加非均匀虚通道(即路由器的每个端口所配置的虚通道数目可以不一样)来避免这种死锁。基于该理论,本论文进一步证明了寻找最小数目的非均匀虚通道的问题是一个NP完全问题,并提出一个基于线性规划的近似算法:路径选择和最少虚通道分配方法(path selection and minimum virtual channel allocation,简称PSMV)。PSMV算法可以和现有的应用映射算法集成在一起,产生没有死锁的映射结果。PSMV产生的结果延迟低,使用额外缓冲开销较少。
致谢第5-6页
摘要第6-8页
Abstract第8-9页
1 绪论第13-35页
    1.1 课题背景第13-16页
    1.2 片上网络结构第16-20页
        1.2.1 拓扑结构第16-18页
        1.2.2 交换机制第18页
        1.2.3 路由算法第18-19页
        1.2.4 路由器结构第19-20页
    1.3 片上网络的研究现状第20-22页
    1.4 基于层次交互构件方法第22-24页
    1.5 本论文解决的关键问题第24-30页
        1.5.1 应用映射第24-25页
        1.5.2 多播路由算法第25-27页
        1.5.3 消息死锁的避免第27-30页
    1.6 本文主要工作与内容安排第30-35页
2 两维拓扑的片上网络应用映射算法第35-59页
    2.1 片上网络应用映射概述第35-36页
    2.2 通信能耗模型以及应用映射的数学描述第36-38页
        2.2.1 通信能耗模型第36-37页
        2.2.2 应用和结构模型第37页
        2.2.3 应用映射的数学描述第37-38页
    2.3 感知应用特点的模板第38-39页
        2.3.1 算法设计的基本思想第38-39页
        2.3.2 应用的特性分类第39页
    2.4 针对两维网格和环绕网格拓扑的应用映射算法描述第39-48页
        2.4.2 属于模板1的应用映射算法第40-45页
        2.4.3 属于模板2的应用映射算法第45-48页
    2.5 针对两维蝶形胖树拓扑的应用映射算法描述第48-51页
        2.5.1 属于模板1的应用映射算法第49-50页
        2.5.2 属于模板2的应用映射算法第50-51页
    2.6 实验方法第51-53页
        2.6.1 映射算法第51-52页
        2.6.2 基准测试第52-53页
    2.7 实验评估第53-56页
        2.7.1 随机基准测试的映射结果比较第53-54页
        2.7.2 SPLASH-2基准测试轨迹的映射结果比较第54-56页
    2.8 相关工作第56-58页
    2.9 本章小结第58-59页
3 三维集成片上网络的增量式应用映射算法第59-83页
    3.1 三维集成片上网络的增量式应用映射概述第59-60页
    3.2 模型和增量式应用映射的数学描述第60-64页
        3.2.1 功耗/能耗模型第61-62页
        3.2.2 温度模型第62页
        3.2.3 应用和结构模型第62-63页
        3.2.4 增量式应用映射的数学描述第63-64页
    3.3 问题分解第64-68页
        3.3.1 算法设计的基本思想第64-65页
        3.3.2 问题分解第65-68页
    3.4 ERIM算法第68-74页
        3.4.1 NoC区域选择第69-70页
        3.4.2 集合匹配第70-71页
        3.4.3 CTG到NoC映射第71-72页
        3.4.4 映射计算密集型应用第72-74页
        3.4.5 备用映射第74页
    3.5 实验方法第74-77页
        3.5.1 仿真系统配置第74-76页
        3.5.2 实验中用于比较的映射算法第76页
        3.5.3 基准测试第76-77页
    3.6 实验结果第77-80页
        3.6.1 评估NoC区域选择对系统的影响第77-78页
        3.6.2 评估映射算法产生的结果的能耗和温度第78-80页
    3.7 相关工作第80页
    3.8 本章小结第80-83页
4 面向不规则子区域的多播机制第83-105页
    4.1 面向子区域的多播机制简介第83-84页
    4.2 NoC结构模型第84-88页
        4.2.1 NoC结构模型第84-85页
        4.2.2 假设和定义第85-88页
    4.3 针对二维网格不规则子区域的多播路由第88-92页
        4.3.1 不规则子区域多播路由策略基本思想第88-89页
        4.3.2 二维不规则子区域的多播路由算法第89-92页
        4.3.3 硬件代价第92页
    4.4 针对三维集成片上网络子区域的多播算法第92-95页
    4.5 性能比较第95-102页
        4.5.1 实验环境第95-97页
        4.5.2 二维网格子区域中多播性能第97-100页
        4.5.3 三维网格子区域中多播性能第100-102页
    4.6 相关工作第102-103页
    4.7 本章小结第103-105页
5 请求-请求类型消息依赖造成的死锁避免方法第105-125页
    5.1 请求-请求类型消息依赖造成的死锁概述第105-106页
    5.2 应用模型和NoC结构模型第106-109页
        5.2.1 应用模型第106-107页
        5.2.2 NoC结构模型第107-109页
    5.3 请求-请求类型消息依赖造成的死锁的例子第109-111页
    5.4 增加非均匀虚通道来避免死锁的理论和算法第111-117页
        5.4.1 通过增加非均匀虚通道来避免消息死锁的充分条件第111-114页
        5.4.2 最少非均匀虚通道分配算法第114-117页
    5.5 实验方法第117-120页
        5.5.1 映射算法第118页
        5.5.2 实验配置第118-120页
    5.6 实验结果第120-122页
        5.6.1 增加的额外缓冲的开销比较第120-121页
        5.6.2 网络消息延迟比较第121-122页
    5.7 相关工作第122-124页
    5.8 本章小结第124-125页
总结与展望第125-127页
参考文献第127-135页
作者攻读博士学位期间发表的论文第135-137页
作者攻读博士学位期间所获得的奖项第137页
作者攻读博士学位期间参与的科研工作第137页
论文购买
论文编号ABS587879,这篇论文共137页
会员购买按0.30元/页下载,共需支付41.1
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付68.5
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656