面向片上网络的高性能路由器关键技术研究

片上网络论文 吞吐率论文 延迟论文 路由算法论文 路由器论文 无缓冲路由器论文 多播论文 链路论文
论文详情
随着工艺尺寸比例缩小,未来单芯片上将会集成数百个处理器核心,全局互连线延迟相对于门延迟也越来越大。传统的基于总线、专用互连线、交叉开关等互连方式由于受到带宽、可扩展性、面积、全局互连线延迟等问题的挑战,无法满足片上互连的需求。片上网络由于其具有良好的扩展性、可以预测的互连线长度和延迟、较高的带宽、可重用性等优点逐渐成为非常有前景的片上互连结构。同时,应用程序对片上互连结构提出了低延迟、高吞吐率的要求。虽然网络已经在并行计算和互联网络等领域进行了深入广泛的研究。但是片上网络与之相比较具有以下不同:路由器的延迟成为网络延迟的主要构成部分;具有丰富的互连线资源;有限的存储资源;更加严峻的功耗和面积约束。这些不同点是NoC研究的立足点和出发点。因此,本课题的研究也是针对这些问题展开的,主要工作体现在以下五个方面。1.自适应通道双缓冲CDB。通道双缓冲CDB(Channel Double Buffer)用来替代链路中的寄存器,实现链路流水化。CDB之间以及CDB与路由器之间的报片传输采用了ready-valid握手协议。链路采用了局部拥塞控制策略,当下游路由器的输入缓冲器无法接收报片时,链路中的CDB能够缓冲报片。这等效的增加了路由器输入缓冲器的容量。基于逻辑努力建立的延迟模型显示:关键路径延迟与物理链路宽度密切相关;寄存器开销是关键路径延迟的重要构成部分。基于CDB的链路流水线级数与互连线类型、互连线长度和时钟周期宽度密切相关。与插入简单寄存器实现链路流水化相比较,基于CDB的链路流水化将会增加流水线级数,但是流水线级数的增加并不明显。2.基于CDB的动态缓冲分配的DVOQR。DVOQR(Dynamic Virtual Output Queue Router)通过虚拟输出队列技术,前瞻路由计算策略,动态缓冲分配和虚拟地址队列结构,从而实现UDB读操作,前瞻路由计算和交叉开关分配能够并行进行,进而能够将路由器流水线压缩到两个时钟周期。动态缓冲分配机制可以有效的利用片上有限的缓冲资源。在随机通讯模式下,与虚通道路由器相比较,在获得相同网络吞吐率下,DVOQR的缓冲容量是虚通道路由器的四分之一。基于逻辑努力建立的延迟模型显示:路由器的端口数量对关键路径延迟的影响更加明显。在4x4 Mesh网络中,随机通讯模式下,DVOQR的吞吐率相对于虫孔路由器和虚通道路由器分别增加了46.9%和28.5%。即使在相同输入加速比下,DVOQR的吞吐率比两倍于其输入缓冲器容量的虚通道路由器仍高1.9%,与四倍于其输入缓冲器容量的虚通道路由器相当。应用程序的模拟结果显示:DVOQ路由器、虫孔路由器和虚通道路由器的平均延迟相对于理想路由器分别增加了6.6%,50.9%和94.6%。3.低面积开销的基于编码分配的无缓冲路由器BEA-BLESS。BEA-BLESS(Based on Encoding Allocation BufferLESS router)是一种无缓冲路由器,能够有效的减小NoC对芯片面积需求。FBEA-BLESS和PBEA-BLESS分别针对报片交换和报文交换进行优化。BEA-BLESS通过编码分配策略能够降低路由器的关键路径延迟,提高路由器的工作频率。FBEA-BLESS工作频率是B-BLESS的2倍;网络活锁可以通过GoSS(Go-Stop-Steer)策略来避免。PBEA-BLESS能够以较小的缓冲面积开销来消除接收端的重排序缓冲;改进的GoSS策略可以避免网络活锁和饿死。真实应用程序的模拟结果显示:在BEA-BLESS中,网络平均延迟相对于B-BLESS降低了29.4%;支持报文交换所需要的缓冲器的容量仅仅为重排序缓冲器容量的33.3%。4.基于DVOQR的负载均衡的多播路由器。通过借鉴单播通讯下网络吞吐率模型建立的方法,本文建立了面向多播通讯的网络吞吐率模型;并且提出了两种负载平衡的多播路由算法BDOR (Balanced DOR)和MPDOR(Minimal Path DOR)。SM-DVOQR (Supporting Multicast DVOQR)和SMDL-DVOQR(Supporting Multicast Double Lane DVOQR)是基于DVOQR的两种能够高效的支持多播的路由器。SM-DVOQR能够支持XY多播路由算法和YX多播路由算法。单一的采用XY多播路由算法或者YX多播路由算法将会导致网络的X方向和Y方向上的通道负载不平衡。这种不平衡的特性将会随着网络规模的增加而增加。SMDL-DVOQR通过在两个lane上分别支持XY多播路由算法和YX多播路由算法来实现负载均衡的BDOR和MPDOR多播路由算法。模拟结果显示:在Mesh网络中,通过增加路由器的局部输出端口的数量,网络性能可以获得改善,局部端口数量的最优值是2;SMDL-DVOQR由于能够平衡网络负载,因此能够获得比SM-DVOQR更好的性能。5.面向DVOQR的漏流功耗优化策略。基于RTL级的DVOQR的功耗分析显示:路由器中的存储单元是漏流功耗的主要消耗部件,占据了总漏流功耗的85%;在低的网络通讯量下,漏流功耗是路由器总功耗的重要构成部分。自适应缓冲管理策略和两项缓冲不关闭策略是两种路由器的漏流功耗优化策略。自适应缓冲管理策略能够有效的降低路由器的漏流功耗,但是在较低的网络注入率下,缓冲项的唤醒操作延迟将会附加到网络平均延迟。在唤醒延迟Twakeup=1时,提前唤醒技术能够完全隐藏唤醒延迟。而两项缓冲不关闭技术能够容忍更大的唤醒延迟。在低注入率下,两项缓冲不关闭技术下,路由器的漏流功耗节约率小于自适应缓冲管理策略。在中等、较高注入率下,这两种策略下的漏流功耗节约率几乎相等。
摘要第12-14页
Abstract第14-16页
第一章 绪论第17-43页
    1.1 课题背景第17-27页
        1.1.1 片上多核——CMP第17-19页
        1.1.2 CMP中的全局互连线瓶颈第19-21页
        1.1.3 应用程序对片上互连的需求第21-22页
        1.1.4 片上互连网络NoC第22-27页
    1.2 NoC相关研究第27-37页
        1.2.1 物理链路第28-29页
        1.2.2 路由器微体系结构第29-37页
        1.2.3 低功耗设计第37页
    1.3 论文主要工作第37-40页
    1.4 论文结构第40-43页
第二章 NoC基础理论第43-59页
    2.1 NoC的构成第43-51页
        2.1.1 拓扑结构第43-45页
        2.1.2 路由算法第45-47页
        2.1.3 交换策略第47-51页
    2.2 NoC的评估第51-56页
        2.2.1 性能评估指标第51-53页
        2.2.2 网络模拟方法第53-56页
    2.3 NoC的功耗与面积开销第56-57页
        2.3.1 NoC的功耗开销第56页
        2.3.2 NoC的面积开销第56-57页
    2.4 本章小结第57-59页
第三章 CDB微体系结构第59-73页
    3.1 引言第59-60页
    3.2 CDB的微体系结构第60-64页
        3.2.1 CDB的结构第60-62页
        3.2.2 基于CDB的流水化链路第62-63页
        3.2.3 拥塞控制第63-64页
        3.2.4 面积开销第64页
    3.3 CDB的延迟模型第64-68页
        3.3.1 逻辑努力原理第64-65页
        3.3.2 CDB关键路径第65-67页
        3.3.3 模型有效性第67页
        3.3.4 CDB的延迟构成第67-68页
    3.4 实验分析第68-71页
        3.4.1 延迟优化的repeater插入技术第68-69页
        3.4.2 链路流水线深度第69-71页
    3.5 小结第71-73页
第四章 基于CDB的双时钟周期DVOQR第73-93页
    4.1 DVOQR微体系结构第74-80页
        4.1.1 DVOQR结构第74-79页
        4.1.2 流水线第79-80页
        4.1.3 流水化物理链路第80页
    4.2 DVOQR延迟模型第80-83页
        4.2.1 流水线关键路径第80-82页
        4.2.2 延迟模型的有效性第82页
        4.2.3 DVOQR性能与体系结构参数敏感性第82-83页
    4.3 实验结果与分析第83-89页
        4.3.1 实验配置第83-84页
        4.3.2 合成负载结果分析第84-87页
        4.3.3 应用驱动负载结果分析第87-89页
    4.4 硬件实现第89-90页
        4.4.1 实现结果第89-90页
        4.4.2 讨论第90页
    4.5 小结第90-93页
第五章 低面积开销的BEA-BLESS第93-115页
    5.1 引言第93-94页
    5.2 B-BLESS第94-95页
    5.3 FBEA-BLESS第95-101页
        5.3.1 SABE分配器第96-99页
        5.3.2 报片注入策略第99-100页
        5.3.3 GoSS活锁避免机制第100-101页
    5.4 PBEA-BLESS第101-106页
        5.4.1 虚拟接收技术第103-105页
        5.4.2 改进的GoSS活锁避免机制第105-106页
        5.4.3 饿死避免第106页
    5.5 实验结果与分析第106-112页
        5.5.1 实验配置第106-107页
        5.5.2 合成负载结果分析第107-110页
        5.5.3 真实驱动负载结果分析第110-112页
    5.6 硬件实现第112-113页
    5.7 小结第113-115页
第六章 基于DVOQR的负载均衡的多播路由器第115-137页
    6.1 引言第115页
    6.2 多播路由算法评估第115-124页
        6.2.1 多播吞吐率模型第116-117页
        6.2.2 多播路由算法第117-120页
        6.2.3 网络吞吐率评估第120-124页
    6.3 SM-DVOQR第124-130页
        6.3.1 SM-UDBA第124-125页
        6.3.2 路由计算单元第125-128页
        6.3.3 死锁避免第128-129页
        6.3.4 流水线第129-130页
    6.4 负载均衡的SMDL-DVOQR第130-131页
    6.5 实验结果与分析第131-135页
        6.5.1 实验配置第131-132页
        6.5.2 网络性能与局部输出端口带宽的敏感度第132-133页
        6.5.3 网络性能与多播路由算法的敏感度第133-134页
        6.5.4 网络平均接收率第134-135页
    6.6 硬件实现第135页
    6.7 小结第135-137页
第七章 RTL级的DVOQR功耗分析及漏流功耗优化第137-153页
    7.1 引言第137页
    7.2 RTL级的DVOQR功耗分析第137-143页
        7.2.1 RTL级的功耗分析流程第137-139页
        7.2.2 静态功耗第139页
        7.2.3 动态功耗第139-142页
        7.2.4 漏流功耗第142-143页
    7.3 漏流功耗管理策略第143-147页
        7.3.1 自适应缓冲管理第143-146页
        7.3.2 提前唤醒技术第146-147页
        7.3.3 两项缓冲不关闭策略第147页
    7.4 实验结果与分析第147-152页
        7.4.1 评估方法第147-148页
        7.4.2 实验配置第148页
        7.4.3 与Tidledetect的敏感性第148-150页
        7.4.4 与Twakeup的敏感性第150-151页
        7.4.5 与网络注入率的敏感性第151-152页
    7.5 小结第152-153页
第八章 结束语第153-157页
    8.1 本文工作总结第153-155页
    8.2 未来研究方向第155-157页
致谢第157-161页
参考文献第161-173页
作者在学期间取得的学术成果第173-177页
附录A 缩略表第177-178页
论文购买
论文编号ABS574840,这篇论文共178页
会员购买按0.30元/页下载,共需支付53.4
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付89
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656