随着集成电路技术和信息处理技术的发展,微处理器芯片设计已经成为当今的热点研究问题。工艺技术的进步和应用需求的增长对微处理器芯片的设计方法、体系结构等带来了重要的影响。特别是在嵌入式领域,高性能、低功耗、丰富的软件支持以及较短的设计验证时间对嵌入式处理器而言至关重要。本文作者参与了浙江大学信息与通信工程研究所SoC R&D小组承担的具有自主知识产权的媒体数字信号处理器IP核MediaDSP64的研发工作。作为部分研究成果,本文主要围绕处理器的功能设计与结构优化展开。在保持处理器核心指令集二进制兼容性的前提下,从面向应用的扩展指令集配置、流水线数据通道与控制通道优化、以及复杂DSP指令的乱序多发射特性等方面出发,对处理器的性能进行增强设计研究。指令集的配置任务分为两种类型进行实现,一是对应用领域进行整体特性评估并设计专用的指令集,二是对具体算法进行瓶颈分析并设计特殊的增强指令。以媒体处理核心算法为例,文中分别以并行度较高和串行度较高两个角度出发,对上述两种类型的配置任务分别进行论述。前者以SIMD指令集为例进行优化设计,除了扩展数据操作位宽之外,通过对访存单元与执行单元的协同优化,减少了SIMD操作对数据排列与数据位宽的要求。后者以码流处理算法为例,结合处理器流水线的结构特点,将循环体内的多个串行操作融和在单条指令内执行,不仅节省了代码空间,也提高了处理器在目标应用中的性能。通过对流水线数据通道与控制通道的复用,减少了指令配置过程的设计复杂度及其对处理器资源与延时的影响。流水线微结构优化包含数据通道与控制通道两个方面。文中建立通用的数据转发模型对复杂DSP指令的执行过程进行分析,通过集中转发源以及删减次要路径的方式实现了一种分布式部分转发结构。并针对转发网络中数据丢失问题,设计了自适应备份寄存器机制,通过对相关寄存器进行动态镜像的方式消除了数据丢失现象。采用提前写回策略减少了转发网络中的数据源,并针对由此造成的指令乱序执行问题,设计了影子寄存器机制保证了精确异常的实现。使用了提前判定算法代替了之前的即时判定算法,能够在本周期内判断出下一周期中流水线内的指令相关性,在处理器关键路径中隐藏了相关检测电路的延时。通过上述改进措施,在TSMC 130 nm (Generic and Worst Case)下,处理器可以达到400 MHz的工作频率。最后设计实现了一种硬件复杂度较低且具有乱序多发射特性的超标量处理器MD64SS.通过将复杂DSP指令拆分为多条微指令保证指令集的兼容性,使用着色法实现了复杂DSP指令的原子提交。通过指令二次编码与即时译码技术实现了指令信息的封装性,在增加子流水线与新指令时只需修改译码器和功能单元,而之间的指令调度器模块无需进行任何修改。通过结合寄存器广播与指令计数器两种方案将就绪逻辑的关键路径拆分为两个部分,减少了指令发射电路的延时,提高了处理器的工作频率。对典型应用的性能评估表明处理器的性能可以提高约50%-80%。TSMC 130 nm Generic工艺下处理器最高可以工作在约620MHz,在TSMC 90 nm Fast工艺下处理器最高可以工作在约1030 MHz。