制作网站首页,wordpress用户名在哪看,展览馆网站建设,漂亮购物网站欣赏最近发现了英特尔官网公布的一项最新测试报告#xff0c;报告显示#xff0c;将美光的CZ122 CXL内存模块放到英特尔至强6平台上#xff0c;显著提升了HPC和AI工作负载的内存带宽#xff0c;特别是在采用基于软件的交错配置#xff08;interleave configuration#xff09…最近发现了英特尔官网公布的一项最新测试报告报告显示将美光的CZ122 CXL内存模块放到英特尔至强6平台上显著提升了HPC和AI工作负载的内存带宽特别是在采用基于软件的交错配置interleave configuration时性能优化潜力诱人。 实验中将12根DDR5内存组成NUMA0将另外8个美光CXL DDR4内存模组组成CXL NUMA1考虑到性能差异可能会带来的问题相关研究者已经在Linux内核6.11.6层面进行了优化。 上图清晰展示了在高负载条件下通过将DRAM和CXL内存组合使用可以显著提升系统带宽并降低延迟。DRAM CXL 的优化交错配置interleaving strategy 实现了内存资源的高效利用特别是对于带宽密集型工作负载。
测试人员还发现DRAM和CXL在不同读写比例下带宽的表现会有明显差异。其中DRAM在写的比例更多时内存带宽会下降。而CXL利用了PCIe双向传输的能力在写的比例越来越高的时候带宽会越来越高。
DRAM的延迟较低但是带宽部分其实不如CXL在高负载场景下DRAM的带宽瓶颈会导致性能迅速下降。CXL内存虽然内存延迟比较高但凭借优秀的双向读写能力能提供额外的带宽扩展缓解系统内存压力。
这意味着在实际应用中如果想更好地利用CXL的优势还得看具体场景对延迟和带宽的需求。从操作层面来看就需要用户根据工作负载来调整使用的DRAM和CXL内存的配比。
接下来看在实测数据中DDR5 DRAM搭配DDR4 CXL内存模组是如何提高性能的。 在大语言模型推理任务中研究人员使用了Intel PyTorch 扩展IPEX该开源工具对英特尔硬件进行了专门优化。通过采用3:1 DRAM与CXL内存比例LLAMA3-8B-Instruct 的推理速度相比仅使用 DRAM 提升了17%。
FAISS 是由 Facebook AI 开发的高效相似性搜索库用于密集向量的聚类和搜索。在 2:1 DRAM与CXL比例下FAISS 工作负载的查询时间降低性能提升了 23%。
说完了大家都比较关心的AI场景接下来说HPC场景的价值。
OpenFOAM 是一款开源计算流体力学CFD软件用于模拟各种流体动力学场景。采用5:2 DRAM:CXL比例时OpenFOAM工作负载的执行时间缩短了22%。
HPCG基准测试侧重于稀疏线性系统的求解强调内存访问模式和数据移动反映真实科学和工程应用的行为。在3:1 DRAM:CXL 比例 下HPCG 基准测试实现了 27% 的性能提升。
Xcompact3D基准测试用于评估计算系统在求解不可压缩Navier-Stokes方程时的效率尤其适用于流体动力学模拟如3D Taylor-Green涡流。在5:2 DRAM:CXL比例下Xcompact3D基准测试性能提升达25%。
POT3D基准测试模拟三维Poisson方程主要用于评估系统在科学与工程计算中的性能尤其是在分子动力学和计算物理领域。采用 5:2 DRAM:CXL 比例 时POT3D 工作负载性能提升了27%。 总之CXL内存的引入使得系统能够有效地扩展内存带宽解决了传统内存架构的带宽瓶颈尤其是在大规模AI训练和高性能计算等应用中。通过DRAM和CXL内存搭配能够根据不同负载的需求灵活调整内存资源的分配比例最大化带宽利用率。
实验还表明随着CXL内存技术的逐步成熟未来的计算系统将能更好地满足AI、大数据处理以及其他计算密集型应用对内存带宽和容量的要求。通过合理配置内存比例系统能够更加高效地处理高读写比率的混合负载提升计算性能和响应速度。