AR# 71975

U280-ES1 已知问题

描述

本答复记录列出了 Xilinx Alveo U280-ES1 数据中心卡目前所有的已知问题。

解决方案

ES 限制


工作条件

问题:U280 ES1 卡的入口温度与气流要求。

详细说明:U280 ES1 卡支持 25℃ 的最大入口温度,海平面及海拔 1200 米以上的气流要求如下表所示。

进口温度与气流要求 PCIe 卡槽(34.8 毫米 x 106.65 毫米)在海平面位置在 85C 额定 QSFP 下
该卡的进口温度 (C)直线英尺/分 (LFM)立方英尺/分 (CFM)
2560024
进口温度与气流要求 PCIe 卡槽(34.8 毫米 x 106.65 毫米)在海拔 1200 米位置在 85C 额定 QSFP 下
该卡的进口温度 (C)直线英尺/分 (LFM)立方英尺/分 (CFM)
2565026

解决方法:U280 生产卡支持气流要求较低的进口温度范围,详情见 U280 产品说明书。


高带宽内存控制器 (CUSTOM MODE ONLY)

问题:一个跨协议栈事务处理可能会挂起协议栈间的通道

详细说明:在双 HBM 协议栈配置中启用了 AXI 交换机全局寻址,跨协议栈内存访问可能会导致协议栈间的通道挂起。

相同的协议栈访问不受影响。

以下配置可能也会出现挂起情况:

  • 启用了 AXI 交换机全局寻址
  • 跨协议栈内存访问

当从跨接在一个交换机和另一个交换机的 AXI 端口发送读写命令时,该命令无法传播,也不会向 AXI 端口返回错误标记或正常响应。

AXI 端口最终将会挂起,因为它在等待一个永远也不会出现的响应。

这是一个上电复位问题。

如果在第一次跨交换机事务处理时没有出现问题,那以后也不会有问题。

一个可工作一段时间的器件并不意味着该器件不受这个问题的影响,因为下次重启后该问题可能就会出现。

解决方法:为了避免协议栈间通道可能出现的挂起,从适当的 HBM 控制器端口连接和访问 HBM 通道,并避免在 HBM 控制器内跨协议栈访问内存。

联系 Xilinx,了解有关 U280 ES1 卡的其它潜在解决方法。在支持 XCU280 量产器件的 U280 生产卡上,该问题已修复。



问题:在某些情况下,AXI-RRESP 可互联。

详细说明:在以下任何一种情况下,AXI 读取数据从设备响应 (RRESP) 都可能是错误的:

  • 我启用 ECC 校正并启用 ECC 擦除功能
  • 我启用 ECC 校正和部分字写入(读取-修改-写入)操作。

见下图。


 

 

解决方法:要解决这个问题,请不要使用 ECC 擦除或部分字写入以及 ECC 校正。

在支持 XCU280 量产器件的 U280 生产卡上,该问题已修复。


问题:HBM 数据速率每针仅限于 1.6Gbps。

详细说明:该限制来自 HBM 厂商以及 U280 ES1 卡上使用的芯片,最大带宽限制为 410GB/s。

解决方法:在正常情况下,可以在每针 1.8Gbps 的最大 HBM 数据速率(460GB/s 带宽)下运行 U280 ES1 卡。

在支持 XCU280 量产器件的 U280 生产卡上,该问题已修复。


功耗

问题:XCU280 ES1 FPGA 器件上的静态功率可能会高于生产器件。

详细说明: 对于 U280 ES1卡上使用的工程样片 XCU280 ES1 FPGA 器件,静态功率增加了。

与 U280 生产卡上使用的 XCU280 生产器件相比,XCU280 ES1 器件的静态功率可能提高了 2 倍。

解决方法:在支持 XCU280 量产器件的 U280 生产卡上,该问题已修复。

 

CCIX

问题:支持加速器的高速缓存一致性接口互联 (CCIX)。

详细说明:当前的 SDAccel shell 版本对于 U280 ES1 卡而言,不完全支持 CCIX

解决方法:在未来版本中,U280 ES1 卡将提供对 CCIX 的全面支持,如欲早日获得信息,请联系您的本地销售代表。


已知问题 — 还存在

硬件仿真

问题:硬件仿真可使用额外的主机内存。

详细说明在某些应用中,硬件仿真运行可能会使用大约 10GB 的内存。

解决方法:这将在未来 shell 版本中得到修复。

 

SDAccel Shell

问题:平台信息资源摘要不正确。

详细说明:平台信息会正确报告每个 SLR 的信息,但总体资源摘要不正确。

请使用每个 SLR 的信息。

解决方法:这将在未来 SDAccel 版本中得到修复。



问题:将 PLRAM 资源大小调整到 128kb(默认值)以上,可能会失败。

详细说明:如果将 PLRAM 资源的大小调整到 128kB(默认大小)以上,PLRAM 的大小调整可能会失败,导致数据访问崩溃。

解决方法:这将在未来 SDAccel 版本中得到修复。   用户逻辑不要试图将 PLRAM 资源的大小提高到 shell 的默认值之上。

 


 

主机卡的互操作性

(Xilinx 答复 72640)Alveo 数据中心加速卡 — 在 AMD EPYC 主机上进行 PCI Express 带内热复位后,卡可能不会恢复

已知问题 — 已解决


板卡管理

问题:目前还未提供 HBM 温度监控。

详细说明:由于不提供 HBM 温度,而且 FPGA 温度与 HBM 温度具有良好的相关性,因此 FPGA 温度仍然可用来监控阈值。

解决方法:HBM 温度监控问题在 201910_1 Shell Reset 中已解决


问题:目前未提供内存 ECC 监控和错误检查。

详细说明:在 DDR/HBM 内存资源上不启用 ECC 错误检查。

解决方法:201910_1 Shell 版本中提供了对 DDR/HBM 内存 ECC 的支持。


问题:目前未提供 QSFP 温度监控。

详细说明:SDAccel shell 和 Xilinx 运行时目前不支持卡 QSFP。

解决方法:这在 201910_1 Shell 版本中提供。

硬件仿真

问题:硬件仿真限制了允许的最大缓冲容量。

详细说明:在 HBM 内存资源中,最大缓冲区不能为 256MB,因为在硬件目标上,该缓冲区是 256MB - 4KB(这是仿真内容所需的空间)

解决方法:这在 2019.1 SDAccel 版本中已解决。

  

xbutil

问题:xbutil 查询输出被篡改。

详细说明:xbutil 查询输出有些内存分配及内存类型显示不正确。

解决方法:这在 201910_1 XRT 版本 (201910_1 Shell) 中已解决

SDAccel Shell

问题:当前 shell 有 32 位 BAR,在具有多张 PCIe 卡的系统中可能会发生冲突。

详细说明:BIOS/OS 可能无法为所有卡分配内存,而且可能会出现机器启动问题。

解决方法:这在 201910_1 Shell 版本中已解决

调试

问题:不支持在内核中将 MicroBlaze 调试模块和系统 ILA 结合在一起。

详细说明:将检测到调试桥接器,但系统 ILA 不工作。

解决方法:这在 201910_1 Shell 版本中已解决。

AR# 71975
日期 08/12/2019
状态 Active
Type 已知问题
Boards & Kits