九游(ninegame)官网

    服务器 2025-11-05

    昇腾300V pro MINI卡报错问题分析

    一、现网描述

    1.1 环境描述

    设备型号:KunTai A722

    CPU:HUAWEI Kunpeng 920 5220*2

    GPU卡:Atlas 300V Pro Video Analysis Card*4

    BMC:(U82)3.11.00.27

    BIOS:(U75)7.15

    HDK版本:HDK 25.0.RC1.1


    二、故障描述

    2.1故障现象

    客户现场多台服务器告警,BMC上面显示告警码7528

    99731f1472440f35ff1bf1a5eae5cab5.png


    三、问题分析

    3.1排查思路

    带内日志查看devices info状态都为os running。

    6f9e8b115d31f634b2d6448dbad181ae.jpg

    带外日志报错与带内日志比对后,有内存超限告警。

    image.png

    内存超限是由OOM引起的,建议用户侧对业务内存进行排查。

    a62b7c34e98087a4df120b0c6cc97a7e.jpg


    3.2原因分析

    内存超限是由OOM引起的,建议用户侧对业务内存进行排查。


    四、问题解决

    4.1解决办法

    根据带内内存超限及业务侧报错OOM,建议热重启,观察显卡是否恢复正常;

    重启无法恢复,因驱动25.0.RC1.1配套固件版本为7.7.0.1.231,原厂建议固件升到与驱动配套一致。MCU最好也升到24.5.9。