Radeon Open Compute „ROCm” Stack v3.1 Lansat cu RAS pentru Vega 7nm, suport SLURM pentru o mai bună gestionare a resurselor, dar Navi încă lipsește

Hardware / Radeon Open Compute „ROCm” Stack v3.1 Lansat cu RAS pentru Vega 7nm, suport SLURM pentru o mai bună gestionare a resurselor, dar Navi încă lipsește 2 minute citite

AMD Radeon



Radeon Open Compute sau versiunea nouă a stivei „ROCm” este acum disponibil pentru descărcare. Radeon Open Compute v3.1 aduce cu sine câteva caracteristici, dar în mod ciudat, încă lipsește suportul pentru AMD Navi și GFX10.

ROCm, cea mai acceptată platformă universală pentru calculul accelerat de GPU, este acum pe versiunea 3.1. Cea mai recentă actualizare a platformei modulare care permite furnizorilor de hardware să construiască drivere care acceptă cadrul ROCm include câteva caracteristici mult așteptate, cum ar fi suportul RAS pentru 7nm Vega și suportul SLURM pentru GPU-urile AMD. Cu toate acestea, din motive încă necunoscute, ROCm încă nu are suport complet pentru următoarea generație AMD Navi Architecture.



Ce este nou în Radeon ROCm v3.1:

Cea mai mare și mai evidentă modificare a noii instalări a Radeon ROCm v3.1 se află în structura directorului de instalare ROCm. O nouă instalare a setului de instrumente ROCm instalează pachetele în / opt / rocm- pliant. Anterior, pachetele de instrumente ROCm erau instalate în / opt / rocm pliant.



Noua versiune a ROCm a îmbunătățit compatibilitatea cu fiabilitatea, accesibilitatea și funcționalitatea (RAS) pentru GPU-urile Vega 7nm. Această lucrare Vega de 7 nm este probabil la microscop încă pentru „Arcturus” bazat pe Vega accelerator de calcul care va veni anul acesta. Suportul include:



  • UMC RAS ​​- HBM ECC (injecție de eroare incorectabilă), retragere pagină, recuperare RAS prin GPU (BACO) reset
  • GFX RAS - GFX, MMHUB ECC (injecție de eroare incorectabilă), recuperare RAS prin GPU (BACO) reset
  • PCIE RAS - PCIE_BIF ECC (injecție de eroare incorectabilă), recuperare RAS prin GPU (BACO) resetare

Radeon ROCm v3.1 primește, de asemenea, suport SLURM pentru GPU-urile AMD. SLURM sau Simple Linux Utility for Resource Management este unul dintre cele mai preferate și ușor utilizate sisteme de gestionare a clusterelor și de planificare a lucrărilor pentru clusterele Linux. SLURM este preferat datorită faptului că este open-source, tolerant la erori și foarte scalabil.

Acest sistem poate interacționa bine cu GPU-urile AMD. Cea mai recentă versiune 20.02.0 a SLURM include plugin-uri AMD care permit SLURM să detecteze și să configureze automat GPU-urile AMD. De asemenea, colectează și raportează consumul de energie al cipurilor grafice. Suportul SLURM este o adăugare utilă, având în vedere numărul tot mai mare de implementări de super-calculatoare care utilizează GPU-uri Radeon și alte clustere AMD GPU mai mari.

În ciuda includerii mai multor caracteristici, încă nu există semne de suport GFX10 / Navi în ROCm. Pagina GitHub pentru ROCm a fost actualizat pentru a reflecta toate modificările, notele de instalare și problemele cunoscute.



Etichete amd