NVIDIA driver bruk av flytende kjøling til over 20 % innen 2025

Oct 30, 2024

Legg igjen en beskjed

Penetrasjonshastigheten for flytende kjøleløsninger er satt til å øke betydelig, og hoppe fra rundt 10 % i 2024 til over 20 % innen 2025. I følge den siste TrendForce-undersøkelsen forventes NVIDIAs Blackwell-plattform å sendes i fjerde kvartal, noe som vil øke bruk av flytende kjøleløsninger. Den økende globale bevisstheten om ESG, kombinert med CSP-er som akselererer distribusjonen av AI-servere, letter et skifte fra luftkjøling til væskekjøling.

NVIDIA's Blackwell platform

I det globale AI-servermarkedet er NVIDIA fortsatt den dominerende leverandøren i år. I GPU AI-serversegmentet har NVIDIA en overordnet ledelse med en markedsandel på nær 90 %, mens AMD ligger på rundt 8 %. TrendForce bemerker at selv om NVIDIAs Blackwell-forsendelser for øyeblikket er små på grunn av pågående testing av forsyningskjeden, krever den nye plattformens høye energiforbruk - spesielt GB200 rackmontert løsning - forbedret kjøleeffektivitet, noe som sannsynligvis øker bruken av væskekjøling. Det eksisterende serverøkosystemets lave væskekjøleforhold byr imidlertid på utfordringer, ettersom ODM-er må navigere i en læringskurve for å løse problemer med lekkasje og kjøleeffektivitet effektivt. TrendForce forventer at innen 2025 vil over 80 % av GPUene på Blackwell-plattformen være avanserte, noe som får strømforsynings- og kjøleselskaper til å konkurrere i AI-væskekjølingsmarkedet, noe som resulterer i ny industridynamikk.

I Google utvider aggressivt flytende kjøleløsninger

De siste årene har store amerikanske skyselskaper som Google, AWS og Microsoft raskt bygget AI-servere primært drevet av NVIDIA GPUer og proprietære ASICer. TrendForce rapporterer at NVIDIAs GB200 NVL72 kabinett har en termisk designeffekt (TDP) på omtrent 140 kW, noe som krever en flytende kjøleløsning, hovedsakelig væske-til-luft (L2A). Andre arkitekturer, som HGX og MGX Blackwell-servere, bruker primært luftkjøling på grunn av lavere tetthet.

For skyselskaper som utvikler sine AI ASIC-er, har Googles TPU tatt i bruk både luft- og væskekjølingsløsninger, noe som gjør den til en leder innen væskekjøling blant amerikanske bedrifter. BOYD og Cooler Master er nøkkelleverandører av kalde plater. Kinas Alibaba er den mest aggressive når det gjelder å utvide væskekjølte datasentre, mens andre skyselskaper fortsetter å favorisere luftkjøling for sine AI ASIC-er.

TrendForce indikerer at skyselskaper vil spesifisere nøkkelkomponentleverandører for GB200-kabinettets væskekjølingsløsning. Hovedleverandørene for kaldplater inkluderer Qihong og Cooler Master, mens manifolder kommer fra Cooler Master og Shuanghong, og kjølevæskefordelingsenheter (CDUer) leveres av Vertiv og Delta. Innkjøp av viktige lekkasjesikre komponenter, som hurtigkoblinger (QDs), er fortsatt dominert av utenlandske produsenter som CPC, Parker Hannifin, Danfoss og Staubli.

AI Server Key Component suppliers for Liquid Cooling Solutions

▲ AI-server nøkkelkomponentleverandører for flytende kjøleløsninger

II Hvordan håndtere AI Chip Overoppheting? Utforsk 3 serverkjølingsmetoder

Før du går dypere inn i kjølekonkurransen, er det viktig å forstå de primære kjølemetodene, som kan kategoriseres i tre typer: luftkjøling, væskekjøling og nedsenkingskjøling.

1. Luftkjøling: Fortsatt svært etterspurt

Luftkjøling er den mest brukte kjølemetoden i datasentre og bedriftsserverrom, på lik linje med å gi kjølig luft til servere gjennom vifter, varmeavledere og varmerør. For å oppnå optimal kjøleytelse er avansert luftkjølingsteknologi som dampkammer (3D VC) kombinert med varmerør og mange vifter nødvendig. Mens økt luftstrøm og hastighet forbedrer varmekonveksjonen, kan imidlertid overdreven støy og vibrasjoner påvirke servermiljøet negativt. Ifølge Wu Junying, viseadministrerende direktør, har luftkjøling fortsatt betydelig markedsetterspørsel siden H100-brikker kan kjøles tilstrekkelig med luft. Men med forsendelsen av brikker i GB-serien vil tempoet for bruk av væskekjøling akselerere.

2. Væskekjøling: Det største markedet forfulgt av alle leverandører

Væskekjøling, også kjent som direkte væskekjøling (DLC), kan videre deles inn i væske-til-luft og væske-til-væske.

Væske-til-luft: Denne metoden bruker vannkjølingsrør for å frakte bort varme fra flis, med det oppvarmede vannet som sendes til vifter på baksiden av skapet for å spre varmen. Væske-til-luft-kjøling er et svar på de fysiske grensene for luftkjøling i eksisterende datasentre, ettersom det krever minimal modifikasjon av serverromsinfrastruktur – bare å legge til en bakdør for vifte kan forbedre kjølingen. For tiden bruker omtrent 60-70% av datasentrene fortsatt denne kjølemetoden. Men mens væske-til-luft er en levedyktig løsning, er den ikke optimal; den ekstra vifteveggen kan heve støynivået til 90-100 desibel (tilsvarer en travel gate på rundt 80 desibel), noe som gjør det vanskelig for ansatte å jobbe i rommet i lengre perioder.

Væske-til-væske: Denne metoden innebærer å lukke forseglede rørledninger fylt med kjølevæske rundt serverens varmegenererende komponenter. Varme overføres gjennom termiske kobberplater til kjølevæsken, noe som muliggjør en syklus med varm og kald væskeutveksling. I motsetning til væske-til-luft, krever ikke denne metoden viftevegger bak serverskapene, noe som forbedrer plassutnyttelsen betydelig og reduserer støynivået. NVIDIAs avanserte GB200 NB072 bruker væske-til-væske kjøling.

3. Nedsenkingskjøling: Den fremtidige kjølende hellige gral?

Nedsenkingskjøling innebærer å senke hele servere i ikke-ledende væske, i likhet med et varmt bad, og effektivt kjøle ikke bare brikker, men også CPUer, minne og andre elektroniske komponenter på servere. Problemstillinger som miljøhensyn knyttet til nedsenkingsvæsker, de langsiktige effektene på elektroniske komponenter og pågående vedlikehold byr imidlertid på betydelige utfordringer. Datasentre som vurderer nedsenkingsløsninger må også evaluere den strukturelle integriteten til bygningsgulv og den underliggende infrastrukturen for elektriske og vannsystemer. Implementering av nedsenkingskjøling krever omfattende redesign av anlegget, noe som resulterer i betydelige kostnader.