■엔비디아 실적 기대를 높일 뿐만 아니라, 미국 AI 기술 우위를 확고하게 만들 NVL72 출하 가속 기대
엔비디아 실적 발표 하루 전에 구체화된 낭보. 엔비디아가 개발한 AI 서버 랙 NVL72가 기술 문제를 해결하고 출하가 가속되고 있다고 FT가 보도. NVL72는 40채의 가정주택이 사용하는 전략과 비슷한 120kW를 소비하는데, 이는 기존 서버의 6배, H100 서버의 3배 수준. 여기에서 발생하는 열을 잡지 못하면서 대량 출하에 문제가 있었는데, 2~3개월 전에 이 문제가 해결됐다고 엔비디아 협력사의 기술자가 밝힘. 젠슨 황 엔비디아 CEO는 1분기 말에 NVL72의 출하가 시작됐으며, 생산 능력이 빠르게 확장되고 있다고 한 바 있음. 트럼프 대통령의 중동 순방에서 AI 반도체 수출 규제가 완화되면서 엔비디아의 시장 확장 기대가 높아지는 가운데, 한국시각으로 내일 새벽에 실적 발표를 앞두고 블랙웰 출하가 가속되고 있다는 소식이 더해지면서 시장 기대를 더욱 높임
한 차원 높은 AI 혁신을 기대할 수 있는 미국. GPU는 여러 개를 병렬로 사용할수록 더 많은 연산을 할 수 있음. 그러나 하드웨어를 병렬로 연결하면 통신과 메모리 공유 과정에서 병목이 발생. 이 문제를 해결하기 위해 엔비디아는 GPU를 직접 연결한 제품을 선보였음. 작년 3월 GTC 2024에서 공개한 GB200은 AI GPU인 B200 2개를 CPU (Grace) 1개와 NVLink로 연결한 제품. GB200을 통해 CPU 1개로 GPU (B200) 2개를 통제하도록 하면, CPU 1개로 GPU (B200) 2개를 개별적으로 연결했을 때에 비해 메모리 접근 속도는 2~3배, 에너지 효율은 20~30% 개선되고, 연산 과제 처리 속도는 10~20% 향상될 뿐만 아니라, 대규모 모델을 처리할 수 있게 됨. CPU와 GPU를 개별적으로 연결하면, CPU-GPU를 PCIe (PCI Express)로 연결해야 하는데, GB200은 CPU-GPU를 NVLink로 연결. NVLink 4.0의 대역폭은 PCIe Gen 5에 비해 약 7배 높아서 병목이 거의 없이 사실상 한 몸처럼 움직임. GB200에서는 CPU와 GPU가 메모리를 공유해서 데이터 접근 속도가 크게 높아지는데, 이 또한 GB200의 성능 개선에 기여. 엔비디아는 이 GB200을 72개 묶은 NVL72도 출시. CPU 1개와 B200을 개별적으로 통합해서 사용하는 것에 비해 GB200이 좋은 성능을 내는 것처럼, GB200을 NVLink와 NVSwitch로 연결한 NVL72도 GB200 72개를 개별적으로 묶어서 쓰는 것에 비해 성능, 효율성, 확장성 등 다양한 측면에서 훨씬 뛰어난 결과를 보여줌. 단순히 더 뛰어난 성능을 보여준다는 걸 넘어서, 이전에 불가능했던 게 가능해진다는 게 중요. NVL72로는 27조개의 매개변수 모델을 단일 시스템에서 처리할 수 있음. 지금까지 나온 거대언어모형은 최대 1~2조개의 매개변수를 다루는 걸로 알려져 있는데, 이마저도 연산 부담이 커서 실제 연산 과정에서 사용하는 활성 매개변수는 1조개 미만. 각 분야의 전문성을 가진 모델을 모은 전문가 혼합 (Mixture of Experts, MoE) 방식을 사용해서 활성 파라메터 개수를 낮추는 방식은 이제 거의 모든 LLM이 활용. 개별적으로 GB200을 72개 묶어서 쓰더라도 병목현상 때문에 실제로는 매개변수 2~3조개 정도만 다룰 수 있는 것으로 평가. 따라서 AI 기업들이 NVL72를 활용하기 시작하면 AI 혁신은 극적으로 가속될 전망. xAI는 NVL72를 1,600개 주문한 것으로 알려져 있는데, 테슬라와 일부 공유할 예정. 테슬라의 휴머노이드 로봇인 옵티머스가 업그레이드되면서 2021년부터 매년 하반기에 공개된 바 있음. 작년에는 10월에 ‘We, Robot’ 행사를 통해 옵티머스 2세대를 공개했는데, 올해도 비슷한 행사를 통해 기술 진보를 과시할 전망