AI모델 학습을 위한 고성능 컴퓨팅 기능에 대해서 연재를 하려고 합니다. HPC라고 하는 영역에서 고성능을 내기위해서는 다양한 기술들이 받쳐줘야 합니다. CPU, GPU, 메모리, 저장장치 그리고, 오늘 얘기하려는 네트워크 기술입니다.
AI환경에서는 NVIDIA가 주도하면서 InfiniBand를 권장하고 있습니다.
InfiniBand는 AI 및 기계 학습 워크로드에 사용되는 것을 포함하여 고성능 컴퓨팅(HPC) 환경에서 자주 사용되는 고속 상호 연결 기술입니다. InfiniBand가 이더넷 또는 파이버 채널과 같은 다른 상호 연결 기술보다 선호되는 몇 가지 이유가 있습니다.
- 높은 대역폭: InfiniBand는 방향당 포트당 최대 200Gbps의 속도를 지원하는 최신 세대의 InfiniBand(HDR)와 함께 높은 데이터 전송 속도를 제공합니다. 따라서 AI 교육 워크로드에 사용되는 것과 같이 빠른 데이터 전송 속도가 필요한 HPC 환경에 이상적인 선택입니다.
- 짧은 대기 시간: InfiniBand는 클러스터의 노드 간에 짧은 대기 시간 통신을 제공하며 일반적으로 대기 시간은 1마이크로초 미만입니다. 이는 지연 시간이 짧은 통신이 성능과 확장성을 유지하는 데 중요한 HPC 워크로드에 중요합니다.
- 확장성: InfiniBand는 단일 패브릭에서 최대 수만 개의 노드를 지원하여 컴퓨팅 노드의 대규모 클러스터로 확장하도록 설계되었습니다. 따라서 대규모 병렬 처리 기능이 필요한 HPC 환경에 이상적인 선택입니다.
- 안정성: InfiniBand에는 고성능 컴퓨팅 환경에서 안정성과 데이터 무결성을 향상시키는 패킷 수준 오류 감지 및 수정, 혼잡 제어, 서비스 품질(QoS) 메커니즘과 같은 기능이 포함되어 있습니다.
- 개방형 표준: InfiniBand는 광범위한 하드웨어 및 소프트웨어 공급업체에서 지원하는 개방형 표준 기술로 기존 HPC 환경에 쉽게 통합할 수 있습니다.
전반적으로 InfiniBand는 빠른 데이터 전송 속도, 낮은 대기 시간 및 높은 안정성이 필요한 고성능 컴퓨팅 환경에 매우 적합한 고성능, 저지연 및 확장 가능한 상호 연결 기술입니다.
실제 프로젝트에서 성능테스트를 기존 Ethernet과 InfiniBand를 시험해 보았습니다. Ethernet도 고성능 모델(100/200/400GbE) 을 지원하기 때문에 두 기술에 얼마의 성능차이가 나는지 궁금했습니다.
실험결과는 Bandwidth와 Throughput은 큰 차이가 없는데, Latency가 큰 차이가 있었습니다.
InfiniBand는 Mellanox 소유의 독점 기술이 아니라 기술 회사 컨소시엄인 IBTA(InfiniBand Trade Association)에서 유지 관리하는 업계 표준 상호 연결 기술입니다. Mellanox는 InfiniBand 네트워킹 솔루션의 선도적인 공급업체이지만 Intel, Cisco 및 QLogic과 같은 다른 공급업체도 InfiniBand 제품을 제공합니다.
IBTA는 물리적 계층 신호, 링크 계층 프로토콜, 네트워크 계층 프로토콜 및 전송 계층 프로토콜과 같은 영역을 다루는 InfiniBand 아키텍처 및 사양을 정의합니다. 또한 IBTA는 서로 다른 공급업체의 InfiniBand 제품이 상호 운용 가능하고 InfiniBand 사양을 충족하는지 확인하는 규정 준수 프로그램을 유지 관리합니다.
Mellanox는 InfiniBand 기술 개발에 크게 기여했으며 고성능 컴퓨팅(HPC) 환경에서 InfiniBand 채택을 촉진하는 데 중요한 역할을 했습니다. Mellanox는 또한 RDMA, GPUDirect 및 혼잡 제어와 같은 고급 기능을 제공하는 ConnectX 네트워크 어댑터 카드와 같이 InfiniBand와 함께 사용되는 여러 독점 기술을 개발했습니다.
재미있는 사실은 2020년 NVIDIA는 이 Mellanox를 인수합니다. 이는 고성능 컴퓨팅(HPC) 및 데이터 센터 시장에서 역량을 확장하기 위한 전략의 일환이었습니다. Mellanox는 HPC 환경에서 널리 사용되는 InfiniBand 및 이더넷 기술을 포함한 고속 네트워킹 솔루션의 선두 공급업체입니다.
Mellanox를 인수함으로써 NVIDIA는 확장 가능하고 효율적인 고성능 데이터 센터를 구축하는 데 필수적인 네트워킹 기술에 대한 전문 지식을 얻었습니다. 이번 인수를 통해 NVIDIA는 GPU에서 고속 네트워킹, 스토리지 및 소프트웨어에 이르기까지 HPC 및 데이터 센터 고객을 위한 완벽한 종단간 솔루션을 제공할 수 있게 되었습니다.
Mellanox를 인수한 NVIDIA의 전략은 AI 및 HPC에 대한 전문 지식을 활용하여 과학 연구, 금융 모델링, 머신 러닝을 포함한 다양한 애플리케이션을 위해 더 높은 성능, 더 낮은 대기 시간 및 더 효율적인 데이터 처리를 제공할 수 있는 통합 솔루션을 구축하는 것입니다.
특히 NVIDIA는 Mellanox의 네트워킹 기술을 사용하여 NVIDIA GPU, Mellanox 네트워킹 및 스토리지를 통합하는 특수 목적 AI 슈퍼컴퓨터인 DGX 시스템을 포함하여 AI 및 HPC 솔루션의 성능과 확장성을 개선할 계획입니다. NVIDIA는 또한 Mellanox의 네트워킹 기술을 사용하여 AI 및 HPC 워크로드 실행을 위한 유연하고 효율적인 인프라를 제공하는 소프트웨어 정의 데이터 센터 아키텍처를 개선할 계획입니다.
전반적으로 NVIDIA의 Mellanox 인수는 AI 및 HPC를 위한 종단간 솔루션의 선두 공급업체가 되고 차세대 고성능 컴퓨팅 애플리케이션을 가능하게 하기 위한 광범위한 전략의 일부입니다.
'Things that inspire me' 카테고리의 다른 글
HBM 고대역폭 초고속 메모리 (High-Bandwidth Memory) (0) | 2023.08.31 |
---|---|
PCI Express gen5 (0) | 2023.02.26 |
AI모델 개발을 위한 GPU서버 (0) | 2023.02.26 |
왜 NVIDIA가 AI시장을 리딩하는가? (0) | 2023.02.26 |
정보검색의 새로운 패러다임 - ChatGPT (0) | 2023.02.13 |