SageMaker HyperPod란 무엇인가요?
Amazon SageMaker HyperPod 사용 시에는 기계 학습(ML) 인프라 구축 및 최적화와 관련된 획일적이며 번거로운 작업을 직접 처리할 필요가 없습니다. 또한 SageMaker의 분산 훈련 라이브러리로 사전 구성되어 있으므로 1,000개가 넘는 AI 액셀러레이터에서 훈련 워크로드를 자동 분할할 수 있습니다. 따라서 워크로드를 병렬로 처리하여 모델 성능을 개선할 수 있습니다. SageMaker HyperPod는 체크포인트를 주기적으로 저장하므로, FM 훈련을 중단하지 않고 계속 진행할 수 있습니다. 하드웨어 장애 발생 시 이를 자동으로 감지하고, 결함이 있는 인스턴스를 복구 또는 교체하고, 마지막으로 저장한 체크포인트에서 훈련을 재개하므로 이러한 프로세스를 수동으로 관리할 필요가 없습니다. 복원력이 뛰어난 환경을 통해 분산 환경에서 중단 없이 몇 주 또는 몇 달 동안 모델을 훈련시킬 수 있으므로 훈련 시간을 최대 40% 절약할 수 있습니다. 또한 SageMaker HyperPod는 고도로 사용자 지정할 수 있으므로 FM 워크로드를 효율적으로 실행 및 확장하고 대규모 훈련에서 추론에 이르는 다양한 워크로드 간에 컴퓨팅 용량을 쉽게 공유할 수 있습니다.
SageMaker HyperPod의 이점
고성능 분산 훈련 라이브러리
SageMaker의 분산 훈련 라이브러리를 사용하면 확장성이 뛰어나고 비용 효율적인 사용자 지정 데이터를 병렬로 실행하고 병렬 딥 러닝 훈련 작업을 모델링할 수 있습니다. SageMaker HyperPod는 SageMaker 분산 라이브러리로 사전 구성됩니다. 단 몇 줄의 코드로 훈련 스크립트에서 데이터 병렬 처리를 활성화할 수 있습니다. SageMaker HyperPod를 사용하면 모델과 훈련 데이터 세트를 여러 AWS GPU 인스턴스에 자동으로 분할하여 분산 훈련을 더 빠르게 수행할 수 있습니다.
확장성 및 최적화된 리소스 활용
일관된 Kubernetes 기반 관리자 환경을 통해 SageMaker HyperPod 클러스터를 관리하고 운영할 수 있습니다. 이를 통해 훈련, 미세 조정, 실험, 추론에 이르기까지 FM 워크로드를 효율적으로 실행하고 확장할 수 있습니다. 컴퓨팅 용량을 쉽게 공유하고 다양한 유형의 워크로드에 대해 Slurm과 EKS 간을 전환할 수 있습니다.
자동 클러스터 상태 확인 및 복구
훈련 워크로드 중에 인스턴스에 결함이 생기면 SageMaker HyperPod가 결함이 있는 노드를 자동으로 탐지하여 정상 노드로 교체합니다. 결함이 있는 하드웨어를 탐지하기 위해 SageMaker HyperPod는 정기적으로 GPU 및 네트워크 무결성에 대한 일련의 상태 확인을 실행합니다.
워크로드 일정 지정 및 오케스트레이션
Slurm 또는 Amazon EKS를 사용하여 SageMaker HyperPod 사용자 인터페이스를 고도로 사용자 지정할 수 있습니다. 필요한 프레임워크 또는 도구를 선택하여 설치할 수 있습니다. 모든 클러스터는 사용자가 선택한 인스턴스 유형과 개수로 프로비저닝되며 워크로드 전체에서 사용할 수 있도록 유지됩니다.
성능 향상을 위한 고급 관찰성
SageMaker HyperPod에서 기본 제공된 ML 도구를 사용하여 모델 성능을 개선할 수 있습니다. 예를 들어 TensorBoard가 포함된 Amazon SageMaker를 사용하면 모델 아키텍처를 시각화하여 컨버전스 문제를 식별하고 해결함으로써 개발 시간을 절약할 수 있으며, Amazon SageMaker Debugger는 실시간으로 지표를 캡처하고 훈련 작업을 프로파일링합니다. Amazon CloudWatch Container Insights와 통합하면 클러스터 성능, 상태 및 사용률에 대한 심층적인 인사이트를 얻을 수 있습니다.