
이슈분석
이슈분석
[이슈분석 252호] 데이터센터의 서비스 동향 및 시사점
- 국가 주요국
- 주제분류 핵심R&D분야
- 발간일 2023-12-08
- 권호 252
1. 데이터 센터(Data Center) 개요
□ 데이터 센터(Data Center)*는 ICT서비스 제공에 필요한 장비를 통합/관리하여 24시간 무중단 서비스를 제공하는 시설 또는 데이터의 풀필먼트(Fulfillment) 센터
* 지능정보화법 기본법 제40조: 지능정보서비스의 제공을 위하여 다수의 초연결 지능정보통신기반을 일정한 공간에 집적시켜 통합 운영・관리하는 시설
ㅇ 데이터 센터가 제공하는 서비스는 데이터의 백업 및 복구, 클라우드, AI연산, 영상 스트리밍 등으로써 물류에서의 풀필먼트(Fufillment)* 서비스 과정과 유사
* 풀필먼트(Fulfillment) : 물류 전문업체가 판매자의 위탁을 받아 제품을 고객에게 배달 완료까지 상품의 입고/보관/제품선별/포장/배송/교환환불서비스 등의 물류 일괄 대행서비스
- 풀필먼트 서비스에서 상품(또는 제품)을 데이터로 대체하면 데이터 센터의 역할과 물류의 풀필먼트 센터 역할은 서로 1:1 매칭이 가능
- 또한, 물류에서 반출 빈도가 낮은 상품에 대해 물류센터 내에서 위치조정이 이루어지듯이 데이터 센터에서는 데이터 사용 빈도에 따라 콜드 스토리지(Cold Storage)*/핫 스토리지(Hot Storage)**로 분류되어 저장
* Cold Storage : 오래된 기록, 프로젝트, HR자료 등 몇 개월 ~ 몇 년 동안 엑세스가 필요없는 데이터를 저장, 주요 저장 매제는 HDD 또는 자기 테이프 LTO(Linear Tape-Open)
** Hot Storage : 웹콘텐츠 등 활용빈도가 높고 빠른 엑세스가 필요한 데이터를 저장, 주요 저장 매체는 HDD, SSD, 또는 NVMe 등이 활용
ㅇ 데이터 센터는 서버, 스토리지, 네트워크, UPS, 공조시설 등으로 구성되어 설비 구성에 따라 등급이 존재
- 데이터 센터의 등급은 Uptime Institute에 의해 가동률(Uptime)과 정지시간(Downtime), 전력 및 냉각설비의 이중화 등에 Tier1~4로 구분
※ ANSI/TIA-942에 의한 등급은 Rated - 1, 2, 3, 4로 구분되나 Uptime Institute에 의한 구분이 통용
ㅇ 데이터 센터는 전력(Power)/네트워크(Network)/시스템(SW, IT system)/냉각(Cooling)이 핵심시설임과 동시에 고장빈도가 높은 시설
- 데이터 센터의 주요 고장원인은 전력 → 시스템에러/네트워크/냉각 → 서버 호스팅 사업자 → 보안 → 화재 순으로 전력/시스템/네트워크/냉각 부분이 전체 고장 원인의 85%를 차지
ㅇ 데이터 센터 내부 공간은 네트워크 계층과 배선 공간 등을 고려하여 MDA/HDA/ZDA 등으로 분할되어 운영 및 통제
※ ANSI/TIA-942-2005 Standard
- MDA*는 라우터/백본망/LAN/SAN Switch 등으로, HDA**는 Lan/SAN/KVM 스위치 등으로 구성
* Main Distribution Area
** Horizontal Distribution Area
2. 데이터 센터 네트워크 동향
□ 데이터 센터 네트워크는 리프-스파인(Leaf-Spine) 토폴로지 구조가 토대, 최근 컴포저블 인프라(Composable Infrastructure) 기반의 데이터 센터가 대두
ㅇ 데이터 센터 네트워크 토폴로지는 리프-스파인 구조를 토대로 다양한 구조가 진화
- 네트워크 토폴로지는 확장성(scalebility), 소비전력, HW이중화, 소비전력, 대역폭, 스위치 개수, 오버서브스크립션(Oversubscription), 배선, 비용과 활용 목적 및 규모에 따라 다양한 토폴로지* 구조가 제안
* Fat-Tree, Dcell, Bcube, Full Mesh Topology 등
ㅇ 네트워크 기본 구조는 Access/Aggregation/Core layer 3계층으로 구분
- Access 계층에서는 서버 랙(Rack)과 네트워크 스위치의 관계 구성에 따라 ToR/MoR/EoR 스위치가 존재
- 서버에서 ToR 구간(L2*)은 Access 계층, ToR(또는 Router)에서 Core(L3**)는Aggregation 계층, Core에서 외부망과 연결되는 구간 Core 계층
* L2 : Data Link Layer(Mac Address 기반), ** L3 : Network Layer(IP Address기반)
- Fat-Tree 네트워크 구조인 경우, 데이터센터 소비전력은 서버보다 Aggregation 계층의 스위치 소비전력이 50%이상 차지
ㅇ 데이터 센터의 전력 절감과 최적의 로드 밸러싱을 위해 컴포저블 인프라(Composable Infrastructure) 기반의 데이터 센터가 시장 확대 전망
- AI 연산에 대한 서버의 부담이 갈수록 증가하고, AI연산에 대응하는 가속기, GPU, CPU 간 메모리의 캐시 일관성 문제로 내부 데이터 전송 효율이 저하
- ToR 스위치를 제거하고, 서버, 스토리지 어레이, 네트워크 장비를 랙 단위로 구성하고, CXL 인터페이스 등의 고속의 인터커넥션을 활용 랙 내 리소스를 가상 리소스로 통합 관리하여 다양한 작업 로드에 유연 대응
- 컴포저블 인프라 데이터센터 시장은 ’23년 4.79B → ’28년 11.3B로 2배 이상 확대 전망
□ 데이터 센터 내 대역폭의 근간은 네트워크 스위치, 광커넥트는 CPO로 전환 전망
ㅇ 네트워크 스위치 대역폭은 ’24년을 분기점으로 800G가 400G 점유율 우위 전망
- 네트워크 대역폭은 계층 구간별로 현재 100~400G가 주류로 활용되고 있고, 향후 200~800G 대역폭이 도입될 전망
- LLM* 등 AI/ML의 수요 증가로 클라우드 데이터센터 대역폭은 ’24년 이후, 800G가 데이터센터 스위치 대역폭의 주류로 형성 전망
* LLM : Large Language Model
ㅇ Beyond 1.6T를 향해, CPO는 Pluggable Optics 시장을 대체 전망
- Broadcom, Tencent 등 CPO 솔루션을 개발, 최근 OIF*는 3.2T CPO 모듈 개념을 발표(’23.3)하고 Synopsys는 CPO에 대응 가능한 시뮬레이션 설계 툴 Optocompiler 출시
* OIF(Optical Internetworking Forum) : 광통신 장비 제조업체, 사용자, 서비스 제공자들이 협력하여 광통신망의 상호 운용성에 대한 요구사항을 개발, 문제점을 해결하는 장을 마련하는 준 표준화 기관
□ 반도체 공정의 지속적인 발전과 네트워크 스위치 대역폭 발전은 상호 불가분 관계
ㅇ 광 모듈에 활용되는 DSP, SerDes 등의 성능 향상에는 반도체 미세 공정이 근간
- ’23년 5nm 100G SerDes 800G → 3nm 200G SerDes 1.6T가 ’25년에 초기 시장을 형성할 전망
- 데이터 센터 내 스위치(Switch) 대역폭은 2년마다 2배의 성능 향상과 소재 부품 등 기술력 발전으로 대역폭당 스위치 장비 가격은 15년 간 1/100 이상 (’08 vs ’22) 가격하락
3. 데이터 센터 연산 반도체 동향
□ 생성형 AI의 출현으로 학습 연산을 위해 데이터 센터에서 AI 반도체 중요도가 증가하고 이에 따른 막대한 전력 소비에 대응하는 AI 반도체가 필요
ㅇ 수 조개에 이르는 AI 변수 연산 처리를 위해, 데이터 센터에서의 연산이 확대
- 미래 데이터 센터 설계 시 가장 영향력 있는 요소는 AI/Machine Learning
- AI 연산으로 데이터 센터의 소비전력은 ’20년 글로벌 비중 1% → ’23년 1.5%로, ’30년에는 2%로 증가 전망
- 이는 연산 및 스토리지 반도체의 전성비(전력 vs 성능)의 필요 및 중요성이 증대
ㅇ 거대 데이터 센터 운영기업 Amazon, Google, MS, Meta 등 AI 반도체 자체 개발
- 클라우드 서버에서의 AI 연산 대응을 위해 추론 및 학습용 AI 가속기 자체 개발
ㅇ NVIDIA, 데이터 센터의 AI 연산 반도체 시장 공략을 위한 다양한 솔루션 출시
- 자사의 하이엔드 GPU H100과 ARM기반의 CPU를 결합한 칩(GH200 Grace Hopper Superchip*), 대용량 AI 연산과 HPC에 대응
* 72개의 ARM CPU코어, 소비전력 최대 1,000W(Memory+GPU+CPU), 144GB HBM3e, 4petaFLPS
- GH200 Grace Hopper Superchip 256개를 연결, 초거대 AI에 대응 가능한 슈퍼컴 DGX DGH200*을 출시(’23.5)
* 소비전력 2kW, 서버 간 Switch Spectrum-4(64×800GbE) 자체 개발, 광섬유 활용
ㅇ 데이터 센터 CPU는 CISC 방식 → 저전력 RISC 기반 CPU 도입으로 클라우드 랙(Rack) 서버의 다양성을 추진
- 이에 따른 Intel의 데이터 센터 서버 시장에서의 CPU 시장 지배력이 점차 감소세
- Amazon, MS, NVIDIA는 ARM 기반의 데이터센터용 CPU 자체 개발
ㅇ Intel과 AMD는 CPU 설계력을 바탕으로 AI 가속기를 칩렛 구조(CPU+GPU+Memory)로 집적한 데이터센터용 칩 개발
- Intel은 Saphire Rapids에 3종류의 가속기(AI, 스토리지 엑세스, DB)를 CPU 주변에 배치하고, AMD는 1개의 CPU와 3개의 GPU, HBM을 칩렛 구조로 AI 연산에 대응
4. 데이터 센터의 친환경 산업 동향
□ 거대 전력을 소비하는 주체에서 에너지를 생산하는 일원으로, 에너지 선순환의 가치사슬의 한 축으로 전환 중
ㅇ 지역의 난방 관련 에너지 기업 등과 협력하여 데이터 센터의 폐열을 활용하는 사례가 확산 중
- 주로 기온이 낮은 북유럽의 노르웨이, 스웨덴, 덴마크 등을 중심으로 활용
□ 친환경 에너지 활용으로 PUE* 1.0을 향한 다양한 시도가 진행 중
* Power Usage Effectiveness
ㅇ 데이터 센터 외부 공급 전력을 줄이기 위한 바다, 강, 태양열 등을 활용
- 마이크로소프트와 Subsea Clould, Highlander Digital Technology 등은 해저 데이터 센터 구축을 추진하고, Nautilus는 강물을 쿨링냉매로 활용
ㅇ 데이터 센터 냉방은 공조(Air Cooling)에서 수냉식(Liquid Cooling) 냉각 방식으로 향후 주류가 될 것으로 전망
- 데이터 센터의 사용 전력 중 열 관리에 소요되는 전력 비중이 약 40%로써, 생성형 AI 연산 등에 따른 CPU/GPU의 열관리 부담 증가로 수냉식 냉각 방식에 대한 수요 증가 전망
- 데이터 센터 서버 냉각 방식은 공조(Air Cooling)에서 액침냉각 방식(Immersion Cooling)으로의 전환은 태동기
※ 액체의 종류 및 냉각 방식에 따라 단상(Single Phase), 2상(Two Phase), D2C(Direc-to-Chip) 방식 등이 액침냉각 방식을 주도
※ 액침냉각 방식은 공조방식에 비해 동일 서버 개수에 비해 필요 공간과 랙(Rack)당 수용 가능 전력밀도가 5배 이상으로 우수
※ D2C 방식의 경우, 액체 냉매와 열원소스의 열교환 효율 극대화를 위한 3D 프린팅 기법을 적용, 열 교환이 우수한 콜드 플레이트 구조*가 연구
* 기존 방식(Microchannel) 대비 35% 성능 향상
- 메타(Meta)는 쿨링 솔루션 스타트업 Iceotope와 협업, CPU 및 스토리지에 대해 액침냉각 방식(Single Phase)을 솔루션을 적용 연구하고, 공조 방식에 비해 액침냉각 방식이 스토리지 냉각에 균일한 온도 분포와 우수한 냉각효과를 증명(’22)
- 미국 에너지부(DoE)는 데이터 센터 냉각 소비 전력 비중을 3%로 낮추기 위한 4,000만 달러 규모의 15개 연구 프로젝트 추진(’23.5)
5. 시사점 및 결론
ㅇ 탄소 배출 세계 10위인 국내 환경을 고려하여, 데이터 센터의 전력 에너지 선순환을 위한 정부의 적극적인 정책적 유도가 필요
- 데이터 센터의 폐열 활용을 위해 데이터 센터 사업자와 에너지 생산 관련 기업, 또는 폐열 활용성이 높은 산업 등으로 데이터 센터 폐열 활용 촉진책이 필요
- 에너지 분산법에 따른 데이터 센터의 수도권* 외 구축과 농업의 결합은 신재생 에너지의 활용성과 RE100을 위한 대안
* 국내 수도권 데이터 센터 구축 비용은 글로벌 대비 13위에 해당
ㅇ 저발열 반도체 소자(Semiconductor device) 및 관련 소재 부품 육성이 시급한 과제
- 데이터 센터 내 전력소비는 냉각 장비 가동이 40% 이상 차지하고 이는 반도체 부품의 발열에 기인
- 저전력/저발열로 정보의 연산 및 저장이 가능한 상온 스핀트로닉스(Spintronics), 그래핀 등 다양한 첨단 소재 및 소자 개발에 지속적인 연구개발 지원이 필요
ㅇ 데이터 센터에 대한 대국민 인식개선과 안전성에 대한 지속적인 홍보가 필요
- 데이터 센터는 일반 국민에게 혐오 시설로 인식되어 인근 주민들의 반대 등 인식개선이 필요
- 데이터 센터 건축의 기술력 강화는 국내 건설사들에게 제2의 성장동력의 기회
정보통신기획평가원 권요안 수석