주요동향 : S&T GPS

테슬라, 슈퍼컴퓨터 ‘도조’ 가동, 향후 로보택시 등 가치 창출 기대 원문보기 1

□ ‘도조(Dojo)’, 엔비디아 A100 GPU 대비 성능 4배…로보택시 등 가치 창출 기대

ㅇ 도조는 자율주행(FSD: Full Self Driving) 시스템을 훈련시키기 위해 테슬라에서 직접 인하우스(In-house)로 만들어낸 슈퍼컴퓨터

※ 무술을 훈련하는 곳을 의미하는 일본어 ‘도조(どうじょう/道場)’의 발음을 그대로 따온 것으로 인공지능 시스템을 만들기 위해 데이터를 트레이닝, 즉 훈련하는 곳이라는 의미

- 매년 이벤트를 개최하며 사업 구상과 전략을 공개하는 테슬라는 2021년 AI Day에서 도조에 대한 구상을 처음 소개

- 도조의 핵심은 테슬라가 자체 설계한 AI 반도체 ‘D1’으로 테슬라의 자율주행 AI 학습･구동에 특화되어 성능과 효율을 극대화하는 중추 역할 담당

- D1은 25개 칩이 모여 트레이닝 타일을 만들고 6개의 타일이 시스템 트레이를 구성, 2개 트레이가 도조 캐비넷(300개 칩)을 이루고 10개 캐비넷(총 3,000개칩)으로 이루어진 ExaPod 완성

- 50만 개 노드를 동시에 처리하며 초당 36TB의 속도로 데이터 처리. 고성능 유지를 위해 전원공급 역시 개별 프로세서에 직접 공급하는 통합 구조

- 초당 100경 번 연산이 가능한 1.1엑사플롭스(Exa Flops)급 성능을 갖춘 D1은 슈퍼컴퓨터 도조를 구동하며 테슬라 자율주행 AI의 두뇌 역할

※ 1엑사플롭은 100경 회의 부동소수점 연산을 1초 안에 처리할 수 있는 성능

ㅇ 테슬라의 내부 평가에 따르면 도조는 기존 엔비디아 GPU 기반의 자율주행 AI보다 최대 30배 이상 빠르며, AI 훈련 기간은 4분의 1 수준으로 단축(모건스탠리 자료)

※ 엔비디아 GPU는 범용 AI 칩으로 그 중 A100이 도조와 동급인 7나노로 생산되면서 비교 대상으로 거론

- 부피가 작아 서버에 필요한 물리적 공간을 5분의 1까지 줄었고, 생산･운영 비용은 GPU 대비 6분의 1 수준. 테슬라는 도조의 ‘1달러당 성능’이 엔비디아 GPU의 약 4배라고 분석

- 데이터 라벨링 과정 없이 스스로 학습하기 때문에 FSD v12에서는 GPU로 1개월 걸리던 것을 일주일도 채 안 되어 처리 가능

- 100엑사플롭을 처리할 수 있게 도조 슈퍼컴퓨터를 구성하고, 동일하게 A100 GPU로 처리할 수 있게 구성했을 때의 비용을 비교했을 때, 최대 65억 달러(8.5조 원)까지 절감 가능할 것으로 분석

ㅇ 도조는 FSD 플랫폼, ADAS 애플리케이션, 옵티머스 휴머노이드의 신경망을 훈련하는 슈퍼컴퓨터로 활용될 예정

- 도조는 Muskonomy(머스크노미)의 핵심이 될 수 있는 역량

- 테슬라는 도조의 AI 기술을 휴머노이드 로봇 ‘옵티머스’에 동일하게 적용

※ 휴머노이드 로봇의 ‘두뇌’는 Tesla 차량에 있는 동일한 자율시스템을 통해 정보 교환