메타 AI 하드웨어 랩 내부: GPU 랙, 액체 냉각, 광 인터커넥트의 현실
이 글은 The Hottest Job in the Market: Inside Meta’s AI Hardware Lab | Joshua Held and Yashar Bayani 대화 내용을 바탕으로, 혼자 학습하기 쉬운 형태로 재구성한 한글 요약이다.
원문은 인터뷰 형식이므로, 여기서는 주제별 구조와 흐름별 정리를 함께 제공한다.
한눈에 보는 핵심
이 대화의 핵심은 단순하다.
AI 경쟁력은 GPU 칩 한 장이 아니라, 그 GPU를 실제로 대규모로 굴리게 만드는 하드웨어 시스템 전체에서 나온다.
여기서 말하는 시스템 전체에는 다음이 모두 포함된다.
- GPU 랙 설계
- 전력 공급
- 냉각 방식
- 구리/광 인터커넥트
- 제조 품질 관리
- 운송과 배치
- 장애 대응과 유지보수
- CPU, 메모리, 스토리지, 네트워크의 균형
메타의 두 리더는 “예전에는 하드웨어와 인프라를 오래 만들어도 크게 주목받지 않았지만, AI 시대가 오면서 이 역할이 회사의 성패를 좌우하는 최전선이 되었다”고 말한다.
Table of contents
1. 왜 지금 하드웨어 엔지니어가 중요한가
2. 메타의 AI 하드웨어 랩은 어떤 곳인가
2.1 5년 뒤 장비를 미리 만드는 이유
2.2 CPU/스토리지 서버에서 GPU 랙으로의 진화
3. 메타가 자체 서버를 만들기 시작한 배경
3.1 외부 벤더 구매에서 자체 설계로
3.2 Freedom 서버와 Prineville 데이터센터
4. GPU 인프라가 어려운 이유
4.1 8 GPU 트레이에서 72 GPU 랙으로
4.2 스케일업/스케일아웃의 복잡성
4.3 공랭에서 액체 냉각으로
5. ALC(Air-Assisted Liquid Cooling)란 무엇인가
6. 제조와 유지보수는 왜 더 어려워졌는가
7. 지금 가장 큰 병목은 무엇인가
7.1 전력
7.2 냉각
7.3 신호 무결성
7.4 광 인터커넥트
8. GPU만으로는 안 된다: CPU/메모리/스토리지/네트워크의 재부상
9. 커리어 이야기: 두 리더는 어떻게 이 자리에 왔나
10. 학생과 엔지니어에게 주는 조언
1. 왜 지금 하드웨어 엔지니어가 중요한가
인터뷰의 첫 장면은 상징적이다. 발표자들은 “예전에는 하드웨어와 인프라를 만들어도 아무도 크게 관심을 두지 않았는데, 이제는 회사의 성패를 좌우하는 역할이 되었다”고 말한다.
이 말이 뜻하는 바는 분명하다.
- AI 모델 성능 경쟁은 이제 소프트웨어만의 문제가 아니다.
- 실제로 대규모 학습과 추론을 굴릴 수 있는 인프라가 없으면 GPU를 많이 사도 의미가 없다.
- 하드웨어, 전력, 냉각, 네트워크, 제조 역량이 모두 제품 경쟁력으로 직결된다.
한 발표자는 이 변화를 “creative awakening”이라고 표현한다. 예전에는 공랭 기반 장비를 잘 포장하고 배치하는 일이 중심이었다면, 이제는 완전히 새로운 종류의 문제를 풀어야 하는 시대로 넘어왔기 때문이다.
2. 메타의 AI 하드웨어 랩은 어떤 곳인가
이 대화는 메타의 한 하드웨어 랩에서 진행된다. 이 공간은 단순한 테스트룸이 아니라, 향후 수년 뒤에 실제로 배포될 하드웨어를 선행 검증하는 프로토타이핑 공간이다.
발표자들이 강조한 포인트는 다음과 같다.
- 냉각, 기구, 전기, 백플레인 같은 기술은 산업계의 양산 역량보다 훨씬 앞서 준비해야 한다.
- 메타는 5년쯤 앞을 내다보고 미래 하드웨어를 실험한다.
- 이 랩에는 여러 시스템과 여러 벤더의 프로토타입이 함께 놓여 있다.
즉, 이곳은 “현재 돌아가는 장비를 보는 곳”이라기보다, 다음 세대 데이터센터가 어떤 모습이어야 하는지를 미리 검증하는 공간이다.
3. 방 안에 있는 장비들이 보여주는 것
발표자들은 방 안의 장비를 보며 메타 인프라의 진화를 설명한다.
왼쪽에는 비교적 단순한 컴퓨트/스토리지 서버가 있고, 오른쪽으로 갈수록 더 복잡한 GPU 시스템이 놓여 있다.
이 대비가 보여주는 것은 다음과 같다.
- 초기 서버는 1U/2U 수준의 단순한 박스형 구조였다.
- 목표는 빠른 배포, 빠른 수리, 높은 가용성이었다.
- 이런 CPU/스토리지 서버는 이미 오랫동안 최적화되어 왔다.
- 반면 GPU 랙은 기계적, 전기적, 신호 무결성 측면에서 훨씬 복잡하다.
- 오른쪽으로 갈수록 액체 냉각 장비와 대형 열교환 구조가 등장한다.
즉, 한 공간 안에 메타의 지난 10년 이상 인프라 진화가 물리적으로 전시되어 있는 셈이다.
4. 메타가 자체 서버를 만들기 시작한 이유
메타는 처음부터 자체 서버를 만든 것이 아니다. 한때는 Dell, HP 같은 일반적인 외부 벤더 장비를 구매해서 colocated 데이터센터에 배치했다.
그런데 어느 시점부터 직접 만드는 편이 더 합리적이 되었다.
4.1 전환의 배경
- 서버 수요가 커졌다.
- 규모가 커지면서 외부 장비 구매의 경제성이 떨어졌다.
- 자사 서비스 특성에 맞춘 최적화 여지가 컸다.
- 불필요한 부품을 빼면 비용 절감 효과가 분명했다.
4.2 초기 자체 서버: Freedom
발표자에 따르면 메타가 처음 만든 서버 중 하나는 Freedom이라는 단순한 2소켓 기반 서버였다.
핵심 아이디어는 명확했다.
- 필요한 것만 남긴다.
- 필요 없는 부품은 덜어낸다.
- 서비스 관점에서 가성비가 높은 구조를 만든다.
당시에는 수백만 달러 수준의 절감도 매우 큰 의미가 있었다고 한다.
4.3 자체 데이터센터까지 확장
그다음 단계는 데이터센터 자체를 짓는 것이었다. 발표자는 Prineville이 메타의 첫 데이터센터였다고 언급한다. 이 시기 하드웨어팀은 매우 작은 규모였고, 소수 인원이 서버를 설계하고 데이터센터팀과 함께 실제 배포까지 연결했다.
5. 초기 서버 전략은 어떻게 발전했나
초기 메타의 주요 워크로드는 웹과 데이터베이스였다. 그래서 서버도 그 목적에 맞게 나뉘었다.
- 고메모리형 서버
- 고플래시형 서버
- 고스토리지형 서버
이 서버들은 대부분 베어메탈 환경에서 돌아갔고, 서비스 특성에 맞춰 최적화되었다.
이후 메타는 점차 다음 영역으로 확장했다.
- 자체 스토리지 서버
- 자체 네트워크 서버
- 자체 AI 서버
발표자의 표현대로 보면 지금은 거의 엔드투엔드로 직접 만든다고 해도 무리가 없다.
6. GPU 인프라의 가장 큰 변화
발표자들이 꼽는 가장 큰 변화는 8 GPU 트레이 수준의 시스템에서 72 GPU 랙 수준의 시스템으로 넘어간 것이다.
이건 단순히 GPU 개수가 늘어난 문제가 아니다.
- 랙 전체가 하나의 시스템처럼 동작해야 한다.
- 스케일업 네트워크와 스케일아웃 네트워크가 모두 중요하다.
- 기구 설계, 전력 분배, 케이블링, 열 설계가 한 번에 어려워진다.
- 장애가 생겼을 때 영향 범위도 훨씬 커진다.
예전에는 “서버 한 대”를 다뤘다면, 지금은 “랙 전체”가 사실상 하나의 컴퓨터처럼 느껴지는 상황에 가깝다.
7. 공랭에서 액체 냉각으로의 전환
GPU 세대가 올라가면서 공랭만으로는 한계가 명확해졌다.
발표자들은 H100 시기에도 액체 냉각 이야기가 있었지만, 당시 산업계가 준비되지 않아 공랭형으로 되돌아간 적이 있다고 언급한다. 이후 GB200, GB300 같은 세대로 오면서 액체 냉각은 사실상 피할 수 없는 방향이 되었다.
그 이유는 간단하다.
- GPU 전력 밀도가 너무 높아졌다.
- 랙당 열 발생량이 급격히 증가했다.
- 공랭만으로는 안정적이고 효율적인 제거가 어려워졌다.
8. ALC(Air-Assisted Liquid Cooling)는 무엇인가
메타가 강조한 중요한 개념 중 하나가 ALC다.
이는 기존 공랭 데이터센터를 전면 개조하지 않고도 액체 냉각 GPU 랙을 넣기 위한 보조 시스템이다.
8.1 왜 필요했나
기존 데이터센터는 일반적인 컴퓨트 용도로 지어졌고, 액체 냉각을 전제로 설계되지 않았다.
- 건물 차원의 대규모 개조는 비싸고 느리다.
- AI 랙은 빨리 들여와야 한다.
- 기존 데이터센터 자산을 활용하는 편이 현실적이다.
그래서 메타는 랙 단위로 열을 처리하는 중간 해법을 만든다.
8.2 어떻게 동작하나
ALC는 기본적으로 랙형 열교환기다.
- 펌프가 냉각수를 순환시킨다.
- GPU 쪽에서 받은 열을 액체가 운반한다.
- 대형 라디에이터에서 액체의 열을 공기로 넘긴다.
- 그 열은 데이터센터의 핫아일과 배기 경로로 빠져나간다.
즉, “랙 크기의 액체 냉각 시스템”이라고 이해하면 된다.
8.3 구조적으로 특별한가
발표자 설명에 따르면, 이 시스템은 Open Compute 기반의 표준 랙 계열을 크게 벗어나지 않는다. 다만 내부에 액체 냉각 관련 구조가 추가된 변형이라고 볼 수 있다. 무게 증가도 있었지만 구조적으로는 감당 가능한 범위였다고 한다.
9. 액체 냉각에서 가장 무서운 것: 누수
액체 냉각을 도입할 때 가장 먼저 떠오르는 리스크는 역시 누수다.
발표자들도 이를 매우 큰 걱정거리로 언급한다.
- 기존 공랭 데이터센터에는 배수 설비가 없다.
- 원래는 물이 들어올 것을 가정하지 않았다.
- 작은 누수도 전자 장비에는 치명적일 수 있다.
그래서 메타는 두 가지를 함께 설계했다.
- 냉각 루프 자체의 복원력
- 누수를 감지하는 센서 체계
이들은 대규모 센서 시스템으로 냉각수 누출을 빠르게 탐지하고, 데이터센터 운영팀이 신속히 대응할 수 있게 만들었다고 한다.
물론 규모가 커지면 예상치 못한 문제는 여전히 발생한다. 다만 지금은 운영팀이 이런 문제를 빠르게 격리하고 장비를 보호하는 프로세스를 갖추는 것이 중요해졌다.
10. 제조 난이도는 왜 폭발적으로 올라갔는가
발표자들이 반복해서 강조한 주제 중 하나는 제조다.
과거에는 대부분의 것이 서버 박스 안에 들어 있었다.
- PCB
- CPU
- 메모리
- 기타 구성품
하지만 지금은 시스템이 랙 전체로 펼쳐져 있다.
- 백플레인
- 플라이오버 케이블
- 수천 개의 미세 커넥터
- 여러 개의 컴퓨트 트레이
- 스위치
이 상태에서 아주 작은 오차도 큰 문제로 이어질 수 있다.
10.1 신호 무결성 문제
커넥터가 아주 조금만 어긋나도 신호 무결성 문제가 생긴다. 이 문제는 제조 시점엔 미세해 보일 수 있지만, 실제 운영 환경에서는 큰 장애로 돌아온다.
그래서 제조 공정 자체가 더 정밀해졌다.
- 광학 검사 시스템 사용
- 커넥터 상태의 세밀한 확인
- 조립 품질의 세분화된 관리
10.2 단순한 것들이 라인을 멈춘다
발표자들이 든 인상적인 예시는 다음과 같다.
- 커패시터 하나가 부족해도 수백만 달러짜리 랙 생산이 멈출 수 있다.
- 눈에 보이지 않는 먼지 하나가 커넥터 접점을 망쳐 전체 랙을 다시 분해해야 할 수 있다.
이 말은 곧, AI 인프라 경쟁에서 “첨단 GPU 확보”만큼이나 공급망과 제조 품질 관리가 중요하다는 뜻이다.
11. 유지보수의 단위도 바뀌었다
과거에는 서버 한 대를 빼고 수리하면 되는 일이 많았다. 지금은 장애 단위가 훨씬 다양하다.
- GPU 한 장
- 컴퓨트 트레이 하나
- 스위치
- 백플레인
- 심하면 랙 전체
발표자 설명을 정리하면 다음과 같다.
- GPU 고장: GPU 또는 컴퓨트 트레이 단위 교체 가능
- 백플레인 고장: 랙 전체를 내리고 교체해야 할 수 있음
- 스위치 고장: 여러 GPU에 동시에 영향, 스케줄링까지 고려 필요
즉, 유지보수는 이제 하드웨어 작업만이 아니라 운영 정책과 자원 스케줄링까지 묶인 문제가 되었다.
12. 앞으로의 핵심 기술 과제
발표자들은 앞으로의 주요 과제로 크게 네 가지를 짚는다.
12.1 전력
가장 강하게 강조된 병목은 전력이다.
- GPU 한 장당 전력 소모가 매우 크다.
- 랙당 전력 사용량이 200kW에서 최대 1MW 수준까지 갈 수 있다.
- 예전에는 랙당 15kW도 큰 이슈였는데, 지금은 비교가 안 되는 수준이다.
데이터센터의 쉬운 전력 자원은 이미 많이 소진되었고, 이제는 더 창의적으로 전력을 확보해야 하는 상황이라고 한다.
12.2 냉각
전력이 커지면 열도 커진다. 결국 전력과 냉각은 거의 같은 문제의 다른 표현이다. GPU를 더 많이, 더 가까이, 더 높은 밀도로 배치할수록 냉각은 점점 더 핵심 제약이 된다.
12.3 신호 무결성
GPU를 많이 묶으려면 인터커넥트가 촘촘해져야 한다. 하지만 연결이 복잡해질수록 신호 무결성 확보가 더 어려워진다. 이건 단순한 네트워크 문제가 아니라, 기계적 조립과 제조 품질까지 이어지는 문제다.
12.4 구리의 한계와 광 인터커넥트
발표자들은 구리의 실질적 한계를 대략 1.5m 정도로 언급한다. 그 이상 가면 신호 품질 문제가 커진다.
그렇다면 더 큰 GPU 풀을 어떻게 만들까?
- GPU를 더 가까이 모은다.
- 랙 구조를 바꾼다.
- 결국 광 인터커넥트를 써야 한다.
하지만 광은 아직 문제가 많다.
- 구리보다 훨씬 비싸다
- 더 고장 나기 쉽다
- 전력도 더 먹는다
그래서 메타는 표준 랙 기반의 운영 효율을 유지하면서도, 장기적으로는 광 인터커넥트 방향을 강하게 밀고 있는 것으로 보인다.
13. GPU만으로는 안 된다: CPU, 메모리, 스토리지, 네트워크의 복귀
인터뷰 중 흥미로운 지점은 발표자가 “CPU를 무시하지 말라, 이제 CPU도 다시 뜨거워지고 있다”고 말한 부분이다.
이 말의 배경은 분명하다.
- 강력한 GPU만 있어도 데이터가 못 들어오면 의미가 없다.
- 스케일업/스케일아웃 네트워크가 부족하면 GPU는 놀게 된다.
- 스토리지 공급이 약하면 학습 파이프라인이 막힌다.
- CPU와 메모리 비율이 맞지 않으면 전체 시스템 효율이 떨어진다.
즉, 메타는 GPU 랙만 설계하는 것이 아니라, 그 랙이 실제로 최대 활용률을 내도록 지원 계층 전체를 함께 설계한다.
발표자들은 경우에 따라 다음 같은 구성 가능성도 언급한다.
- CPU, 메모리, 컴퓨트를 더 분리된 형태로 배치하는 방식
- GPU 랙 안에 스토리지를 함께 넣는 방식
결국 정답은 하나가 아니라, 워크로드의 I/O, 메모리 요구량, CPU 비율에 따라 달라진다.
14. 지금 가장 뒤처진 계층은 무엇인가
“스토리지, CPU, 네트워크 중 어느 계층이 가장 뒤처져 있고 가장 힘든가?”라는 질문에 대해, 발표자는 하드웨어 설계 관점에서 광 기반 스케일아웃을 가장 밀어야 할 부분으로 본다.
이유는 다음과 같다.
- 메타는 표준화된 랙 크기와 운영 체계를 유지하고 싶다.
- 제조, 운송, 설치, 전원 인가까지 이미 최적화된 구조를 버리고 싶지 않다.
- 그런데 더 큰 GPU 집적도를 만들려면 구리만으로는 부족하다.
따라서 향후 몇 년은 “광을 얼마나 싸고 안정적이고 전력 효율적으로 만들 수 있는가”가 중요한 경쟁 포인트가 될 가능성이 높다.
15. 메타가 진짜로 최적화하는 것은 랙 하나가 아니다
발표자들은 소프트웨어 엔지니어가 잘 체감하지 못하는 부분으로 하드웨어의 전 생애주기 최적화를 강조한다.
이 생애주기에는 다음이 모두 들어간다.
- 실리콘 제조와 수율
- 모듈 조립
- 시스템 통합
- 랙 통합
- 운송
- 데이터센터 설치
- 전원 인가와 초기 bring-up
- 수년간의 운영 안정성
즉, “잘 설계된 랙”은 그저 성능이 높은 랙이 아니라,
- 만들기 쉬워야 하고
- 실어 나르기 쉬워야 하고
- 빠르게 설치되어야 하며
- 오래 버텨야 하고
- 고장 났을 때 복구 가능해야 한다
는 뜻이다.
여기서 또 하나 중요한 포인트는 AI 장비의 감가상각 속도다. 발표자들은 비싼 GPU 랙일수록 가능한 빨리 가동 상태에 들어가야 한다고 말한다. 값비싼 장비가 놀고 있는 시간 자체가 큰 손실이기 때문이다.
16. 커리어 이야기: 두 발표자는 어떻게 여기까지 왔나
대화 후반에는 두 리더의 커리어 이야기가 나온다.
16.1 Yashar Bayani
- 캐나다 University of Waterloo 출신
- 2010년 초반 Facebook 인턴으로 합류
- 작은 하드웨어팀에서 자체 장비 개발 초기부터 참여
- 컴퓨트, 스토리지, 네트워킹, 매니지먼트까지 경험
- 사람과 팀을 성장시키는 역할에서 보람을 느낌
16.2 Joshua Held
- 베이 지역 출신
- San Jose State 졸업
- 통신장비, 케이블 모뎀, 비디오 장비 분야 경험
- Meta 입사 초기부터 GPU 시스템 관련 기계 엔지니어링에 참여
- 이후 관리 역할로 확장하며 팀 성장 지원
두 사람 모두 공통적으로 “원래부터 AI 스타 플레이어를 꿈꿨다”기보다는, 각자의 기초 역량과 현장 경험을 바탕으로 변화하는 산업 속에서 중요한 역할을 맡게 된 케이스에 가깝다.
17. CPU와 GPU는 결국 합쳐질까
흥미로운 질문 중 하나는 CPU와 GPU가 결국 하나로 수렴할지, 아니면 더 전문화된 칩으로 갈지에 대한 것이었다.
발표자들의 답은 조심스럽지만 공통점이 있다.
- CPU, GPU, 메모리는 모두 계속 중요한 역할을 가진다.
- 추론, 저지연 처리, 학습 등 워크로드에 따라 균형점이 달라진다.
- 특정 워크로드에 맞춘 특화 칩은 계속 등장할 수 있다.
- 하지만 전체 시스템 설계는 점점 더 통합적으로 봐야 한다.
즉, 칩은 분화될 수 있어도 시스템 관점에서는 더 강하게 결합되어 간다는 해석이 가능하다.
18. 결국 가장 큰 제약은 무엇인가
마지막에 가까워질수록 발표자들의 답은 점점 더 한 방향으로 모인다.
가장 큰 제약은 전력이다.
물론 메모리, 실리콘 공급, 냉각, 인터커넥트도 중요하다. 하지만 데이터센터 수준에서 보면,
- 더 많은 전력을 확보할 수 있는가
- 그 전력을 실제 랙에 안전하게 밀어 넣을 수 있는가
- 그만큼 생기는 열을 감당할 수 있는가
가 AI 인프라 확장의 가장 현실적인 한계로 등장한다.
19. 학생과 엔지니어를 위한 조언
대화 마지막은 커리어 조언으로 마무리된다.
19.1 문제 해결력이 가장 중요하다
한 발표자는 자신이 처음 인턴십을 얻을 때 자동차 엔진 문제를 해결한 경험을 이야기했다고 말한다. 컴퓨터나 전기 질문에만 답한 것이 아니라, 문제를 실제로 어떻게 풀었는가를 보여준 것이 중요했다는 뜻이다.
그 메시지는 명확하다.
- 앞으로 다룰 문제는 계속 바뀐다.
- 지금 배우는 기술 스택은 몇 년 뒤 달라질 수 있다.
- 하지만 1원리로 문제를 푸는 힘은 오래 간다.
19.2 끈기와 유연성
학생이나 초기 커리어 엔지니어에게 필요한 역량으로 다음이 강조된다.
- grit, 즉 끈기
- 변화하는 문제에 적응하는 유연성
- 기초 개념을 자기 언어로 이해하는 힘
19.3 창의성과 기초 체력
다른 발표자는 AI 시대에도 여전히 창의성이 매우 중요하다고 말한다.
- 다른 방식으로 문제를 보는 능력
- 집에서 무언가를 고쳐본 경험
- 엔진, 열역학, 기계 구조를 이해하는 기초 감각
이런 것들이 모두 긴 커리어 동안 반복해서 쓰이는 “도구상자”가 된다는 설명이다.
20. 학습 포인트 정리
이 인터뷰를 공부할 때 특히 기억해둘 포인트는 아래와 같다.
20.1 AI 인프라는 시스템 문제다
GPU만 빠르다고 끝나지 않는다. 전력, 냉각, 스토리지, CPU, 메모리, 네트워크, 제조, 운영이 모두 함께 맞아야 한다.
20.2 공랭의 시대에서 액체 냉각의 시대로 넘어가고 있다
고밀도 GPU 랙에서는 액체 냉각이 선택이 아니라 필수로 가고 있다. 다만 기존 데이터센터를 한 번에 바꾸기 어렵기 때문에, ALC 같은 중간 해법이 중요하다.
20.3 제조 품질이 곧 서비스 품질이다
수천 개 커넥터 중 하나만 틀어져도 운영 장애로 이어진다. 먼지, 부품 수급, 조립 오차 같은 “지극히 현실적인 문제”가 AI 인프라를 멈출 수 있다.
20.4 장기적으로는 광 인터커넥트가 중요해진다
구리는 거리와 집적도 면에서 한계가 있다. 더 큰 GPU 집단을 효율적으로 묶으려면 광이 필요하지만, 아직 비용과 안정성, 전력 효율에서 갈 길이 멀다.
20.5 전력은 최종 보스다
데이터센터 확장의 진짜 ceiling은 전력이다. 더 많은 GPU를 넣는 것보다, 그 GPU를 돌릴 전력과 냉각 여력을 확보하는 쪽이 더 어려운 문제가 될 수 있다.
21. 용어 빠르게 정리
Scale-up: 가까운 범위 안에서 GPU들을 촘촘하게 연결해 하나의 큰 계산 풀처럼 쓰는 방식Scale-out: 여러 시스템이나 랙을 더 넓은 범위로 묶어 확장하는 방식Backplane: 랙 내부 여러 모듈을 연결하는 중심 보드 또는 연결 구조Signal integrity: 전기 신호가 왜곡 없이 안정적으로 전달되는 성질ALC: 공랭 데이터센터에 액체 냉각 랙을 도입하기 위한 보조형 열교환/순환 시스템OCP / Open Compute: 메타가 강하게 밀어온 개방형 하드웨어 표준화 흐름
마무리
이 인터뷰는 AI 경쟁이 더 이상 모델과 소프트웨어만의 승부가 아니라는 사실을 아주 잘 보여준다. 오늘날의 핵심 질문은 “어떤 GPU를 쓸까?”에 머무르지 않는다.
진짜 질문은 오히려 이쪽에 가깝다.
- 그 GPU를 얼마나 많이 붙일 수 있는가
- 그 GPU에 데이터를 끊김 없이 공급할 수 있는가
- 그 GPU가 먹는 전력을 감당할 수 있는가
- 그 GPU가 내뿜는 열을 안정적으로 처리할 수 있는가
- 그 시스템을 실제 대규모로 만들고, 실어 나르고, 유지보수할 수 있는가
메타의 AI 하드웨어 랩은 바로 그 질문들에 대한 실험실이다.
그리고 이 대화는, AI 시대의 하드웨어 엔지니어링이 왜 다시 가장 뜨거운 분야가 되었는지를 잘 설명해준다.
Leave a comment