Jane Street의 GPU, 트레이딩, 그리고 채용: Dwarkesh와의 대화 핵심 요약
Jane Street on GPUs, Trading, and Hiring
이 포스트는 글로벌 트레이딩 회사인 Jane Street의 기술 부문 공동 헤드 론 민스키(Ron Minsky)와 물리 엔지니어링 부문 헤드 댄 폰토보(Dan Ponttovo)가 팟캐스트 진행자 드와케시 파텔(Dwarkesh Patel)과 함께 텍사스 데이터 센터에서 나눈 인터뷰 내용을 학습 목적으로 상세하게 정리한 글입니다.
Jane Street가 초단기 트레이딩부터 대규모 AI 모델 학습 및 추론에 이르기까지 어떻게 GPU와 하드웨어를 활용하는지, 인프라의 공급망 병목을 어떻게 극복하는지, 그리고 어떤 인재들을 채용하고 있는지 주제별 트리 구조로 정리했습니다.
1. 트레이딩 타임 호라이즌과 하드웨어 스펙트럼 (Trading Time Horizons & Hardware Spectrum)
트레이딩에서의 시간 지연(Latency)과 컴퓨팅 파워 사이의 트레이드오프 관계, 그리고 타임 호라이즌별로 최적화된 하드웨어 아키텍처에 대한 요약입니다.
- 초단기 지연 시간 영역 (Under 100 Nanoseconds)
- 하드웨어 구조: CPU는 개입할 수 없으며, 네트워크 장비에 직접 연결된(Direct wire-attached) FPGA (Field Programmable Gate Array)를 사용합니다.
- 지연 수준: 데이터 패킷이 케이블을 통해 들어오는 동시에 나가는 수준으로, 오실로스코프로 신호를 측정하면 패킷 소비가 다 끝나기도 전에 출력이 시작되는 초고속 응답을 구현합니다. 이 영역에서는 OCaml, Rust, C++ 등 언어 수준의 차이는 의미가 없으며 하드웨어 레벨에서 직접 연산이 수행됩니다.
- 의사결정 복잡도: 연산 가능한 시간 제약으로 인해 매우 단순한 결정만 내립니다.
- 다양한 타임 호라이즌의 앙상블 (Ensemble Approach)
- 마이크로초~밀리초 영역 (Microseconds to Milliseconds): 지연 허용 범위가 넓어짐에 따라 점진적으로 더 복잡하고 고도화된 모델(CPU, GPU 혼합)을 사용하여 의사결정을 내립니다.
- 장기 영역 (Hours to Days): 당일 또는 수 시간 내에만 결정을 내리면 되는 영역으로, 대규모 모델을 사용해 가장 똑똑하고 정교한 예측을 수행합니다.
- 트레이딩 앙상블: 초단기의 단순 신속한 의사결정과 장기의 정밀한 예측 모델이 유기적으로 결합된 앙상블 시스템으로 트레이딩 전략을 구축합니다.
- 주요 예측 목표 (Prediction Targets)
- 공정 가치(Fair Value) 예측: 금융 상품의 진정한 내재 가치를 예측하는 것이 가장 대표적이며 범용적인 모델의 타겟입니다. 이 외에도 다양한 예측 대상들이 트레이딩 프로세스의 빌딩 블록으로 활용됩니다.
- 인프라 배치: 예측 연산의 특성에 따라 추론 프로세스는 FPGA, CPU, GPU에 나누어 탑재되며, 물리적인 코로케이션(Colocation) 환경과 전력 공급 상태에 맞추어 최적 배치됩니다. 초단기 영역은 파이버 케이블의 물리적 길이까지 정밀 측정하여 거래소 근처에 바짝 붙여 배치하지만, 대규모 모델은 상대적으로 거리가 먼 전용 데이터 센터에 유연하게 배치할 수 있습니다.
2. CoreWeave와의 60억 달러 컴퓨팅 계약 및 AI 모델 전략 (The $6B CoreWeave Deal & AI Strategy)
Jane Street가 대규모 컴퓨팅 인프라 계약을 맺은 이유와 Foundation Model 개발 연구소들과의 차이점을 설명합니다.
- 60억 달러(약 8조 원) 규모 CoreWeave 계약 배경
- 목적: 대규모 AI 연구원들에게 빠른 실험 주기(Fast Iteration Time)를 제공하고 대량의 모델 설계 다양성을 확보하기 위함입니다.
- 가치 창출: 수많은 연구원들이 다양한 새로운 시도를 신속하게 테스트해 보며 더 많은 아이디어를 발굴하고 혁신을 드라이브할 수 있는 환경이 경쟁력의 핵심입니다.
- Foundation AI Lab과의 모델 개발 철학 차이
- 빅테크 연구소: 모든 일을 일반화하여 처리할 수 있는 ‘단일 거대 범용 모델(Single General Model)’을 학습시키는 데 집중합니다.
- Jane Street: 다양한 비정형 금융 데이터를 최적으로 소비할 수 있는 수많은 특화 모델(Specialized Models)을 다변화하여 개발합니다.
- 금융 데이터의 고유한 특성
- 높은 노이즈(Noisy Data): 금융 데이터는 정보 대비 잡음이 극도로 심합니다.
- 바이트 대 플롭스 비율(Byte-to-Flop Ratio) 차이: 수집하여 입력하는 데이터의 양(Bytes)은 엄청나게 많지만, 데이터 1비트당 담긴 유용한 정보 가치(Informative Value)는 낮습니다.
- 소형 모델 & 대량 데이터: 이로 인해 모델의 물리적 크기는 빅테크 LLM 대비 상대적으로 작게 유지하되, 극도로 노이즈가 많고 방대한 양의 시계열 데이터를 학습시키는 구조를 취합니다.
3. 추론(Inference) 워크로드의 엔지니어링적 특징 (Inference Workload Engineering)
실제 프로덕션 환경에서 작동하는 추론 시스템의 요구 조건과 대규모 언어 모델(LLM) 서빙 서비스와의 차이점을 조명합니다.
- 엄격한 지연 시간(Latency) 요구 사항
- 응답 속도가 트레이딩 수익률에 직접적인 영향을 주기 때문에 일반적인 대화형 AI 챗봇 대비 레이턴시의 중요도가 매우 큽니다.
- Symbol별 분할 및 배칭(Batching) 전략
- 트레이딩 종목(Symbols)별로 모델의 일부분이 분할(Disaggregated)되어 작동하는 구조를 채택하고 있습니다.
- 다양한 정보 소스에서 실시간으로 쏟아지는 대용량 피드 데이터를 병렬로 로드하고, 이를 효율적으로 합쳐 배칭 처리하는 최적화 기법이 필수적입니다.
- 초고속 순차 데이터 레이트 (Sequential Data Rates)
- 대화형 LLM: 수많은 개별 사용자로부터 요청이 들어오므로 전체 데이터 볼륨은 크지만, 단일 사용자 관점에서의 연속적인 데이터 유입 속도는 낮습니다.
- 트레이딩 추론: 나스닥(NASDAQ) 등 금융 거래소 피드에서 발생하는 데이터는 동일 도메인 내에서 인과관계(Causally)를 가지며 극도로 높은 속도로 순차 유입됩니다.
- 설계 방향: 기본 엔지니어링 원리는 유사하지만 상수(Constants)값이 완전히 다르기 때문에 데이터 로딩 엔진의 성능 극대화에 설계 초점이 맞춰져 있습니다.
4. 인프라 아키텍처 및 분산 스토리지/컴퓨팅 (Infrastructure, Distributed Storage & Compute)
단일 데이터 센터의 전력 및 지리적 한계를 넘어서기 위한 분산 시스템 구축 기술에 관한 내용입니다.
- 자체 스토리지 시스템 구축
- 과거에는 다양한 벤더사(Vendor) 제품들을 활용했으나, 스케일이 거대화됨에 따라 리서치 요구사항을 충족하기 위해 자체 대규모 오브젝트 스토어(Internal Object Store)를 설계하여 운영하고 있습니다.
- 데이터 센터 분산 배치 (Disaggregation Problem)
- 제약: 단일 데이터 센터 내로 공급할 수 있는 전력과 자원에 한계가 있어 모든 컴퓨팅 자원을 한 공간에 집중시키는 것이 불가능합니다.
- 결과: 여러 지역에 지리적으로 분산된 다수의 데이터 센터를 운영해야 하며, 이에 따라 ‘데이터 스토리지 스케줄링’과 ‘컴퓨팅 리소스 스케줄링’이 서로 유기적으로 얽혀 동작하는 복잡한 분산 스케줄러가 필요해졌습니다. 엄청난 크기의 데이터를 센터 간 이동하는 비용이 비싸기 때문에 최적화가 필수적입니다.
- CPU 단일 아키텍처의 포기 (Unwinding x86-Only Assumption)
- 과거: 수년간 x86-64 아키텍처 하나만 존재한다고 가정하여 개발 및 배포 환경을 극도로 단순화(Shortcut)하는 혜택을 누렸습니다.
- 현재: Nvidia의 최신 가속기 플랫폼들이 ARM 아키텍처 채택을 강제함에 따라 ARM 환경 지원을 전면 수용하고 다중 아키텍처 체제로 전환했습니다.
5. AGI와 금융 트레이딩의 관계 (AGI & Financial Trading)
인공 일반 지능(AGI) 시대가 도래했을 때 트레이딩 비즈니스의 지속 가능성과 인간 인지 능력의 가치에 대한 논의입니다.
- 트레이딩의 AGI-Complete 및 NP-Complete 특성
- 금융 자산의 가치를 정확히 평가하고 예측하기 위해서는 전 세계에서 일어나는 정치, 경제, 사회적 현상과 기후 변화 등 거의 모든 외부 요인을 입력값으로 사용해야 합니다.
- 따라서 트레이딩 문제의 완전한 해결은 AGI의 완성 및 NP-Complete 문제를 푸는 것과 맞닿아 있을 만큼 매우 복잡합니다.
- 상태 전이(Phase Transitions) 시점의 인간 판단력
- 시장이 비정상적으로 과열되거나 예기치 못한 돌발 상황(위기 상황 등)이 발생해 모델이 학습하지 못한 영역으로 시장이 진입할 때(Phase Transition), 인간의 메타적 판단(Meta Judgment)이 모델보다 뛰어난 복원력과 대처력을 보여줍니다.
- 시장 변동성이 극대화되는 날이 유동성 공급 대가로 가장 높은 수익을 창출하는 날이기에, 모니터링을 상시 수행하는 인간 트레이더의 판단 개입이 필수적입니다.
- 비전자식/비정형 트레이딩 영역
- 여전히 채팅(Chat)이나 음성 통화를 통해 상호 협상하며 거래하는 방식이 중요한 비중을 차지합니다.
- 상대방의 정보력이나 거래 의도에 따른 ‘역선택(Adverse Selection)’ 리스크를 정성적으로 평가하는 작업은 완전 자동화가 어렵습니다.
- 주식 시장에 비해 채권(Bonds) 시장과 같은 대체 자산 영역은 여전히 자동화 수준이 낮아 인간의 판단과 중개가 깊이 관여되어 있습니다.
6. 데이터 센터 인프라 변화와 하드웨어 병목 (Data Center Infrastructure & Supply Chain Bottlenecks)
최신 AI 칩을 유치하기 위해 데이터 센터 엔지니어링이 어떻게 변화하고 있는지와 공급망 관리 전략을 다룹니다.
- 데이터 센터에 대한 인식 전환
- 과거 조연에 불과했던 냉각(Cooling) 및 전력 엔지니어링이 최근 AI 붐으로 인해 가장 핫하고 핵심적인 비즈니스 의사결정 영역으로 부상했습니다.
- 인프라 장비의 리드타임 병목 극복
- 주요 병목 품목: 디젤 발전기(Generators), 변압기(Transformers), 액체 냉각 장비 등
- 비즈니스적 타협: 데이터 센터 전체를 리드타임이 매우 긴 대형 발전기로 백업하기보다, 복원력이 반드시 필요한 핵심 코어 파트만 백업 대상으로 축소 설계함으로써 전체 구축 기간을 6개월 단축하고 GPU를 신속히 도입하는 등의 유연한 비즈니스적 의사결정을 추진합니다.
- 공급망 및 조달 전략
- 데이터 센터 간 호환이 가능한 범용 장비들은 선제적으로 대량 구매하여 자체 창고에 보관(Stage)하고 신속하게 투입합니다.
- 긴 리드타임을 극복하기 위해 오프사이트(Offsite) 공장에서 인프라 구성 요소를 미리 제작 및 조립하여 배송하는 모듈러 인프라(Modular Infrastructure / Plug-and-Play) 기법을 적극 도입하고 있습니다.
- 전력 밀도 대응 (Rack Density)
- 전력 밀도 급증: 랙 하나가 1메가와트(1MW)의 전력을 소비하는 시대가 오고 있습니다.
- 기술적 변화: 냉각수 파이프의 대형화, 송전 효율 향상을 위한 800V DC 전원 구조 전환 등이 적극적으로 논의 중입니다.
- 칩 설계사들과의 협력: 인프라 리드타임이 1년 이상으로 길기 때문에 칩 주문 이전에 데이터 센터 규격을 결정해야 합니다. 예컨대 TPU는 저온의 물을 필요로 하고 GPU(e.g., GB200) 대비 밀도가 낮으므로 사전에 면밀한 인프라 맞춤 설계와 제조사 간 긴밀한 소통이 필요합니다.
7. 여유 컴퓨팅 자원의 비즈니스적 가치 (Value of Excess/Reserve Compute)
Jane Street가 방대한 하드웨어를 구매한 뒤 사용하지 않고 남는 유휴 컴퓨팅 자원을 어떻게 비즈니스 효율화에 활용하는지 소개합니다.
- 지속적인 컴퓨팅 부족 상태 (Compute-Constrained)
- 칩이 남아돌아서 유휴 자원이 생기는 일은 거의 없으며, 연구원들의 아이디어와 실험 백로그가 워낙 방대하여 항상 더 많은 연산 리소스를 요구합니다.
- 유휴 컴퓨팅의 대체 활용처 (Fallback Tasks)
- 주기적인 모델 재학습 (Retraining): 금융 시장의 역동성으로 인해 고정된 모델의 예측력은 시간이 지남에 따라 점진적으로 감쇄(Decay)합니다. 틈나는 대로 모델을 지속 재학습시키는 프로세스가 유휴 자원을 소화하며 명확한 가치를 창출합니다.
- 대량 추론 작업 (Bulk Inference): 실시간 트레이딩 외에 리서치용 대규모 백테스팅이나 시뮬레이션 추론 태스크를 스케줄링 틈새에 실행시킵니다.
- 인프라 계약의 이원화 (Bifurcation Strategy)
- 매우 고가이며 가치가 빠르게 변하는 가속기 칩(Chips) 구매 의사결정과 전력/상암 공간 확보(Data Center Capacity) 의사결정을 물리적으로 분리합니다.
- 공간과 전력 인프라를 먼저 여유 있게 확보한 후, 상황에 따라 자원이 남는 경우 전력/상암 공간 자체를 타사에 재임대(Offload)하는 형태로 리스크를 효율적으로 관리합니다.
8. 채용 분야 및 조직 문화 (Hiring Areas & Cultural Aspects)
Jane Street가 지향하는 성장의 한계 돌파 조건과 현재 집중적으로 구인하고 있는 포지션에 대해 소개합니다.
- 인프라보다 인재 양성이 한계 요인
- 자본력으로 하드웨어(Nvidia GPU 등)를 수만 대에서 수십만 대 수준으로 확장하는 것은 가능하지만, 조직의 진짜 성장 병목은 ‘훌륭한 인재를 채용하여 조직 문화에 융합시키고 체계적으로 멘토링해 나가는 시간’입니다.
- 주요 구인 직무 (Key Open Roles)
- 물리 엔지니어링 (Physical Engineering): 기계/전기 엔지니어, 구조 엔지니어, 프로젝트 매니저, 데이터 센터 건축가 등.
- 머신러닝 및 트레이딩: 커스텀 신경망 설계 엔지니어, 거대 언어 모델(LLM) 학습 파이프라인 엔지니어, 수학/컴퓨터공학/물리학 배경의 정량 트레이더(Quantitative Traders).
- 소프트웨어 엔지니어링:
- 일반 개발자 (Generalist SWE): 뛰어난 컴퓨터 과학 지식을 보유하고 다양한 비즈니스 도메인에 유연하게 적응하는 인재.
- 대규모 플릿 최적화 (Fleet-wide Optimization): 하이퍼스케일러 기업 출신으로 수만 대 규모 컴퓨팅 효율 향상 및 프로파일링 경험자.
- 하드웨어 엔지니어링: 자체 주문형 반도체(ASIC) 설계를 담당할 엔지니어.
- 형식 방법론 (Formal Methods): AI 기반 코드 생성 혁명과 연계하여 수학적 증명을 통해 소프트웨어 신뢰성을 보증할 수 있는 신규 연구 조직 빌딩.
- 프론트엔드 엔지니어링: 과거 터미널/CLI 중심 환경에서 탈피하여, 트레이더와 연구원들이 복잡한 데이터를 한눈에 볼 수 있도록 돕는 웹 기반 시각화 및 개발자 도구 제작.
- 조직 문화적 특징
- 퍼즐(Puzzles) 문화: 문제 해결에 대한 순수한 호기심과 퍼즐을 푸는 열정이 조직의 DNA로 녹아 있으며, 이를 채용 브랜딩 및 아웃리치 수단으로 적극 활용합니다.
- 인간 중심의 툴 설계 (Human-Oriented Tooling): AI를 도입할 때도 인간의 이해도를 높이고 생산성을 주도적으로 통제할 수 있도록 인간 중심의 도구 설계 가치를 최우선으로 둡니다.
Leave a comment