Performance Hints (KR)

## TL;DR

성능 최적화는 ‘나중에’ 하는 숙제가 아니라, 설계 단계에서부터 컴퓨터 리소스의 비용을 계산하고 낭비를 최소화하는 선택을 하는 과정입니다. 알고리즘의 효율성, 메모리 레이아웃의 조밀함, 그리고 불필요한 메모리 할당을 줄이는 것이 핵심입니다.

## Overview

1. 성능 사고방식의 중요성 (The Importance of Thinking about Performance)

성능 중심 설계: “나중에 프로파일링해서 고치자”는 생각은 병목 지점이 도처에 깔려 고칠 수조차 없는 ‘평평한 프로파일’을 만드므로, 처음부터 효율적인 대안을 선택해야 합니다.

2. 추정 (Estimation)

성능 직관 기르기: 작성 중인 코드가 테스트용인지, 라이브러리용인지, 혹은 핫 패스(Hot path)인지에 따라 어느 정도의 복잡성을 감수할지 결정합니다.
어림짐작 계산 (Back-of-the-envelope): L1 캐시(0.5ns)부터 디스크 탐색(5ms)까지의 비용을 계산해 어떤 설계가 유리할지 구현 전에 판단합니다.

3. 측정 (Measurement)

측정의 가치: 익숙하지 않은 코드를 프로파일링하는 것은 구조 파악에도 도움이 되며, 개선 전후의 이점을 정밀하게 확인하는 유일한 방법입니다.
프로파일링 도구 및 팁: pprof나 perf를 활용하고, 운영 환경과 유사한 조건에서 마이크로벤치마크를 수행하여 결과를 검증합니다.
프로파일이 평평할 때 (What to do when profiles are flat): 뚜렷한 병목이 없다면 작은 개선 20개를 모으거나, 루프 구조 변경, 할당 횟수 줄이기, 하드웨어 카운터 분석 등을 시도합니다.

4. API 설계 고려사항 (API Considerations)

대량 처리 API (Bulk APIs): 함수 호출 오버헤드와 잠금 비용을 줄이기 위해 여러 항목을 한 번에 처리하는 인터페이스를 제공합니다.
뷰 타입 (View types): string_view나 Span 등을 사용하여 데이터 복사 없이 메모리 영역만 참조하게 합니다.
사전 할당/계산된 인수: 호출자가 이미 알고 있는 정보를 루틴에 넘겨주어 내부의 중복 계산이나 할당을 방지합니다.
스레드 호환 vs 스레드 안전: 무조건 내부 잠금을 걸기보다, 호출자가 동기화를 책임지는 ‘스레드 호환’ 타입을 기본으로 하여 성능 손실을 막습니다.

5. 알고리즘 개선 (Algorithmic Improvements)

근본적 최적화: O(N²) 로직을 O(N log N)으로 바꾸거나, 최신 논문에 기반한 더 빠른 데이터 구조(예: Pearce-Kelly 알고리즘)로 교체합니다.

6. 더 나은 메모리 표현 (Better Memory Representation)

조밀한 데이터 구조 (Compact data structures): 캐시 효율을 높이기 위해 데이터를 메모리에 빽빽하게 채워 넣습니다.
메모리 레이아웃 (Memory layout): 필드 순서를 조정해 패딩을 줄이고, 자주 쓰는 필드를 모아 캐시 미스를 방지합니다.
포인터 대신 인덱스 (Indices instead of pointers): 64비트 포인터 대신 작은 정수 인덱스를 써서 메모리 사용량과 간접 참조 비용을 줄입니다.
배치 저장 (Batched storage): 요소마다 개별 할당하지 않고 청크(Chunk) 단위로 묶어 할당하여 관리 오버헤드를 줄입니다.
인라인 저장 (Inlined storage): 요소가 적을 때는 힙 할당 없이 객체 내부 공간을 직접 활용(InlinedVector 등)합니다.
불필요하게 중첩된 맵: 맵 안에 맵을 두기보다 복합 키를 사용하는 단일 맵으로 구성해 조회 횟수를 줄입니다.
아레나 (Arenas): 수명이 비슷한 객체들을 큰 메모리 블록에 한꺼번에 할당하고 소멸 비용을 최소화합니다.
맵 대신 배열: 키 범위가 작다면 맵 대신 단순 배열을 사용하여 O(1) 성능을 확보합니다.
셋 대신 비트 벡터: 정수 집합은 비트 벡터를 사용하여 메모리 사용량을 극단적으로 아끼고 연산을 가속합니다.

7. 할당 줄이기 (Reduce Allocations)

불필요한 할당 피하기: 빈 객체 생성 대신 정적(Static) 객체를 재사용하거나 힙 대신 스택을 적극 활용합니다.
컨테이너 크기 조정 (Resize or reserve): 예상 크기를 미리 reserve()하여 데이터 이동과 메모리 재할당 오버헤드를 막습니다.
복사 피하기: 이동 시맨틱(Move)을 활용하고, 큰 객체 자체를 옮기기보다 포인터나 인덱스 배열을 정렬합니다.
임시 객체 재사용: 루프 안에서 객체를 매번 선언하지 말고 루프 밖에서 선언하여 내부 버퍼를 계속 재사용합니다.

8. 불필요한 작업 피하기 (Avoid Unnecessary Work)

공통 케이스의 빠른 경로 (Fast paths): 대다수를 차지하는 단순한 케이스를 먼저 체크하여 무거운 로직을 건너뜁니다.
값비싼 정보 사전 계산: 반복적으로 쓰이는 비싼 연산 결과는 미리 계산해서 저장해 둡니다.
값비싼 계산을 루프 밖으로 이동: 루프를 돌 때마다 변하지 않는 값은 루프 시작 전에 미리 계산합니다.
값비싼 계산 지연 (Defer): 정말로 결과가 필요한 시점까지 연산을 수행하지 않고 최대한 미룹니다.
코드 특수화 (Specialize code): 범용 라이브러리 대신 특정 상황에만 딱 맞춘 코드를 작성해 범용 기능의 오버헤드를 뺍니다.
캐싱 활용: 이전에 수행한 작업 결과를 저장해 두고 다시 호출될 때 즉시 반환합니다.

9. 컴파일러의 작업 돕기 (Make the compiler’s job easier)

최적화 힌트 제공: 핫 함수 내 호출 제거, 로컬 변수 복사를 통한 에일리어싱 방지, 수동 루프 언롤링 등을 통해 컴파일러가 더 나은 기계어를 뽑게 돕습니다.

10. 통계 수집 비용 절감 (Reduce stats collection costs)

통계 최적화: 쓰이지 않는 통계는 과감히 삭제하고, 샘플링(Sampling)을 통해 일부 요청만 기록하여 부하를 낮춥니다.

11. 로깅 최적화 (Avoid logging on hot code paths)

로깅 제거 및 지연: 자주 실행되는 구간에서는 로그 활성화 여부를 미리 체크하거나 아예 로깅을 빼서 실행 속도를 지킵니다.

12. 코드 크기 고려사항 (Code Size Considerations)

자주 인라인되는 코드 다듬기: 널리 쓰이는 함수의 에러 처리 등 큰 코드는 인라인에서 제외해 바이너리 비대화를 막습니다.
신중한 인라인화: 무분별한 인라인은 바이너리를 키워 명령어 캐시 효율을 떨어뜨리므로 적절히 조절합니다.
템플릿 인스턴스화 감소: 공통 로직을 템플릿 밖으로 분리해 불필요하게 복제되는 기계어 코드를 줄입니다.
컨테이너 작업 감소: 맵 초기화 등을 한꺼번에 처리하는 대량 작업을 써서 생성되는 코드 양을 줄입니다.

13. 병렬화와 동기화 (Parallelization and synchronization)

병렬성 활용 (Exploit parallelism): 멀티 코어를 쓰기 위해 작업을 나누되, 배치 단위 처리를 통해 관리 비용을 관리합니다.
잠금 획득 분산 (Amortize lock acquisition): 한 번의 잠금으로 여러 작업을 처리하여 잠금 획득 횟수 자체를 줄입니다.
임계 영역 단축 (Keep critical sections short): 잠금을 쥔 상태에서의 작업을 최소화하고 비싼 연산은 잠금 밖에서 수행합니다.
샤딩을 통한 경합 감소: 하나의 잠금을 여러 샤드로 나누어 스레드 간의 충돌 가능성을 낮춥니다.
SIMD 명령어: 한 번의 명령으로 여러 데이터를 동시 처리하는 CPU 기능을 적극 활용합니다.
거짓 공유(False Sharing) 감소: 스레드별 데이터를 서로 다른 캐시 라인에 배치하여 불필요한 캐시 동기화를 막습니다.
문맥 교환 빈도 감소: 아주 작은 작업은 스레드 풀에 넘기지 말고 현재 스레드에서 직접 처리합니다.
파이프라이닝용 버퍼 채널: 채널에 적절한 버퍼를 두어 송수신 스레드가 서로 기다리는 시간을 줄입니다.
락프리(Lock-free) 접근: 뮤텍스 대신 원자적 연산을 사용하여 대기 없는 데이터 구조를 구현합니다.

14. 프로토콜 버퍼 조언 (Protocol Buffer advice)

직렬화 비용 최소화: 불필요한 중첩 회피, 1~15번 필드 번호 우선 사용, 적절한 숫자 타입 선택, VIEW/CORD 사용, 아레나 활용 등으로 프로토버프 오버헤드를 줄입니다.

15. C++ 전용 조언 (C++-Specific advice)

최적화된 라이브러리 활용: flat_hash_map, InlinedVector, Status/StatusOr 최적화 등 C++ 언어와 라이브러리 특성에 맞는 기법을 적용합니다.

## Takeaways

하드웨어는 거짓말하지 않는다: 캐시 계층 구조와 메모리 접근 비용을 이해하는 것이 성능 튜닝의 시작입니다.
디자인이 성능이다: 효율적인 API와 데이터 레이아웃 설계는 나중에 코드를 최적화하는 것보다 훨씬 강력합니다.
작은 차이가 모여 큰 차이를 만든다: 1%의 개선을 무시하지 마세요. 그런 개선들이 쌓여 대규모 시스템의 안정성을 결정합니다.
가설은 측정으로 증명하라: 직관에만 의존하지 말고 프로파일러를 통해 실제 어디서 리소스가 새고 있는지 확인하세요.

Reference

Jeffrey Dean & Sanjay Ghemawat, Performance Hints, 2025

## TL;DR

## Overview

1. 성능 사고방식의 중요성 (The Importance of Thinking about Performance)

2. 추정 (Estimation)

3. 측정 (Measurement)

4. API 설계 고려사항 (API Considerations)

5. 알고리즘 개선 (Algorithmic Improvements)

6. 더 나은 메모리 표현 (Better Memory Representation)

7. 할당 줄이기 (Reduce Allocations)

8. 불필요한 작업 피하기 (Avoid Unnecessary Work)

9. 컴파일러의 작업 돕기 (Make the compiler’s job easier)

10. 통계 수집 비용 절감 (Reduce stats collection costs)

11. 로깅 최적화 (Avoid logging on hot code paths)

12. 코드 크기 고려사항 (Code Size Considerations)

13. 병렬화와 동기화 (Parallelization and synchronization)

14. 프로토콜 버퍼 조언 (Protocol Buffer advice)

15. C++ 전용 조언 (C++-Specific advice)

## Takeaways

Reference

Further reading