Post

맥 미니 클러스터, TB4와 TB5 사이에서

내 Mac mini M4 16GB에서 Gemma 4를 어디까지 돌릴 수 있는지, 모델별 메모리 요구사항과 TB4/TB5 클러스터의 한계를 정리한 기술 블로그.

맥 미니 클러스터, TB4와 TB5 사이에서

작성 목적: 내 Mac mini M4 16GB로 Gemma 4를 어디까지 돌릴 수 있는지, 그리고 TB4/TB5 클러스터로 확장할 수 있는지 검토한 기록입니다.

요약

  • 질문: 내 Mac mini M4 16GBGemma 4를 로컬에서 돌릴 수 있을까?
  • 핵심 결론: 작은 모델(E2B / E4B)은 가능하지만, 26B-A4B / 31B는 16GB 한 대로는 부족하다.
  • 클러스터 관점: TB4로는 연결과 분산 추론 실험이 가능하지만, RAM을 한 덩어리처럼 공유하는 구성은 아니다.
  • 권장 선택: 큰 모델까지 로컬에서 안정적으로 다루려면 M4 Pro Mac mini 또는 더 큰 unified memory를 가진 다른 기기를 봐야 한다.

1. 왜 이걸 알아봤나

출발점은 단순했다. 내 Mac mini M4 16GB로 Gemma 4 LLM을 돌릴 수 있는지 확인하고 싶었다. 만약 가능하다면, 현재 장비를 그대로 활용하는 쪽이 가장 합리적이다. 가능하지 않다면, RAM 확장이나 기기 교체까지 포함해서 다시 설계해야 한다.

처음에는 여러 대의 Mac을 묶으면 메모리를 나눠 쓸 수 있지 않을까 생각했다. 그래서 Thunderbolt 기반 클러스터, RDMA, MLX 분산 실행까지 함께 조사했다. 그런데 정리해보니 질문은 두 갈래로 분리됐다.

  1. Gemma 4가 내 장비에 들어가는가
  2. 여러 대의 Mac을 묶어서 메모리 한계를 우회할 수 있는가

이 두 질문에 대한 답이 같지 않았다.

2. Gemma 4 스펙을 먼저 보자

Google은 Gemma 4를 온디바이스와 edge 중심의 모델로 제시한다. 모델군은 E2B, E4B, 26B-A4B, 31B로 나뉜다. 기능적으로는 멀티모달 입력, 긴 컨텍스트, 다국어 지원을 강조하고, 작은 모델은 모바일/엣지 환경을 염두에 두고 설계됐다.

실제로 로컬 실행 관점에서 중요한 건 “기능”보다 메모리 요구량이다. Unsloth 문서를 기준으로 보면 대략 아래처럼 볼 수 있다.

  • E2B: 4GB 수준
  • E4B: 5.5–6GB 수준
  • 26B-A4B: 16–18GB 수준
  • 31B: 17–20GB 수준

여기서 중요한 점은, 이 숫자가 모델 파일 자체만 보는 값에 가깝다는 것이다. 실제 실행에서는 컨텍스트, 런타임, 운영체제, 백그라운드 프로세스까지 같이 먹는다. 그래서 16GB 시스템에서는 26B-A4B와 31B가 숫자상 “가능해 보이더라도”, 실사용 기준으로는 여유가 거의 없다.

실전 기준으로 정리하면

  • 16GB: E2B / E4B 실험용으로 적당
  • 24GB 이상: 26B-A4B를 현실적으로 고려 가능
  • 32GB 이상: 31B를 더 안정적으로 다룰 수 있음
  • 48GB 이상: 큰 모델을 로컬에서 편하게 쓰려는 구간

즉, 내 Mac mini M4 16GB는 Gemma 4의 작은 모델을 돌리는 용도로는 충분하지만, 26B-A4B 이상을 “제대로” 쓰기에는 부족하다.

3. TB4로 클러스터를 만들 수 있나

여기서 다음 질문이 생긴다. 여러 대의 Mac mini를 붙이면 RAM을 늘리는 효과를 만들 수 있을까.

답은 부분적으로만 가능하다.

MLX 기준으로 보면:

  • ring backend: TCP 기반. 언제든 사용 가능.
  • JACCL backend: Thunderbolt 5 기반 RDMA를 전제로 함.

즉, TB4는 연결과 분산 실행을 위한 일반 경로이고, TB5는 저지연 분산 연산을 위한 전용 경로다.

이 차이는 Mac mini 사양과도 정확히 맞물린다.

  • Mac mini M4: Thunderbolt 4
  • Mac mini M4 Pro: Thunderbolt 5

따라서 내가 가진 M4 base 모델은 TB4까지만 지원하므로, 다음은 가능하지만:

  • Mac끼리 연결
  • 네트워크처럼 묶어서 분산 추론
  • MLX ring backend로 실험

다음은 기대하기 어렵다:

  • RAM을 직접 공유하는 것 같은 효과
  • RDMA 기반 저지연 tensor parallelism
  • TB5/JACCL가 필요한 메모리 풀링

정리하면, TB4 클러스터는 “연결” 클러스터이지, “메모리 통합” 클러스터는 아니다.

3.5 31B 기준으로 기기 선택을 다시 보면

Gemma 4 31B를 기준으로 하면 구매 판단은 더 단순해진다.

  • 4-bit 기준도 약 17–20GB라서 16GB 단일 기기로는 여유가 없다.
  • 8-bit은 약 34–38GB, BF16/FP16은 약 62GB까지 올라간다.
  • 그래서 31B를 로컬에서 안정적으로 다루려면, Mac mini를 산다면 M4 Pro의 48GB/64GB 구성이 더 현실적이다.
  • 16GB M4는 E2B/E4B 실험용, 24GB급은 26B-A4B 검토용, 48GB 이상은 31B를 실제로 고려하는 구간으로 보는 편이 맞다.

이 기준에서 보면, TB5/RDMA 클러스터는 메모리 대체재가 아니라 분산 확장 옵션이다. 먼저 필요한 unified memory를 확보하고, 그 다음에 분산 구성을 검토하는 순서가 맞다.

4. 결론: 내 Mac mini M4로 어디까지 가나

결론은 꽤 명확하다.

Mac mini M4 16GB로는:

  • Gemma 4 E2B / E4B 실험 가능
  • TB4 기반의 분산 추론 실험 가능
  • 하지만 26B-A4B / 31B를 안정적으로 돌리기엔 부족
  • 그리고 RAM을 직접 공유하는 확장은 기대하기 어려움

즉, 내가 원한 건 단순히 “연결되는가”가 아니라 “이 장비로 Gemma 4를 어디까지 돌릴 수 있는가”였고, 그 답은 결국 장비 선택 문제로 이어졌다.

그래서 실질적인 선택지는 두 개다.

  1. Mac mini M4 Pro를 산다
    • TB5 지원
    • 더 큰 unified memory 옵션
    • 향후 RDMA/JACCL 기반 확장 가능성
  2. 다른 기기 사양을 다시 검토한다
    • 처음부터 24GB/32GB/48GB 이상 unified memory를 가진 머신
    • 큰 Gemma 4 모델을 로컬에서 쓰기 더 수월

내 경우에는 후자가 더 솔직한 결론이다. M4 base는 작은 모델 실험용으로는 충분하지만, Gemma 4 확장을 전제로 한 선택은 아니다.

한 줄 결론

  • 16GB M4 Mac mini: Gemma 4 소형 모델은 가능
  • TB4 클러스터: 분산 추론 실험은 가능, 메모리 통합은 아님
  • 실사용 확장: M4 Pro Mac mini 또는 더 큰 unified memory 기기를 검토해야 함

참고 링크

This post is licensed under CC BY 4.0 by the author.