맥 미니 클러스터, TB4와 TB5 사이에서
내 Mac mini M4 16GB에서 Gemma 4를 어디까지 돌릴 수 있는지, 모델별 메모리 요구사항과 TB4/TB5 클러스터의 한계를 정리한 기술 블로그.
작성 목적: 내 Mac mini M4 16GB로 Gemma 4를 어디까지 돌릴 수 있는지, 그리고 TB4/TB5 클러스터로 확장할 수 있는지 검토한 기록입니다.
요약
- 질문: 내 Mac mini M4 16GB로 Gemma 4를 로컬에서 돌릴 수 있을까?
- 핵심 결론: 작은 모델(E2B / E4B)은 가능하지만, 26B-A4B / 31B는 16GB 한 대로는 부족하다.
- 클러스터 관점: TB4로는 연결과 분산 추론 실험이 가능하지만, RAM을 한 덩어리처럼 공유하는 구성은 아니다.
- 권장 선택: 큰 모델까지 로컬에서 안정적으로 다루려면 M4 Pro Mac mini 또는 더 큰 unified memory를 가진 다른 기기를 봐야 한다.
1. 왜 이걸 알아봤나
출발점은 단순했다. 내 Mac mini M4 16GB로 Gemma 4 LLM을 돌릴 수 있는지 확인하고 싶었다. 만약 가능하다면, 현재 장비를 그대로 활용하는 쪽이 가장 합리적이다. 가능하지 않다면, RAM 확장이나 기기 교체까지 포함해서 다시 설계해야 한다.
처음에는 여러 대의 Mac을 묶으면 메모리를 나눠 쓸 수 있지 않을까 생각했다. 그래서 Thunderbolt 기반 클러스터, RDMA, MLX 분산 실행까지 함께 조사했다. 그런데 정리해보니 질문은 두 갈래로 분리됐다.
- Gemma 4가 내 장비에 들어가는가
- 여러 대의 Mac을 묶어서 메모리 한계를 우회할 수 있는가
이 두 질문에 대한 답이 같지 않았다.
2. Gemma 4 스펙을 먼저 보자
Google은 Gemma 4를 온디바이스와 edge 중심의 모델로 제시한다. 모델군은 E2B, E4B, 26B-A4B, 31B로 나뉜다. 기능적으로는 멀티모달 입력, 긴 컨텍스트, 다국어 지원을 강조하고, 작은 모델은 모바일/엣지 환경을 염두에 두고 설계됐다.
실제로 로컬 실행 관점에서 중요한 건 “기능”보다 메모리 요구량이다. Unsloth 문서를 기준으로 보면 대략 아래처럼 볼 수 있다.
- E2B: 4GB 수준
- E4B: 5.5–6GB 수준
- 26B-A4B: 16–18GB 수준
- 31B: 17–20GB 수준
여기서 중요한 점은, 이 숫자가 모델 파일 자체만 보는 값에 가깝다는 것이다. 실제 실행에서는 컨텍스트, 런타임, 운영체제, 백그라운드 프로세스까지 같이 먹는다. 그래서 16GB 시스템에서는 26B-A4B와 31B가 숫자상 “가능해 보이더라도”, 실사용 기준으로는 여유가 거의 없다.
실전 기준으로 정리하면
- 16GB: E2B / E4B 실험용으로 적당
- 24GB 이상: 26B-A4B를 현실적으로 고려 가능
- 32GB 이상: 31B를 더 안정적으로 다룰 수 있음
- 48GB 이상: 큰 모델을 로컬에서 편하게 쓰려는 구간
즉, 내 Mac mini M4 16GB는 Gemma 4의 작은 모델을 돌리는 용도로는 충분하지만, 26B-A4B 이상을 “제대로” 쓰기에는 부족하다.
3. TB4로 클러스터를 만들 수 있나
여기서 다음 질문이 생긴다. 여러 대의 Mac mini를 붙이면 RAM을 늘리는 효과를 만들 수 있을까.
답은 부분적으로만 가능하다.
MLX 기준으로 보면:
ringbackend: TCP 기반. 언제든 사용 가능.JACCLbackend: Thunderbolt 5 기반 RDMA를 전제로 함.
즉, TB4는 연결과 분산 실행을 위한 일반 경로이고, TB5는 저지연 분산 연산을 위한 전용 경로다.
이 차이는 Mac mini 사양과도 정확히 맞물린다.
- Mac mini M4: Thunderbolt 4
- Mac mini M4 Pro: Thunderbolt 5
따라서 내가 가진 M4 base 모델은 TB4까지만 지원하므로, 다음은 가능하지만:
- Mac끼리 연결
- 네트워크처럼 묶어서 분산 추론
- MLX ring backend로 실험
다음은 기대하기 어렵다:
- RAM을 직접 공유하는 것 같은 효과
- RDMA 기반 저지연 tensor parallelism
- TB5/JACCL가 필요한 메모리 풀링
정리하면, TB4 클러스터는 “연결” 클러스터이지, “메모리 통합” 클러스터는 아니다.
3.5 31B 기준으로 기기 선택을 다시 보면
Gemma 4 31B를 기준으로 하면 구매 판단은 더 단순해진다.
- 4-bit 기준도 약 17–20GB라서 16GB 단일 기기로는 여유가 없다.
- 8-bit은 약 34–38GB, BF16/FP16은 약 62GB까지 올라간다.
- 그래서 31B를 로컬에서 안정적으로 다루려면, Mac mini를 산다면 M4 Pro의 48GB/64GB 구성이 더 현실적이다.
- 16GB M4는 E2B/E4B 실험용, 24GB급은 26B-A4B 검토용, 48GB 이상은 31B를 실제로 고려하는 구간으로 보는 편이 맞다.
이 기준에서 보면, TB5/RDMA 클러스터는 메모리 대체재가 아니라 분산 확장 옵션이다. 먼저 필요한 unified memory를 확보하고, 그 다음에 분산 구성을 검토하는 순서가 맞다.
4. 결론: 내 Mac mini M4로 어디까지 가나
결론은 꽤 명확하다.
내 Mac mini M4 16GB로는:
- Gemma 4 E2B / E4B 실험 가능
- TB4 기반의 분산 추론 실험 가능
- 하지만 26B-A4B / 31B를 안정적으로 돌리기엔 부족
- 그리고 RAM을 직접 공유하는 확장은 기대하기 어려움
즉, 내가 원한 건 단순히 “연결되는가”가 아니라 “이 장비로 Gemma 4를 어디까지 돌릴 수 있는가”였고, 그 답은 결국 장비 선택 문제로 이어졌다.
그래서 실질적인 선택지는 두 개다.
- Mac mini M4 Pro를 산다
- TB5 지원
- 더 큰 unified memory 옵션
- 향후 RDMA/JACCL 기반 확장 가능성
- 다른 기기 사양을 다시 검토한다
- 처음부터 24GB/32GB/48GB 이상 unified memory를 가진 머신
- 큰 Gemma 4 모델을 로컬에서 쓰기 더 수월
내 경우에는 후자가 더 솔직한 결론이다. M4 base는 작은 모델 실험용으로는 충분하지만, Gemma 4 확장을 전제로 한 선택은 아니다.
한 줄 결론
- 16GB M4 Mac mini: Gemma 4 소형 모델은 가능
- TB4 클러스터: 분산 추론 실험은 가능, 메모리 통합은 아님
- 실사용 확장: M4 Pro Mac mini 또는 더 큰 unified memory 기기를 검토해야 함
참고 링크
- 유튜브: https://youtu.be/bSq54AMAH0I?si=B6uuOydRaRR6OJWY
- Apple Mac mini 기술 사양: https://www.apple.com/mac-mini/specs/
- Apple Developer TN3205: https://developer.apple.com/documentation/technotes/tn3205-low-latency-communication-with-rdma-over-thunderbolt?changes=l_5
- MLX distributed documentation: https://ml-explore.github.io/mlx/build/html/usage/distributed.html
- Google Gemma 4 발표: https://developers.googleblog.com/bring-state-of-the-art-agentic-skills-to-the-edge-with-gemma-4/
- Unsloth Gemma 4 문서: https://unsloth.ai/docs/models/gemma-4