먼저 중요한 점을 명확히 해야 합니다. Google의 Gemini(Pro, Flash 등) 모델은 클라우드 기반 API로 작동하기 때문에, 순수하게 오프라인 상태에서는 사용할 수 없습니다.
하지만, 두 가지 대안을 통해 원하는 환경을 구축할 수 있습니다.
-
Gemini CLI 설치 (온라인 상태 필요): 터미널에서 Gemini API를 호출하여 사용하는 방법.
-
Gemma 설치 (완전 오프라인 가능): Google에서 공개한 오픈 모델인 Gemma를 내 컴퓨터에 직접 설치하여 인터넷 없이 사용하는 방법.
방법 1: Gemini CLI 설치 (Google API 사용)
인터넷은 연결되어 있어야 하지만, 내 로컬 터미널에서 Gemini를 명령어로 제어하는 방법입니다.
1단계: API 키 발급
-
Google AI Studio에 접속합니다.
-
“Get API key”를 클릭하여 키를 생성하고 복사해 둡니다.
2단계: Python 기반 CLI 설치
가장 간단한 방법은 Python을 이용해 직접 CLI 환경을 만드는 것입니다.
# 관련 라이브러리 설치
pip install -q -U google-generativeai
3단계: 환경 변수 설정
터미널에서 API 키를 인식할 수 있게 등록합니다 (Mac/Linux 기준).
export GOOGLE_API_KEY='본인의_API_키'
4단계: 간단한 실행 스크립트 (gemini-cli)
gemini.py 파일을 만들고 아래 코드를 넣으면 즉시 CLI로 쓸 수 있습니다.
import os
import google.generativeai as genai
import sys
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])
model = genai.GenerativeModel('gemini-1.5-flash')
def ask_gemini(prompt):
response = model.generate_content(prompt)
print(f"\nGemini: {response.text}")
if __name__ == "__main__":
if len(sys.argv) > 1:
ask_gemini(" ".join(sys.argv[1:]))
사용법: python gemini.py “안녕, 반가워”
방법 2: 완전 오프라인 사용 (Ollama + Gemma 2)

인터넷 연결 없이 로컬 환경에서 Google의 기술을 사용하고 싶다면, Google의 오픈 모델인 Gemma 2를 사용해야 합니다.
1단계: Ollama 설치
Ollama는 로컬에서 AI 모델을 가장 쉽게 실행해주는 도구입니다.
-
Ollama 공식 홈페이지에서 OS에 맞는 파일을 다운로드하고 설치합니다.
2단계: Gemma 2 모델 다운로드 (최초 1회만 인터넷 필요)
터미널을 열고 아래 명령어를 입력합니다.
ollama run gemma2
-
Gemma 2 9b: 일반적인 성능 (약 5.4GB)
-
Gemma 2 2b: 가벼운 사양 (약 1.6GB)
3단계: 오프라인 사용
다운로드가 완료되면 이제 인터넷을 끊어도 터미널에서 바로 대화할 수 있습니다.
-
실행법: 터미널에 ollama run gemma2 입력
-
종료법: /bye 입력 또는 Ctrl + D
요약 및 추천
| 구분 | Gemini CLI (방법 1) | Gemma 로컬 (방법 2) |
| 인터넷 연결 | 필수 | 불필요 (최초 설치 후) |
| 모델 성능 | 매우 높음 (Gemini 1.5) | 높음 (사양에 따라 다름) |
| PC 사양 | 상관없음 (저사양 가능) | 중요 (RAM 8GB~16GB 이상 권장) |
| 비용 | 무료 티어 한도 내 무료 | 완전 무료 |
결론:
-
단순히 터미널에서 편하게 쓰고 싶다면 **방법 1(Gemini API)**을 추천합니다.
-
보안이 중요하거나 인터넷이 없는 환경에서 써야 한다면 **방법 2(Ollama + Gemma)**를 강력 추천합니다.