gemini cli 로컬에 설치하여 오프라인으로 사용하는 방법

먼저 중요한 점을 명확히 해야 합니다. Google의 Gemini(Pro, Flash 등) 모델은 클라우드 기반 API로 작동하기 때문에, 순수하게 오프라인 상태에서는 사용할 수 없습니다.

하지만, 두 가지 대안을 통해 원하는 환경을 구축할 수 있습니다.

Gemini CLI 설치 (온라인 상태 필요): 터미널에서 Gemini API를 호출하여 사용하는 방법.
Gemma 설치 (완전 오프라인 가능): Google에서 공개한 오픈 모델인 Gemma를 내 컴퓨터에 직접 설치하여 인터넷 없이 사용하는 방법.

방법 1: Gemini CLI 설치 (Google API 사용)

인터넷은 연결되어 있어야 하지만, 내 로컬 터미널에서 Gemini를 명령어로 제어하는 방법입니다.

1단계: API 키 발급

Google AI Studio에 접속합니다.
“Get API key”를 클릭하여 키를 생성하고 복사해 둡니다.

2단계: Python 기반 CLI 설치

가장 간단한 방법은 Python을 이용해 직접 CLI 환경을 만드는 것입니다.

Bash

# 관련 라이브러리 설치
pip install -q -U google-generativeai

3단계: 환경 변수 설정

터미널에서 API 키를 인식할 수 있게 등록합니다 (Mac/Linux 기준).

Bash

export GOOGLE_API_KEY='본인의_API_키'

4단계: 간단한 실행 스크립트 (gemini-cli)

gemini.py 파일을 만들고 아래 코드를 넣으면 즉시 CLI로 쓸 수 있습니다.

Python

import os
import google.generativeai as genai
import sys

genai.configure(api_key=os.environ["GOOGLE_API_KEY"])
model = genai.GenerativeModel('gemini-1.5-flash')

def ask_gemini(prompt):
    response = model.generate_content(prompt)
    print(f"\nGemini: {response.text}")

if __name__ == "__main__":
    if len(sys.argv) > 1:
        ask_gemini(" ".join(sys.argv[1:]))

사용법: python gemini.py “안녕, 반가워”

방법 2: 완전 오프라인 사용 (Ollama + Gemma 2)

인터넷 연결 없이 로컬 환경에서 Google의 기술을 사용하고 싶다면, Google의 오픈 모델인 Gemma 2를 사용해야 합니다.

1단계: Ollama 설치

Ollama는 로컬에서 AI 모델을 가장 쉽게 실행해주는 도구입니다.

Ollama 공식 홈페이지에서 OS에 맞는 파일을 다운로드하고 설치합니다.

2단계: Gemma 2 모델 다운로드 (최초 1회만 인터넷 필요)

터미널을 열고 아래 명령어를 입력합니다.

Bash

ollama run gemma2

Gemma 2 9b: 일반적인 성능 (약 5.4GB)
Gemma 2 2b: 가벼운 사양 (약 1.6GB)

3단계: 오프라인 사용

다운로드가 완료되면 이제 인터넷을 끊어도 터미널에서 바로 대화할 수 있습니다.

실행법: 터미널에 ollama run gemma2 입력
종료법: /bye 입력 또는 Ctrl + D

요약 및 추천

구분	Gemini CLI (방법 1)	Gemma 로컬 (방법 2)
인터넷 연결	필수	불필요 (최초 설치 후)
모델 성능	매우 높음 (Gemini 1.5)	높음 (사양에 따라 다름)
PC 사양	상관없음 (저사양 가능)	중요 (RAM 8GB~16GB 이상 권장)
비용	무료 티어 한도 내 무료	완전 무료

결론:

단순히 터미널에서 편하게 쓰고 싶다면 **방법 1(Gemini API)**을 추천합니다.
보안이 중요하거나 인터넷이 없는 환경에서 써야 한다면 **방법 2(Ollama + Gemma)**를 강력 추천합니다.