Ollama는 기본적으로 **거대 언어 모델(LLM)**을 로컬에서 실행하기 위한 도구입니다. 따라서 Stable Diffusion처럼 직접 이미지를 생성(Text-to-Image)하는 기능은 현재 Ollama 자체에 포함되어 있지 않습니다.
하지만 Ollama에는 이미지를 분석하고 설명할 수 있는 ‘멀티모달(Vision)’ 모델들이 있으며, 이를 이미지 생성 서비스(Stable Diffusion 등)와 연동하여 사용하는 것이 일반적입니다.
관련된 내용을 세 가지 범주로 나누어 정리해 드립니다.
1. Ollama에서 실행 가능한 ‘이미지 분석’ 모델 (Vision Models)
이 모델들은 이미지를 업로드하면 그 내용을 텍스트로 설명해 주거나 질문에 답해줍니다. (이미지 생성은 불가능)
-
Llava (Large Language-and-Vision Assistant): 가장 대표적인 멀티모달 모델입니다. 이미지의 상황을 설명하거나 이미지 속 글자를 읽는 능력이 뛰어납니다.
-
실행: ollama run llava
-
-
Bakllava: Llava의 개량 버전으로 Mistral 모델을 기반으로 하여 성능이 더 향상되었습니다.
-
실행: ollama run bakllava
-
-
Moondream: 가벼운 멀티모달 모델로, 사양은 낮지만 이미지 인식 속도가 매우 빠릅니다.
-
실행: ollama run moondream
-
-
Phi-3 Vision: Microsoft에서 만든 가벼우면서도 강력한 멀티모달 모델입니다.
-
실행: ollama run phi3:vision
-
2. Ollama와 함께 사용하여 ‘이미지 생성’을 하는 방법
Ollama 자체는 이미지를 못 만들지만, Ollama를 활용한 웹 UI 도구를 사용하면 마치 이미지 생성이 가능한 것처럼 환경을 구축할 수 있습니다.
-
Open WebUI (구 Ollama WebUI):
-
Ollama의 대표적인 인터페이스 도구입니다.
-
설정에서 Stable Diffusion 또는 DALL-E 3 API를 연결하면, 채팅창 안에서 직접 이미지를 생성할 수 있습니다.
-
Ollama 모델에게 “이미지 생성을 위한 프롬프트를 짜줘”라고 시키고, 그 프롬프트를 바로 이미지 생성기로 보내는 방식입니다.
-
3. 로컬에서 ‘이미지 생성’을 직접 하고 싶다면? (추천 도구)

Ollama처럼 로컬 PC에서 이미지를 직접 생성하고 싶다면 아래 도구들을 설치해야 합니다. (이들은 Ollama와 별개의 프로그램입니다.)
-
Fooocus: 설치가 가장 쉽고 사용법이 간단하여 초보자에게 가장 추천하는 도구입니다.
-
Stable Diffusion WebUI (Automatic1111): 가장 기능이 많고 확장성이 뛰어나지만 설정이 다소 복잡합니다.
-
ComfyUI: 노드 기반 방식으로 전문적인 이미지 생성을 할 때 사용합니다.
요약
-
Ollama로 이미지를 만들 수 있나요? 아니요, 불가능합니다.
-
Ollama로 이미지를 분석할 수 있나요? 네, llava, moondream, phi3:vision 등의 모델을 쓰면 됩니다.
-
이미지 생성을 하고 싶다면? Fooocus나 Stable Diffusion을 별도로 설치하거나, Open WebUI를 통해 두 서비스를 연동해야 합니다.