머신러닝 백터(임베딩) 모델 생성 및 Msty 어플리케이션 로드 가이드

1. 벡터 모델(임베딩 모델) 생성

데이터 전처리
- 원시 데이터를 정제 및 형식화 (결측값 처리, 불필요한 열 제거 등).
- 예시: 텍스트라면 소문자화, 특수문자 제거, 토큰화 등.
특성 추출(피처 벡터화) 및 임베딩 모델 학습
- 텍스트의 경우: TF-IDF, Word2Vec, BERT 등 사용.
- 예시 코드 (Python, HuggingFace Transformers):
  
  python
  
  from transformers import AutoTokenizer, AutoModel import torch # 임베딩 모델 로드 (예시: Sentence-BERT) tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2") model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2") # 텍스트 임베딩 생성 inputs = tokenizer("예시 문장입니다.", return_tensors="pt") with torch.no_grad(): embeddings = model(**inputs).last_hidden_state.mean(dim=1)
- 임베딩 결과를 .pt, .npy, .csv 등 파일로 저장.
로컬 모델 저장
- 학습된 모델 파일 또는 사전학습 임베딩 모델 파일을 로컬 폴더에 저장.

Msty는 로컬·오픈소스 AI 모델을 쉽게 관리할 수 있는 데스크톱 앱입니다. 다음 단계에 따라 임베딩/벡터 모델을 활용할 수 있습니다.

공식 웹사이트에서 본인 OS에 맞는 Msty 앱 설치

다운로드 및 설치는 일반적으로 자동 설치 프로그램을 실행하면 됩니다.
앱 실행 후, 첫 화면에서 ‘SETUP LOCAL AI’ 선택

로컬 모델을 운영하려면 이 옵션을 클릭하며, 초기에는 Gemma, Llama, DeepSeek, Qwen3 등 다양한 모델 선택 가능.

온라인에서 모델찾기… Model Hub에서 조회하여 LG의 엑사온(exaone3.5)을 선택 설치할 수 있다.

Local AI 또는 Knowledge Stack(지식 스택) 메뉴 이동

벡터/임베딩 기반 RAG를 위해 Knowledge Stack에서 원하는 모델을 선택할 수 있습니다.
“Add your first knowledge stack” 클릭
- Knowledge Stack은 PDF, CSV, JSON 등 다양한 데이터 파일을 추가하여 AI가 해당 자료에서 정보를 추출할 수 있도록 함.
- 임베딩 모델은 Snowflake Arctic Embed 등 권장 모델 선택 가능.
명령어/설정 과정
- 실제로 Msty 내에서 복잡한 명령어 입력 없이, 대부분 클릭 방식으로 진행됨.
- 임베딩 모델 직접 업로드 필요 시:
  - “모델 매니저” 또는 “모델 라이브러리”에서 [임베딩] 카테고리 선택
  - 또는 원하는 모델 이름을 검색 후 다운로드
- 외부에서 생성한 커스텀 임베딩 모델이나 파일을 추가할 경우, Knowledge Stack 내 ‘Add Files’(파일 추가) 기능 사용
파일 추가 및 임베딩 진행
- PDF, CSV 등의 자료를 Knowledge Stack에 드래그&드롭 또는 ‘파일 선택’으로 추가
- ‘임베딩 시작’(Start Embedding) 버튼 클릭 시, 임베딩 모델로 자동 변환
이 과정은 별도의 CLI 명령보다 GUI 기반으로 이루어짐.

모델 설정
- 상단 메뉴나 좌측 ‘Model Selector’(모델 선택기)에서 임베딩 모델 지정
- 카테고리: [임베딩] 으로 설정된 모델은 벡터 기반 검색 및 지식확장에 사용됨.
모델 핀(Pin) 기능
- 자주 사용하는 모델을 상단에 고정하여 빠르게 선택 가능
- 모델명 옆 ‘Pin’ 아이콘 클릭
API 연동(선택)
- OpenAI, Gemini 등 외부 대형 서비스 API를 추가하면, 클라우드 모델도 선택 사용 가능

대부분의 과정이 GUI 기반이므로 별도로 터미널에서 명령어나 config 파일 편집을 필요로 하지 않음.
다만, 임베딩 모델을 외부에서 직접 생성할 땐 Python, HuggingFace Transformers, scikit-learn 등에서 제공하는 커맨드/스크립트를 활용.

Msty의 핵심은 마우스 클릭 몇 번으로 임베딩 모델 관리, 데이터 Knowledge Stack 구성, 벡터 모델 로드 모두가 가능하다는 점에 있습니다.

복잡한 설정이나 명령어 입력 없이 누구나 쉽게 사용할 수 있도록 설계된 점이 최대 강점입니다.