머신러닝 백터(임베딩) 모델 생성 및 Msty 어플리케이션 로드 가이드

1. 벡터 모델(임베딩 모델) 생성

  1. 데이터 전처리

    • 원시 데이터를 정제 및 형식화 (결측값 처리, 불필요한 열 제거 등).

    • 예시: 텍스트라면 소문자화, 특수문자 제거, 토큰화 등.

  2. 특성 추출(피처 벡터화) 및 임베딩 모델 학습

    • 텍스트의 경우: TF-IDF, Word2Vec, BERT 등 사용.

    • 예시 코드 (Python, HuggingFace Transformers):

      python
      from transformers import AutoTokenizer, AutoModel
      import torch
      # 임베딩 모델 로드 (예시: Sentence-BERT)
      tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
      model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
      # 텍스트 임베딩 생성
      inputs = tokenizer("예시 문장입니다.", return_tensors="pt")
      with torch.no_grad():
      embeddings = model(**inputs).last_hidden_state.mean(dim=1)
    • 임베딩 결과를 .pt.npy.csv 등 파일로 저장.

  3. 로컬 모델 저장

    • 학습된 모델 파일 또는 사전학습 임베딩 모델 파일을 로컬 폴더에 저장.

2. MSTY 어플리케이션에서 모델 로드

Msty는 로컬·오픈소스 AI 모델을 쉽게 관리할 수 있는 데스크톱 앱입니다. 다음 단계에 따라 임베딩/벡터 모델을 활용할 수 있습니다.

(1) MSTY 설치 및 초기 설정

  • 공식 웹사이트에서 본인 OS에 맞는 Msty 앱 설치

    다운로드 및 설치는 일반적으로 자동 설치 프로그램을 실행하면 됩니다.

  • 앱 실행 후, 첫 화면에서 ‘SETUP LOCAL AI’ 선택

    로컬 모델을 운영하려면 이 옵션을 클릭하며, 초기에는 Gemma, Llama, DeepSeek, Qwen3 등 다양한 모델 선택 가능.

    온라인에서 모델찾기… Model Hub에서 조회하여 LG의 엑사온(exaone3.5)을 선택 설치할 수 있다.

(2) 임베딩 모델(벡터 모델) 로드 및 지식 스택 구성

  • Local AI 또는 Knowledge Stack(지식 스택) 메뉴 이동

    벡터/임베딩 기반 RAG를 위해 Knowledge Stack에서 원하는 모델을 선택할 수 있습니다.

  • “Add your first knowledge stack” 클릭

    • Knowledge Stack은 PDF, CSV, JSON 등 다양한 데이터 파일을 추가하여 AI가 해당 자료에서 정보를 추출할 수 있도록 함.

    • 임베딩 모델은 Snowflake Arctic Embed 등 권장 모델 선택 가능.

  • 명령어/설정 과정

    • 실제로 Msty 내에서 복잡한 명령어 입력 없이, 대부분 클릭 방식으로 진행됨.

    • 임베딩 모델 직접 업로드 필요 시:

      • “모델 매니저” 또는 “모델 라이브러리”에서 [임베딩] 카테고리 선택

      • 또는 원하는 모델 이름을 검색 후 다운로드

    • 외부에서 생성한 커스텀 임베딩 모델이나 파일을 추가할 경우, Knowledge Stack 내 ‘Add Files’(파일 추가) 기능 사용

  • 파일 추가 및 임베딩 진행

    • PDF, CSV 등의 자료를 Knowledge Stack에 드래그&드롭 또는 ‘파일 선택’으로 추가

    • ‘임베딩 시작’(Start Embedding) 버튼 클릭 시, 임베딩 모델로 자동 변환

    이 과정은 별도의 CLI 명령보다 GUI 기반으로 이루어짐.

3. 모델 선택 및 사용

  • 모델 설정

    • 상단 메뉴나 좌측 ‘Model Selector’(모델 선택기)에서 임베딩 모델 지정

    • 카테고리: [임베딩] 으로 설정된 모델은 벡터 기반 검색 및 지식확장에 사용됨.

  • 모델 핀(Pin) 기능

    • 자주 사용하는 모델을 상단에 고정하여 빠르게 선택 가능

    • 모델명 옆 ‘Pin’ 아이콘 클릭

  • API 연동(선택)

    • OpenAI, Gemini 등 외부 대형 서비스 API를 추가하면, 클라우드 모델도 선택 사용 가능

참고: 명령어 vs. GUI

  • 대부분의 과정이 GUI 기반이므로 별도로 터미널에서 명령어나 config 파일 편집을 필요로 하지 않음.

  • 다만, 임베딩 모델을 외부에서 직접 생성할 땐 Python, HuggingFace Transformers, scikit-learn 등에서 제공하는 커맨드/스크립트를 활용.

워크플로우 요약

  1. 데이터 준비 및 임베딩 모델 생성/저장

  2. Msty 앱 설치 및 실행

  3. Knowledge Stack(지식 스택)에 모델 및 자료 ‘추가’

  4. 파일 임베딩 자동 적용

  5. 모델 선택 및 실제 대화/검색에 활용

Msty의 핵심은 마우스 클릭 몇 번으로 임베딩 모델 관리, 데이터 Knowledge Stack 구성, 벡터 모델 로드 모두가 가능하다는 점에 있습니다.

참고로, 모델 생성/임베딩 데이터 생성은 Python 등의 외부 환경에서, 로드와 활용은 Msty에서 주로 이루어집니다.

복잡한 설정이나 명령어 입력 없이 누구나 쉽게 사용할 수 있도록 설계된 점이 최대 강점입니다.