본문 바로가기

Programming!

이제 슬슬 로컬 RAG 의 모델을 Exaone3.5 로 변경해보려고 한다.

딥시크가 나온날 로컬에 이것저것 구축해서 완료한 상태이기는 한데...

우선 처음 단계라 생각하고, 흐름을 적어 본다.

 

----

이것 저것 구찮아서. 내 로컬환경과 함께 로컬 LLM 툴중에 무엇이 좋을지 AI 에게 물어 보았다.

 

클로드의 답변은 아래와 같다. ( GPT 도 동일 )

 

M3 Max를 위한 추천 Ollama를 추천합니다.

그 이유는:
- Apple Silicon(M3 Max)에 최적화된 네이티브 지원
- 설치와 실행이 간단함 (brew install ollama 또는 DMG 파일로 설치)
- 모델 관리가 직관적 (ollama pull mistral 같은 명령어로 간단히 모델 다운로드)
- 개발자 API 통합이 간단함
- M3 Max의 성능을 효율적으로 활용 가능
- 별도의 복잡한 환경 설정 없이도 강력한 성능 발휘

 

해서 Ollama 구경을 떠나 보았다. https://ollama.com

 

그럼, 다운로드 페이지가 있었지만.. brew 도 있겠지 하고 찾아보니 있다.

https://formulae.brew.sh/formula/ollama

 

ollama

Homebrew’s package index

formulae.brew.sh

 

음.. docker 기반으로 설치를 할까? 아님 그냥 로컬에 인스톨 형태로 할까? 고민하다가 32B 버전으로 가고 싶기도 하고.. M3Max의 쿨러도 돌려보고 싶어서. brew로 정해보았다. 

 

Docker : https://hub.docker.com/r/ollama/ollama

 

https://hub.docker.com/r/ollama/ollama

 

hub.docker.com

 

설치

#> brew install ollama

 

설치가 끝난후  AI 모델을 실행한다. 32b 는 용량상 조금 오래 걸린다.

#> ollama run exaone3.5:32b

 

콘솔로 무언가를 할 수 없으니 web-ui를 설치하자.

#> ollama serve

 

#> pip install open-webui

#> open-webui serve

 

open-webui의 경우 업데이트가 자주 있으니 그때그때 업데이트를 해주자.

 

브라우져를 열고 http://localhost:8080 을 실행해보자.

 

그래서 질문을 해본다.

 

역시 쿨러가 잘 돈다. ㅎㅎㅎ

다음에는 Ollama API 를 이용해 Langchain4J와 연동해보자.