매주 새로운 AI 모델이 출시됩니다.
가끔은 LLM을 변경하는 것이 단순히 무의미할 수 있지만, 새로운 모델이 매력적으로 느껴진다면 테스트할 방법이 있습니다.
Llama.CPP는 놀라운 라이브러리입니다. 50MB의 코드로 PC에서 매우 효율적인 AI 모델을 실행할 수 있습니다. 게다가 GPU도 필요하지 않습니다!
이 문서에서는 llama-cpp-python을 사용하여 PC에서 GGUF(양자화된) 모델을 실행하는 네 가지 방법을 살펴보겠습니다. 놀랄만한 AI 애플리케이션을 만드는 동안 설계도로 생각해보세요.
시작합시다.
준비 사항
시작하기 전에 약간의 환경 설정이 필요합니다. 다음 라이브러리가 각 방법에 필요합니다:
- langchain (langchain.LlamaCpp을 로드하고 추론을 실행하기 위한 라이브러리)
- llama-cpp-python[server] (대부분의 메서드에 사용됨)