Mistral은 전 Meta 및 DeepMind 연구원들이 만든 프랑스 스타트업입니다. Apache 2.0 라이센스에 따라 이 모델은 완전히 오픈 소스이면서도 LLaMA 2 및 ChatGPT 3.5보다 강력하다고 주장합니다. 우리는 이를 무수정으로 사용하는 방법을 배우고 데이터로 훈련하는 방법을 알아볼 것입니다.
ChatGPT가 AI 업계의 유일한 솔루션이었던 시절은 오래 전의 일입니다. Meta와 Google이 각각 개발한 LLaMA 및 Gemini와 같은 새로운 플레이어가 이 분야에 진출했습니다. 다양한 도구와 구현에도 불구하고 공통성을 공유합니다. 즉, 폐쇄 소스(LLaMA의 일부 예외 제외)이며 거대 기술 회사의 통제를 받습니다.
이 기사에서는 ChatGPT 3.5보다 성능이 뛰어나고 로컬에서 실행할 수 있는 오픈 소스 도구를 자랑하는 AI 업계의 새로운 경쟁자를 살펴봅니다. 또한 무수정으로 사용하는 방법과 자체 데이터로 훈련하는 방법도 알아봅니다.
미스트랄 8x7B 소개
Mistral은 전 Meta 및 DeepMind 연구원들이 설립한 프랑스 스타트업입니다. 광범위한 지식과 경험을 활용하여 그들은 미화 4억 1,500만 달러의 투자를 성공적으로 유치하여 Mistral의 가치를 미화 20억 달러로 끌어올렸습니다.
Mistral 팀은 X에 새로운 모델인 Mistral 8x7B에 대한 토렌트 링크를 추가하면서 관심을 끌기 시작했습니다. Apache 2.0 라이선스에 따르면 이 모델은 LLaMA 2 및 ChatGPT 3.5보다 강력할 뿐만 아니라 완전히 오픈 소스입니다.
미스트랄의 힘과 능력
32,000개 토큰의 컨텍스트를 처리합니다.
영어, 독일어, 스페인어, 이탈리아어, 프랑스어로 기능됩니다.
코드 생성 시 뛰어난 성능을 발휘합니다.
지시에 따르는 모델로 변형될 수 있다.
테스트에서 Mistral은 대부분의 벤치마크에서 LLaMA 2 70B를 능가하고 다른 벤치마크에서는 ChatGPT 3.5와 일치하거나 능가하는 놀라운 성능을 보여주었습니다.
로컬에서 Mistral 실행
그림과 표를 넘어 실제적인 내용을 시작해 보겠습니다. 먼저 로컬에서 실행하는 데 도움이 되는 도구인 필요합니다. MacOS 사용자는 파일을 다운로드할 수 있습니다. Linux 또는 WSL 사용자의 경우 다음 명령을 터미널에 붙여넣습니다.
curl //ollama.ai/install.sh | sh
그런 다음 로컬에서 LLM을 실행할 수 있지만 단순히 AI가 무작위 질문에 답하는 것을 목표로 하는 것이 아닙니다. 이것이 바로 ChatGPT의 목적입니다. 우리는 우리의 선호도에 따라 조정하고 미세 조정할 수 있는 검열되지 않은 AI를 목표로 하고 있습니다.
이를 고려하여 모든 제약을 해소한 미스트랄의 커스텀 버전인 돌핀-미스트랄(dolphin-mistral)을 사용하겠습니다. 돌고래-미스트랄이 이러한 제약을 어떻게 제거했는지 자세히 알아보려면 제작자가 작성한 이 확인하세요.
컴퓨터에서 Ollama 실행을 시작하려면 터미널에서 다음 명령을 실행하세요.
ollama serve
그런 다음 다른 터미널에서 다음을 실행합니다.
ollama run dolphin-mistral:latest
초기 다운로드에는 26GB를 다운로드해야 하므로 시간이 많이 걸릴 수 있습니다. 다운로드가 완료되면 mistral은 귀하의 입력을 기다립니다.
Dolphin-mistral을 실행하려면 상당한 시스템 리소스, 특히 RAM이 필요합니다.
나만의 모델 훈련
이제 데이터를 사용하여 mistral을 훈련할 수 있는 가능성이 궁금할 것입니다. 대답은 '그렇다'입니다.
Hugging Face에 계정을 만드는 것부터 시작하고(아직 계정이 없는 경우) 새 공간을 만드세요.
Autotrain용 Docker 선택
여기에서 모델을 선택하고, 데이터를 업로드하고, 훈련을 시작할 수 있습니다. 하드웨어 요구 사항으로 인해 가정용 컴퓨터에서 모델을 훈련하는 것은 어려울 수 있습니다.
Hugging Face와 같은 서비스는 (유료) 컴퓨팅 성능을 제공하지만 프로세스를 가속화하기 위해 Amazon Bedrock 또는 Google Vertex AI를 고려할 수도 있습니다.