산업생태계/스타트업

sLLM(소형 언어 모델)의 이야기와 확장 가능성

미아스마 2023. 7. 23.

데이터브릭스의 sLLM '돌리'

 

1. 인공지능(AI) 언어 모델은 자연어 처리(NLP) 작업에 필수적인 도구다. 언어 모델은 말뭉치(corpus)라고 하는 대량의 텍스트 데이터로부터 언어의 규칙과 패턴을 학습하여 새로운 문장을 생성하거나 이해하는 능력을 갖는다.

 

2. 최근에는 대형 언어 모델(LLM)이 주목받고 있다. LLM은 엄청난 양의 데이터와 파라미터로 사전 훈련(pre-training)을 시키고, 다양한 NLP 작업(자연어 처리 과정)에 적용하기 위해 미세조정(fine-tuning)을 하는 방식이다. LLM은 문장 생성, 질의응답, 요약 등의 작업에서 놀라운 성능을 보여주고 있다.

 

3. 하지만 LLM은 그만큼 비용과 시간이 많이 든다. LLM을 학습시키기 위해서는 슈퍼컴퓨터나 클라우드 서비스를 이용해야 하며, 수개월에서 수년에 걸친 시간이 필요하다. 또한 LLM은 일반화(generalization)에 초점을 맞추기 때문에 특정 분야나 도메인에서는 성능이 떨어질 수 있다. 이러한 문제점을 해결하기 위해 소형 언어 모델(sLLM)이 등장했다.

 

4. sLLM은 LLM에 비해 파라미터(매개변수)가 적은 언어 모델입니다. sLLM은 LLM보다 훈련 및 추론 시간이 짧고 비용이 저렴하다. sLLM은 특정 분야나 도메인에 맞춰 미세조정(fine-tuning)을 통해 LLM과 비슷한 성능을 낼 수 있다.

 

5. 예를 들어, 데이터브릭스는 챗 GPT와 유사한 성능을 내는 sLLM '돌리’를 출시했습니다. 돌리는 학습에 3시간이 들었으며, 비용은 고작 30달러에 불과했다. 스탠포드대학교는 라마 7B를 기반으로 한 sLLM '알파카’를 공개했고, AI 칩 기업 세레브라스는 다양한 패키지의 sLLM 모델을 선보였습니다. 갓잇AI는 온프레미스(사내구축형) 형태의 sLLM '엘마’를 출시했다.


sLLM은 LLM의 대안이 될 수 있을까?

6. sLLM은 LLM의 장점을 살리면서 단점을 보완하는 모델이다. sLLM은 비용과 시간을 절약하면서도 특정 분야나 도메인에서 높은 성능을 보일 수 있다. sLLM은 맞춤형 AI 모델을 구축하는 데 유용하다.

 

7. 하지만 sLLM도 완벽하지는 않습니다. sLLM은 LLM보다 데이터와 파라미터가 적기 때문에 일반화(generalization)에는 한계가 있다. sLLM은 특정 분야나 도메인에 최적화되어 있기 때문에 다른 분야나 도메인에 적용하기 어려울 수 있다. 또한 sLLM은 LLM보다 새로운 지식을 습득하거나 창의적인 문장을 생성하는 능력이 떨어질 수 있다.

8.  sLLM은 특정 분야나 도메인에서 맞춤형 AI 모델을 구축하고자 하는 기업이나 연구자들에게 유용한 도구가 될 가능성이 높다. 

댓글