본문 바로가기
섹터공부

Deepseek 딥씨크 AI가 바꿔버린 AI분야의 지각변동! 수혜주는?

by traderbaekdoosan 2025. 2. 2.

딥시크에 대해서 개인정보에 대해서 한번 포스팅한 내용을 조금더 심도있게 다뤄보려고 합니다. 

중국이 무분별하게 학습데이터를 긁어모아서 개인정보든 민감정보든 무지성으로 죄다 학습만 때려박은게 아닙니다. 그런 부분이 중국정부의 휘호속에서 잉큐베이팅 되고, 막강한 지원을 받아가며 (우리나라에서는 각종 규제 때문에 그리고 노조 때문에 R&D에 집중해서 돈을 쓰기가 힘들어서 혁신이 일어나기 참 어려운데.. 이런 부분은 중국이 부러우면서 무섭습니다.)

MoE (Mixture of Expert)기반 초거대 언어 모델: 개념, 학습, 통합 및 최적화

딥시크에서 가장 혁명적으로 바뀐 패러다임의 변화는, LLM (large language model)의 소형화, 전문화, 분업화 입니다. 예전에는 다방면에 능통한 초천재 한명이 하던것을 이제는 특정 분야의 전문가이지만, 다른쪽은 잘 못하는 사람들을 각 분야별로 고용해서, 다방면을 두루 알지만, 전문가는 아닌 대장이 일을 받으면 어떤 전문가에게 맡길지 결정하고, 그 전문가에게 보내주면, 해당 전문가가 본인이 가진 도메인 knowledge 안에서 답변을 내놓고, 이것이 한분야가 아닐수 있으니, 각 분야에서 도출된 정보를 조합하여, 대장이 답변을 내놓는 방식입니다. 그렇다면,  GPU가 전체 프로세스안에서 다같이 쓰이는게 아니고, 특정 분야만 잘 하면되기때문에 GPU의 사용량이 매우 효율화가 높아지게 됩니다. 그럼 HBM3(High Bandwidth Memory) 같은 기존 DRAM으로 처리하지 못하는 내용을 처리해주기 위한 슈퍼컴의 역할보다는, 각각의 분산된 노드에서 이전방식으로 학습하던 방식으로 하더라도 충분히 좋은 결과를 내놓을수 있게된 것으로 이해하시면 됩니다.

 

와닿으실지 모르겠지만, 음성인식으로 히트를 쳤던 상품이 있는데, 바로 Dragon dictation이라는 Nuance의 최초로 음성인식으로 돈벌던 프로그램입니다. 의사들이 prescription을 써줄때 하도 휘갈겨쓰고 못알아먹게 쓰다보니, 이런 부분을 해소해보고자, 음성인식이 특정 어려운 의학적 어휘들을 인식해서 처방전을 잘 써주는 기능이었고, 매우 비싼 값이였음에도 불구하고 어느정도 매출이 나왔던 상품입니다. 의사들 사이에서는 나름 센세이션이었다고 합니다. 그러나 이 엔진의 한계는 명확하여, 의사의 처방전같은것은 잘 인식하지만, 일반적인 어휘나, 요즘 가장 많이 쓰이는 자동차의 길안내할때 목적지 검색이나, 폰에서 누구누구에게 전화할때쓰는 이름인식같은 부분은 완전 인식할수 없는 특정 형태만 잘하는 음성인식 엔진으로 생각하시면 될것 같습니다. 이와 같이 특정 분야만 집중해서 파게되면, 그 분야만 잘하게 되는 모듈을 학습하고 돌리는건 작은 모델 (SLLM, Small LLM) 으로도 충분한데, SLLM의 효과가 딥시크에서 그 열매를 맺은것으로 이해하시면 될것 같습니다. 

Mixtral 8x7B 모델의 모식화 각각 7B크기의 전문가모델 8개를 붙인 형태

 

그럼 본격적으로 MoE 부터 시작해서 조금더 깊이 들어가보겠습니다. 마지막에 이와 관련된 종목까지 정리해보겠습니다.

 

1. MoE란 무엇인가?

MoE는 신경망의 특정 연산(예: MLP 레이어, 어텐션 프로젝션 등)을 여러 개의 Expert 서브네트워크로 나누어 병렬 처리하는 방식입니다. 각 Expert는 특정 입력에 대해 독립적인 계산을 수행하며, 이를 결합하여 최종 출력을 생성합니다.

(1) MoE의 주요 구성 요소

  • Experts (E₁, E₂, ..., Eₙ):
    • 각각 독립적으로 학습된 작은 모델들로, 특정 입력에 대해 특화된 역할을 함.
  • Gating Network:
    • 입력을 보고 어떤 Expert를 활성화할지를 결정하는 역할을 수행.
  • Sparse Activation:
    • 전체 Expert 중 일부만 활성화하여 연산량을 줄임.

(2) Dense MoE vs. Sparse MoE

  • Dense MoE: 모든 입력이 모든 Expert를 활용. (예: chatGPT, Gemini, Grok2, Claude3 등)
  • Sparse MoE: 일부 Expert만 활성화하여 연산량과 비용을 절감. (예: Mixtral 8x7B는 8개 중 2개 Expert만 활성화, Deepseek)

2. 각각의 Expert를 개별적으로 학습하는 방법

각 Expert를 따로 학습하는 방법은 다음과 같습니다.

(1) 데이터 기반 Expert 학습

특정 데이터 도메인에 맞게 개별 Expert를 학습하는 방식.

  • Expert 1: 의료 데이터
  • Expert 2: 법률 데이터
  • Expert 3: 일반 뉴스 데이터

→ 특정 도메인에 최적화된 가중치를 학습하여 성능을 높임.

(2) Task-Specific Expert 학습

서로 다른 Task(예: 번역, 요약, 질의응답 등)에 특화된 Expert들을 학습.

  • 질의응답 데이터 → Expert 1
  • 요약 데이터 → Expert 2

  Task별 최적화가 가능하며, OpenAI의 Codex, DALL·E 등이 유사한 방식.

 

3. 학습된 Expert들을 결합하여 거대한 모델 생성

MoE 모델을 구성하기 위해 학습된 Expert들을 하나의 네트워크로 결합하는 방법.

(1) Gating Network를 활용한 통합

  • Softmax 기반의 가중치 분배 방식을 활용.
  • 입력에 따라 특정 Expert를 선택적으로 활성화.

구체적인 과정

  1. 입력 x를 모든 Expert에 전달하여 개별 출력 계산.
  2. Gating Network가 Softmax를 사용하여 Expert 가중치 결정.
  3. 가중치를 곱해 최종 결과 생성. Output=w1E1(x)+w2E2(x)+...+wnEn(x)\text{Output} = w_1 E_1(x) + w_2 E_2(x) + ... + w_n E_n(x)

(2) Expert 병합(Merging Experts)

  • 유사한 역할을 하는 Expert들을 병합하여 모델을 압축.
  • Feature Space Alignment, Distillation 등을 활용.

 

4. Mixtral 8x7B 모델 실험 결과

MoE 모델의 구조와 동작을 이해하기 위해 NVIDIA에서 진행한 실험을 분석.

(1) 전문가 부하 분배 분석

  • 특정 전문가가 다른 전문가보다 더 많은 토큰을 처리하는 경향 발견.
  • 로드 밸런싱 알고리즘을 적용했음에도 불구하고 불균형 발생.

(2) 특정 도메인과 전문가의 관계

도메인별로 특정 전문가가 더 자주 활성화됨.

  • 추상 대수학 → Expert 3, 8이 주로 활성화.

  • 법률 → Expert 4가 두드러지게 많이 사용됨.

  • 세계 종교 → Expert 8이 압도적으로 많이 사용됨.

→ 특정 토픽에 따라 특정 Expert가 더 많이 사용됨을 확인.

(3) 특정 토큰별 전문가 선호도

  • 콜론(:) → Expert 1, 7에서 주로 처리.
  • 마침표(.) → Expert 3, 8에서 처리.
  • "what", "who" → 특정 Expert에 의해 선호됨.

  토큰의 특성에 따라 특정 Expert가 특화됨을 시사.

Expert모델에서 가장 일반적으로 쓰이는 word token들

 

5. 학습된 Expert들의 결합 및 통합

개별적으로 학습된 Expert들을 결합하여 하나의 거대한 MoE 모델을 만드는 방법에는 여러 접근법이 존재합니다.

(1) Gating Network를 활용한 통합

  • 역할: 입력이 주어졌을 때 어떤 Expert를 활성화할지 결정하는 네트워크로, 보통 Softmax 기반의 가중치 분배 방식을 사용합니다.
  • 구체적 과정:
    1. 각 Expert의 출력 계산:
      • 입력 xx를 모든 Expert에 전달하여 각각의 결과를 도출합니다.
    2. Gating Network의 가중치 산출:
      • Softmax(Wx)\text{Softmax}(Wx)와 같은 방식으로 각 Expert의 중요도를 계산합니다.
    3. 가중치 곱 및 출력 결합:
      • 최종 출력은 w1E1(x)+w2E2(x)+⋯+wnEn(x)w_1 E_1(x) + w_2 E_2(x) + \cdots + w_n E_n(x)로 산출되며, 여기서 wiw_i는 Gating Network가 결정한 가중치입니다.

(2) Expert 병합 (Merging Experts)

  • 접근법: 독립적으로 학습된 Expert들을 병합하여 하나의 통합 모델로 만드는 방법으로, 가중치 평균화, Feature Space Alignment, 또는 Knowledge Distillation 기법을 활용할 수 있습니다.
  • 구체적 과정:
    1. 유사한 Expert 클러스터링:
      • 역할이나 학습 패턴이 유사한 Expert들을 그룹화합니다.
    2. Feature Alignment:
      • 각 Expert 간의 레이어 가중치를 정렬하여 병합합니다.
    3. Knowledge Distillation 적용:
      • 여러 Expert의 지식을 하나의 Student 모델로 압축하여 최종 모델로 통합합니다.

 

6. 최적화 기법 및 추가 개선 방법

효과적인 Expert 학습과 통합을 위해 다음과 같은 추가 기법들이 활용됩니다.

LoRA (Low-Rank Adaptation)

  • 설명: 기존 대형 모델을 완전히 재학습하지 않고, 일부 파라미터만 수정하는 방식으로 각 도메인이나 Task에 맞게 미세 조정할 수 있습니다.
  • 활용: MoE 모델에서도 각 Expert마다 LoRA 기반 미세 조정을 적용하여 가볍고 빠르게 학습할 수 있습니다.

Quantization 및 Sparse MoE

  • Quantization:
    • 8-bit 또는 4-bit 양자화 기법을 적용해 연산량과 메모리 사용량을 줄일 수 있습니다.
  • Sparse Activation:
    • 전체 Expert 중 소수(예: 2~4개)만 활성화함으로써 계산 효율성을 극대화합니다.

실제 활용 예시

  • Google GLaM:
    • GPT-3보다 3배 큰 모델임에도 불구하고, 최대 64개의 Expert 중 2~4개만 활성화하여 연산량을 1/3로 줄인 사례.
  • Branch-Train-MiX (BTM):
    • 서로 다른 Task나 도메인에 대해 개별적으로 학습한 Expert들을 Gating Network를 통해 통합한 방법.
  • DeepSeek, GPT-4 MoE 등:
    • 최신 연구에서 MoE 기반의 초거대 모델이 실제로 활용되는 대표적인 사례들입니다.

7. 정리

MoE 방식은 다음과 같은 단계로 초거대 모델을 생성할 수 있습니다.

  1. 개별 Expert 학습
    • 데이터 기반 또는 Task별로 클러스터링하여 각 Expert가 특정 도메인이나 작업에 특화되도록 독립적으로 학습.
  2. Expert 통합
    • Gating Network를 통해 입력에 맞게 적절한 Expert의 출력을 가중치 결합하거나, 유사한 Expert들을 병합하는 방식으로 하나의 통합 모델 생성.
  3. 최적화 기법 적용
    • LoRA, Quantization, Sparse Activation 등의 기법을 활용해 연산 비용과 메모리 사용량을 줄이고, 학습 효율을 극대화.

이러한 MoE 기반 접근법은 대규모 LLM에서 모델 용량과 표현력을 확장하면서도, 계산 효율성과 비용 절감, 지연시간 감소 등 여러 장점을 제공합니다. 실제로 Mixtral 8x7B와 같은 모델은 다양한 도메인에 특화된 Expert의 선택적 활성화를 통해 뛰어난 성능과 효율성을 입증하고 있으며, 앞으로도 MoE 관련 연구와 응용은 더욱 활발해질 전망입니다.

 

https://developer.nvidia.com/blog/applying-mixture-of-experts-in-llm-architectures/

 

Applying Mixture of Experts in LLM Architectures | NVIDIA Technical Blog

Mixture of experts (MoE) large language model (LLM) architectures have recently emerged, both in proprietary LLMs such as GPT-4, as well as in community models with the open-source release of Mistral…

developer.nvidia.com

위 내용을 주로 참고하여 정리하였습니다.

 

8. 투자 아이디어

MoE 관점에서 GPU 수요 및 HBM3 중요성

MoE 모델이 등장하면서 GPU 사용량이 상대적으로 줄어든 것은 맞습니다.
기존 Dense 모델(예: GPT-4, LLaMA 2)은 모든 파라미터를 활성화해야 했지만, MoE 모델은 일부 전문가(Expert)만 활성화되므로 같은 성능을 내면서도 연산량이 줄어듭니다.

➡️ 결론: GPU의 필요성이 감소하므로, 기존 초거대 Dense 모델을 학습하던 방식보다는 비용이 덜 들게 됩니다.

하지만 완전히 GPU 수요가 사라지는 것은 아닙니다.

  • 훈련 단계에서는 여전히 많은 GPU가 필요합니다. 다만, Dense 모델 대비 같은 컴퓨팅 리소스로 더 큰 모델을 학습 가능하다는 점이 핵심입니다.
  • 추론(Inference) 단계에서 MoE 모델은 활성화되는 Expert만 연산하므로, GPU 사용량이 크게 줄어듭니다.

➡️ 특히, HBM3(고대역폭 메모리) 의 중요성이 상대적으로 줄어들 가능성이 있습니다.

  • Dense 모델에서는 모든 파라미터를 로딩해야 해서 HBM3 대역폭이 필수적이었음.
  • MoE 모델에서는 일부 Expert만 활용되므로, 동시에 로딩해야 하는 메모리 크기가 줄어듦.
  • 따라서 HBM3의 필요성이 감소하고, 일반적인 DRAM이나 저렴한 VRAM으로도 MoE 모델을 돌릴 가능성이 커짐.

엔비디아(NVIDIA) & 하이닉스(SKHynix) 주가 전망

부정적 요인 (매도 의견 가능성)

  • Dense 모델 기반의 A100, H100 GPU 수요 증가세가 둔화될 가능성.
  • HBM3 메모리 사용량이 줄어들면서 하이닉스의 HBM3 매출 기대감이 약화될 가능성.
  • 특히 MoE 모델이 추론(Inference) 비용을 낮추면서 AI 서비스 비용이 하락하면, 기존 AI 인프라 업체들의 성장성이 둔화될 수 있음.

하지만 단기적으로 매도는 신중할 필요

  • OpenAI, Meta, Google 같은 빅테크 기업은 여전히 Dense 모델과 MoE 모델을 병행할 것.
  • MoE 훈련 시에도 GPU는 여전히 필요하므로, GPU 수요가 갑자기 감소하지는 않음.
  • MoE가 완전히 주류가 되기 전까지는 기존 Dense 모델이 병행될 가능성이 높음.

결론:

  • 장기적으로 MoE가 AI 학습 및 추론의 표준이 되면 HBM3와 NVIDIA의 GPU 수요 증가율이 둔화될 수 있음.
  • 단기적으로는 여전히 AI 인프라 투자가 이어질 가능성이 크므로, 즉각적인 하락보다는 점진적인 둔화 가능성.
  • 따라서 급격한 매도보다는 점진적인 포트폴리오 조정이 유리할 수 있음.

카카오 & 네이버 (MoE 적용 가능성)

MoE는 도메인별 최적화가 쉬운 모델이므로, 카카오나 네이버처럼 특정 도메인에서 강점이 있는 기업들에게 유리한 환경이 될 가능성이 높습니다.

긍정적 요인 (수혜 가능성)

  • 카카오 & 네이버는 도메인 특화 모델을 만들기 용이함.
    • 기존에는 Dense 모델을 학습하기 위해 천문학적인 비용이 필요했지만,
    • MoE를 활용하면 네이버는 검색·쇼핑, 카카오는 AI 챗봇·광고 최적화 등 도메인별 Expert를 최적화하여 비용 효율적인 AI 모델을 만들 수 있음.
  • 초거대 모델이 아니라도 성능이 좋을 가능성.
    • 네이버와 카카오는 초거대 모델보다는 특정 산업·분야에 특화된 모델을 만드는 것이 더 중요함.
    • MoE 방식으로 각 도메인에 맞춘 전문가 모델을 조합하면 초거대 모델 없이도 성능이 향상될 수 있음.

결론:

  • MoE 기반의 한국어 AI 모델 개발 가능성이 커지면서, 네이버 & 카카오에게 유리한 환경.
  • 단, 이들이 MoE 모델을 실제 상용화하기까지는 시간이 필요하므로 단기적인 주가 상승 요인은 아닐 수 있음.
  • MoE를 활용한 AI 모델을 발표하는 순간이 주가 상승의 주요 모멘텀이 될 것.

RAG 기반 AI 기업 (폴라리스AI, 한글과컴퓨터 등)

MoE는 추론 비용 절감 및 특정 도메인에서의 성능 향상을 제공하기 때문에 RAG(Retrieval-Augmented Generation) 기반 AI 기업에게도 긍정적입니다.

MoE가 RAG 기반 AI 모델과 궁합이 좋은 이유

  • RAG는 검색된 정보를 기반으로 AI가 답변을 생성하는 방식이므로, 일반적인 LLM보다 도메인 지식이 중요함.
  • MoE 모델은 특정 도메인에 맞춰 Expert를 최적화할 수 있어, RAG의 정밀도를 높일 가능성이 큼.
  • 또한, 추론 비용이 줄어들면서 RAG 기반 AI 서비스의 수익성이 개선될 수 있음.

🚀 수혜 기업

  • 폴라리스AI: 한국어 RAG 기반 AI를 개발 중이며, MoE를 적용하면 비용 절감과 성능 향상이 가능.
  • 한글과컴퓨터: MoE를 적용한 한국어 AI 모델을 활용하면, 한국어 처리 성능을 더욱 정밀하게 개선 가능.
  • 기타 국내 AI 스타트업: 네이버나 카카오처럼 거대한 GPU 인프라 없이도 MoE 기반의 최적화된 AI 모델을 구축 가능.

결론:

  • RAG 기반 AI 기업들에게 MoE는 성능과 비용 효율성 모두를 향상시키는 기술이므로, 긍정적인 영향을 미칠 가능성이 큼.
  • 따라서 폴라리스AI, 한글과컴퓨터 등의 기업은 장기적으로 MoE 도입 여부에 따라 주가 상승 가능성이 있음.

결론: MoE와 관련한 주가 방향성 정리

부정적 (하락 가능성)

  1. NVIDIA, SK하이닉스 (HBM3)
    • MoE로 인해 Dense 모델 대비 GPU 및 메모리 수요 증가율 둔화 가능성.
    • 그러나 단기적으로는 MoE와 Dense 모델이 병행될 가능성이 높으므로 급락 가능성은 적음.

🚀 긍정적 (상승 가능성)

  1. 카카오 & 네이버 (도메인별 AI 최적화 가능성)
    • MoE를 활용해 한국어·쇼핑·검색·광고 최적화 모델 개발 가능.
    • 특히, 네이버는 검색 AI, 카카오는 챗봇·광고 AI에 MoE 적용 가능성이 높음.
  2. 폴라리스AI & 한글과컴퓨터 (RAG AI와 MoE 시너지)
    • MoE 기반으로 RAG AI 모델을 최적화하면 추론 비용 절감 및 수익성 개선 가능.
    • 따라서 MoE 모델 상용화 여부가 주가 상승의 핵심 모멘텀이 될 가능성이 높음.

결론:

  • MoE의 등장은 GPU & HBM3 수요 둔화를 가져올 가능성이 있으며,
  • 카카오·네이버·폴라리스AI·한컴 같은 도메인 특화 AI 기업들에게는 기회가 될 가능성이 큼.
  • 단기적으로 MoE의 상용화 시점과 각 기업의 도입 여부를 주목해야 함.