DeepSeek: AI 환경을 혁신하는 파괴적 존재

아이푸 와톤 그룹

소개

경쟁하는 대형 모델, 시장 점유율을 놓고 경쟁하는 클라우드 공급업체, 열심히 일하는 칩 제조업체 간의 지속적인 불안—DeepSeek 효과는 지속됩니다.

춘절이 끝나가면서도 DeepSeek에 대한 기대감은 여전히 ​​뜨겁습니다. 최근 춘절 연휴는 기술 업계 내 상당한 경쟁 의식을 부각시켰고, 많은 사람들이 이 "캣피쉬(catfish)"를 논의하고 분석했습니다. 실리콘 밸리는 전례 없는 위기감을 겪고 있습니다. 오픈소스 옹호론자들은 다시 한번 목소리를 높이고 있으며, OpenAI조차도 폐쇄형 소스 전략이 최선의 선택이었는지 재평가하고 있습니다. 연산 비용 절감이라는 새로운 패러다임은 엔비디아와 같은 칩 대기업들 사이에서 연쇄 반응을 일으켜 미국 주식 시장 역사상 단 하루 만에 시가총액이 사상 최대 폭락하는 결과를 낳았습니다. DeepSeek에 사용되는 칩의 규정 준수 여부를 정부 기관이 조사하고 있는 가운데, DeepSeek은 해외에서는 엇갈린 평가를 받고 있지만, 국내에서는 놀라운 성장을 경험하고 있습니다. R1 모델 출시 이후 관련 앱의 트래픽이 급증했는데, 이는 애플리케이션 분야의 성장이 전체 AI 생태계를 발전시킬 것임을 시사합니다. DeepSeek이 애플리케이션 가능성을 확대할 것이라는 점은 긍정적인 측면이며, 앞으로 ChatGPT에 의존하는 비용이 이전처럼 높지 않을 것임을 시사합니다. 이러한 변화는 OpenAI의 최근 활동에 반영되어 왔습니다. DeepSeek R1에 대응하여 무료 사용자에게 o3-mini라는 추론 모델을 제공한 것과 o3-mini의 사고 사슬을 공개한 후속 업그레이드가 그 예입니다. 많은 해외 ​​사용자들이 DeepSeek의 이러한 발전에 감사를 표했지만, 이 사고 사슬은 요약본일 뿐입니다.

낙관적으로 볼 때, DeepSeek이 국내 업체들을 통합하고 있다는 것은 분명합니다. 학습 비용 절감에 중점을 두고 다양한 상위 칩 제조업체, 중간 클라우드 제공업체, 그리고 수많은 스타트업들이 DeepSeek 생태계에 적극적으로 참여하여 DeepSeek 모델 사용 시 비용 효율성을 높이고 있습니다. DeepSeek의 논문에 따르면, V3 모델의 전체 학습에는 H800 GPU를 278만 8천 시간만 소요되며 학습 과정은 매우 안정적입니다. MoE(Mixture of Experts) 아키텍처는 4,050억 개의 매개변수를 사용하는 Llama 3에 비해 사전 학습 비용을 10배 절감하는 데 매우 중요합니다. 현재 V3는 MoE에서 이처럼 높은 희소성을 보여주는 최초의 공개 모델입니다. 또한, MLA(Multi Layer Attention)는 특히 추론 측면에서 시너지 효과를 발휘합니다. "MoE가 희소할수록 추론 과정에서 연산 능력을 최대한 활용하기 위해 더 큰 배치 크기가 필요하며, KVCache의 크기가 주요 제한 요소입니다. MLA는 KVCache 크기를 크게 줄입니다."라고 Chuanjing Technology의 한 연구원은 AI Technology Review 분석에서 언급했습니다. 전반적으로 DeepSeek의 성공은 단일 기술이 아닌 다양한 기술의 결합에 있습니다. 업계 관계자들은 DeepSeek 팀의 엔지니어링 역량을 높이 평가하며, 병렬 학습 및 연산자 최적화 분야에서 탁월한 성과를 거두고 모든 세부 사항을 개선하여 획기적인 결과를 달성했다고 언급했습니다. DeepSeek의 오픈소스 접근 방식은 대규모 모델의 전반적인 개발을 더욱 촉진하며, 유사한 모델이 이미지, 비디오 등으로 확장되면 업계 전반에 걸쳐 수요를 크게 촉진할 것으로 예상됩니다.

제3자 추론 서비스 기회

데이터에 따르면 DeepSeek은 출시 후 단 21일 만에 2,215만 명의 일일 활성 사용자(DAU)를 확보하여 ChatGPT 사용자 기반의 41.6%를 달성하고 Doubao의 일일 활성 사용자 1,695만 명을 넘어섰습니다. 이로써 DeepSeek은 전 세계에서 가장 빠르게 성장하는 앱이 되었으며, 157개 국가/지역에서 Apple 앱 스토어 1위를 차지했습니다. 그러나 사용자 수가 급증하는 동안 사이버 해커들은 DeepSeek 앱을 끊임없이 공격하여 서버에 심각한 부하를 가하고 있습니다. 업계 분석가들은 DeepSeek이 추론에 필요한 연산 능력이 부족한 반면 학습용 카드를 사용하는 것이 부분적으로 원인이라고 분석합니다. 업계 관계자는 AI Technology Review에 "잦은 서버 문제는 추가 기기 구매를 위한 요금 부과 또는 자금 조달을 통해 쉽게 해결할 수 있으며, 궁극적으로는 DeepSeek의 결정에 달려 있다"고 말했습니다. 이는 기술에 집중하는 것과 제품화에 집중하는 것 사이에 상충 관계가 있음을 시사합니다. DeepSeek은 자립을 위해 양자 양자화에 크게 의존해 왔으며, 외부 자금 지원은 거의 받지 못했습니다. 그 결과, 상대적으로 낮은 자금 흐름 압박과 더욱 순수한 기술 환경을 구축할 수 있었습니다. 현재 앞서 언급한 문제들을 고려하여 일부 사용자들은 소셜 미디어에서 DeepSeek 측에 사용 기준치를 상향 조정하거나 사용자 편의성을 강화하기 위한 유료 기능을 도입할 것을 촉구하고 있습니다. 또한, 개발자들은 최적화를 위해 공식 API 또는 타사 API를 활용하기 시작했습니다. 그러나 DeepSeek의 오픈 플랫폼은 최근 "현재 서버 리소스가 부족하여 API 서비스 충전이 중단되었습니다."라고 발표했습니다.

 

이는 AI 인프라 부문의 서드파티 벤더들에게 더 많은 기회를 열어줄 것입니다. 최근 국내외 클라우드 대기업들이 DeepSeek의 모델 API를 출시했으며, 마이크로소프트와 아마존 같은 해외 대기업들이 1월 말 가장 먼저 참여했습니다. 중국 최대 클라우드 기업인 화웨이 클라우드는 2월 1일 실리콘 기반 플로우(Flow)와 협력하여 DeepSeek R1과 V3 추론 서비스를 출시하며 가장 먼저 시장에 진출했습니다. AI 테크놀로지 리뷰(AI Technology Review)의 보도에 따르면 실리콘 기반 플로우의 서비스는 사용자 급증을 경험하며 사실상 플랫폼을 "파괴"했습니다. 3대 IT 기업인 BAT(바이두, 알리바바, 텐센트)와 바이트댄스 또한 2월 3일부터 저가형 기간 한정 프로모션을 진행했는데, 이는 DeepSeek의 V2 모델 출시로 촉발된 작년 클라우드 벤더 가격 경쟁을 연상시킵니다. 당시 DeepSeek은 "가격 도살자"라는 별명을 얻기 시작했습니다. 클라우드 공급업체들의 이러한 움직임은 Microsoft Azure와 OpenAI 간의 과거 강력한 관계를 반영합니다. Microsoft는 2019년 OpenAI에 10억 달러 상당의 투자를 단행했고, 2023년 ChatGPT 출시 이후 수혜를 입었습니다. 그러나 Meta가 Llama를 오픈소스화하면서 이러한 긴밀한 관계는 약화되기 시작했습니다. Microsoft Azure 생태계 외부의 다른 공급업체들이 자사의 대규모 모델로 경쟁할 수 있게 된 것입니다. DeepSeek은 제품 성능 면에서 ChatGPT를 앞지르는 동시에 o1 출시 이후 오픈소스 모델까지 선보였는데, 이는 Llama가 GPT-3를 부활시켰을 때의 열광적인 반응과 유사합니다.

 

실제로 클라우드 제공업체들은 AI 애플리케이션의 트래픽 게이트웨이로 자리매김하고 있으며, 이는 개발자와의 긴밀한 관계가 선제적인 이점을 제공한다는 것을 의미합니다. 보고서에 따르면 바이두 스마트 클라우드는 DeepSeek 모델 출시일에 첸판(Qianfan) 플랫폼을 통해 15,000명 이상의 고객이 DeepSeek 모델을 활용했습니다. 또한 실리콘 기반 플로우(Flow), 루첸 테크놀로지(Luchen Technology), 추안징 테크놀로지(Chuanjing Technology)를 비롯한 여러 소규모 기업들이 DeepSeek 모델 지원을 시작한 솔루션을 제공하고 있습니다. AI Technology Review는 DeepSeek의 지역적 배포를 위한 현재 최적화 기회가 주로 두 가지 영역에 존재한다는 것을 발견했습니다. 하나는 혼합 추론 방식을 사용하여 6,710억 개의 매개변수를 갖는 MoE 모델을 로컬에 배포하는 동시에 하이브리드 GPU/CPU 추론을 활용하는 것입니다. 또한, MLA 최적화도 중요합니다. 그러나 DeepSeek의 두 모델은 배포 최적화에 있어 여전히 몇 가지 과제에 직면해 있습니다. "모델의 크기와 수많은 매개변수로 인해 최적화는 실제로 복잡하며, 특히 성능과 비용 간의 최적의 균형을 맞추기 어려운 로컬 배포의 경우 더욱 그렇습니다."라고 Chuanjing Technology의 한 연구원은 말했습니다. 가장 큰 어려움은 메모리 용량 한계를 극복하는 것입니다. 그는 "CPU 및 기타 연산 리소스를 최대한 활용하기 위해 이기종 협업 방식을 채택하여 희소 MoE 행렬의 비공유 부분만 CPU/DRAM에 배치하여 고성능 CPU 연산자를 사용한 처리를 수행하고, 고밀도 부분은 GPU에 유지합니다."라고 덧붙였습니다. 보고서에 따르면 Chuanjing의 오픈소스 프레임워크인 KTransformers는 주로 템플릿을 통해 기존 Transformers 구현에 다양한 전략과 연산자를 주입하여 CUDAGraph와 같은 방법을 사용하여 추론 속도를 크게 향상시킵니다. DeepSeek은 이러한 스타트업들에게 성장 이점이 뚜렷해짐에 따라 기회를 창출했습니다. 많은 기업들이 DeepSeek API 출시 후 눈에 띄는 고객 증가를 보고했으며, 이전 고객들로부터 최적화를 원하는 문의를 받고 있습니다. 업계 관계자들은 "과거에는 어느 정도 자리를 잡은 고객사들이 대기업의 표준화된 서비스에 얽매여 규모에 따른 비용적 이점에 얽매이는 경우가 많았습니다. 그러나 춘절 전에 DeepSeek-R1/V3 구축을 완료한 후, 여러 유명 고객사로부터 협력 요청을 받았고, 이전에는 휴면 상태였던 고객사들까지도 DeepSeek 서비스를 소개하기 위해 접촉을 시작했습니다."라고 지적했습니다. 현재 DeepSeek은 모델 추론 성능의 중요성을 점점 더 강조하고 있으며, 대형 모델의 광범위한 도입으로 이러한 추세는 AI 인프라 산업 발전에 지속적으로 상당한 영향을 미칠 것입니다. DeepSeek 수준의 모델을 저렴한 비용으로 현지에 구축할 수 있다면 정부 및 기업의 디지털 혁신 노력에 큰 도움이 될 것입니다. 그러나 일부 고객이 대형 모델 성능에 대한 높은 기대치를 가지고 있기 때문에 실질적인 구축 과정에서 성능과 비용의 균형을 맞추는 것이 매우 중요하다는 점이 더욱 분명해지고 있습니다. 

DeepSeek이 ChatGPT보다 더 나은지 평가하려면 두 제품의 주요 차이점, 강점, 그리고 사용 사례를 이해하는 것이 중요합니다. 종합적인 비교는 다음과 같습니다.

특징/측면 딥시크 채팅GPT
소유권 중국 회사에서 개발 OpenAI에서 개발
소스 모델 오픈소스 소유권
비용 무료로 사용 가능, API 접근 옵션 저렴 구독 또는 사용량에 따른 가격 책정
사용자 정의 높은 사용자 정의 가능성으로 사용자가 조정하고 확장할 수 있음 제한된 사용자 정의 가능
특정 작업에서의 성과 데이터 분석 및 정보 검색과 같은 특정 분야에서 탁월함 창의적 글쓰기와 대화 작업에서 뛰어난 성과를 보이는 다재다능함
언어 지원 중국어와 문화에 대한 강력한 집중력 광범위한 언어 지원이지만 미국 중심
훈련 비용 효율성에 최적화된 낮은 교육 비용 더 높은 교육 비용, 상당한 계산 리소스 필요
반응 변화 지정학적 맥락에 따라 다른 반응을 보일 수 있음 훈련 데이터를 기반으로 한 일관된 답변
타겟 고객 유연성을 원하는 개발자와 연구자를 대상으로 합니다. 대화 기능을 찾는 일반 사용자를 대상으로 합니다.
사용 사례 코드 생성 및 빠른 작업에 더욱 효율적입니다. 텍스트 생성, 질의 응답 및 대화 참여에 이상적입니다.

"엔비디아를 파괴하다"에 대한 비판적 관점

현재 화웨이 외에도 Moore Threads, Muxi, Biran Technology, Tianxu Zhixin 등 여러 국내 칩 제조업체들이 DeepSeek의 두 가지 모델에 적응하고 있습니다. 한 칩 제조업체는 AI Technology Review와의 인터뷰에서 "DeepSeek의 구조는 혁신을 보여주지만, 여전히 LLM(최소한의 알고리즘)입니다. DeepSeek에 대한 적응은 주로 추론 애플리케이션에 집중되어 있어 기술 구현이 매우 간단하고 빠릅니다."라고 말했습니다. 그러나 MoE 방식은 저장 및 배포 측면에서 더 높은 요구 사항을 요구하며, 국내 칩과 함께 배포할 때 호환성을 보장해야 하므로 적응 과정에서 해결해야 할 수많은 엔지니어링 과제가 있습니다. 한 업계 전문가는 실제 경험을 바탕으로 "현재 국내 컴퓨팅 성능은 사용성과 안정성 측면에서 엔비디아에 미치지 못하며, 소프트웨어 환경 설정, 문제 해결, 그리고 기본적인 성능 최적화를 위해 제조사의 참여가 필요합니다."라고 말했습니다. 동시에, "DeepSeek R1의 큰 매개변수 규모로 인해 국내 연산 능력은 병렬화를 위해 더 많은 노드를 필요로 합니다. 또한, 국내 하드웨어 사양은 아직 다소 뒤처져 있습니다. 예를 들어, Huawei 910B는 현재 DeepSeek에서 도입한 FP8 추론을 지원하지 못합니다." DeepSeek V3 모델의 주요 특징 중 하나는 FP8 혼합 정밀도 학습 프레임워크의 도입으로, 초대형 모델에서 효과적으로 검증되어 상당한 성과를 거두었습니다. 이전에는 Microsoft와 Nvidia와 같은 주요 업체들이 관련 연구를 제안했지만, 업계 내에서는 실현 가능성에 대한 의문이 여전히 남아 있습니다. INT8과 비교했을 때, FP8의 주요 장점은 학습 후 양자화를 통해 거의 손실 없는 정밀도를 달성하는 동시에 추론 속도를 크게 향상시킬 수 있다는 것입니다. FP16과 비교했을 때, FP8은 Nvidia의 H20에서 최대 2배, H100에서 1.5배 이상의 가속을 실현할 수 있습니다. 특히, 국내 연산 능력과 국내 모델 간의 추세를 둘러싼 논의가 가속화됨에 따라 엔비디아가 와해될 가능성과 CUDA의 해자를 우회할 수 있을지에 대한 추측이 점점 더 확산되고 있습니다. DeepSeek이 엔비디아의 시장 가치를 크게 떨어뜨렸다는 것은 부인할 수 없는 사실이지만, 이러한 변화는 엔비디아의 고성능 연산 능력 무결성에 대한 의문을 제기합니다. 자본 주도의 연산 축적에 대한 기존 통념에 의문이 제기되고 있지만, 엔비디아가 훈련 시나리오에서 완전히 대체되기는 여전히 어렵습니다. DeepSeek의 CUDA 심층 사용 분석 결과, 통신에 SM을 사용하거나 네트워크 카드를 직접 조작하는 것과 같은 유연성은 일반 GPU로는 수용하기 어렵습니다. 업계에서는 엔비디아의 해자가 CUDA 자체뿐 아니라 CUDA 생태계 전체를 포괄하며, DeepSeek이 사용하는 PTX(Parallel Thread Execution) 명령어는 여전히 CUDA 생태계의 일부라고 강조합니다. "단기적으로 엔비디아의 연산 능력은 무시할 수 없습니다. 특히 학습 과정에서 더욱 그렇습니다. 하지만 추론에 국산 카드를 사용하는 것이 비교적 수월해지므로 발전 속도가 더 빨라질 것으로 예상됩니다. 국산 카드의 적용은 주로 추론에 초점을 맞추고 있으며, 아직까지는 국내 카드에서 DeepSeek의 성능 모델을 대규모로 학습시키는 데 성공한 사례가 없습니다."라고 한 업계 분석가는 AI Technology Review에 언급했습니다. 전반적으로 추론 관점에서 볼 때, 국산 대형 모델 칩에 대한 상황은 고무적입니다. 추론 분야에서 국내 칩 제조업체의 기회는 학습에 대한 지나치게 높은 요구 사항으로 인해 더욱 분명해지며, 이는 시장 진입을 어렵게 만듭니다. 분석가들은 국산 추론 카드를 활용하는 것만으로도 충분하며, 필요한 경우 추가 머신을 확보하는 것이 가능하다고 주장합니다. 반면 학습 모델은 고유한 과제를 안고 있습니다. 머신 수가 증가하면 관리가 어려워지고 오류율이 높아지면 학습 결과에 부정적인 영향을 미칠 수 있습니다. 또한 학습에는 특정 클러스터 규모 요구 사항이 있는 반면, 추론에 대한 클러스터 요구 사항은 상대적으로 낮기 때문에 GPU 요구 사항이 완화됩니다. 현재 엔비디아의 단일 H20 카드 성능은 화웨이나 캄브리안보다 뛰어나지 않습니다. 그 강점은 클러스터링에 있습니다. 루첸 테크놀로지의 설립자 유 양(You Yang)은 AI 테크놀로지 리뷰와의 인터뷰에서 연산 능력 시장에 미치는 전반적인 영향을 바탕으로 "딥시크(DeepSeek)는 초대형 학습 연산 클러스터의 구축 및 임대를 일시적으로 저해할 수 있습니다. 장기적으로는 대규모 모델 학습, 추론 및 애플리케이션 관련 비용을 크게 절감함으로써 시장 수요가 급증할 가능성이 높습니다. 따라서 이를 기반으로 한 AI의 후속 버전은 연산 능력 시장의 지속적인 수요를 지속적으로 견인할 것입니다."라고 언급했습니다. 또한, "딥시크의 추론 및 미세 조정 서비스에 대한 수요 증가는 국내 컴퓨팅 환경과 더욱 잘 부합하며, 이는 국내 컴퓨팅 역량이 상대적으로 취약한 국내 컴퓨팅 환경과 더욱 긴밀히 연결되어 클러스터 구축 이후 유휴 자원의 낭비를 줄이는 데 도움이 됩니다. 이는 국내 컴퓨팅 생태계의 다양한 계층에 있는 제조업체들에게 실질적인 기회를 제공합니다."라고 덧붙였습니다. 루첸 테크놀로지는 화웨이 클라우드와 협력하여 국내 연산 능력을 기반으로 하는 딥시크 R1 시리즈 추론 API 및 클라우드 이미징 서비스를 출시했습니다. 유양은 미래에 대해 낙관적인 전망을 밝혔습니다. "DeepSeek은 국내에서 생산된 솔루션에 대한 확신을 심어주고, 앞으로 국내 컴퓨팅 역량에 대한 더 큰 열정과 투자를 장려합니다."

사진_20240614024031.jpg1

결론

DeepSeek이 ChatGPT보다 "더 나은지" 여부는 사용자의 구체적인 요구와 목표에 따라 달라집니다. 유연성, 저렴한 비용, 그리고 맞춤 설정이 필요한 작업에서는 DeepSeek이 더 우수할 수 있습니다. 창의적인 글쓰기, 일반적인 질문, 그리고 사용자 친화적인 대화형 인터페이스에서는 ChatGPT가 우위를 점할 수 있습니다. 각 도구는 서로 다른 용도로 사용되므로, 사용 환경에 따라 선택이 크게 달라집니다.

ELV 케이블 솔루션 찾기

제어 케이블

BMS, BUS, 산업용, 계측용 케이블입니다.

구조화된 케이블 시스템

네트워크 및 데이터, 광섬유 케이블, 패치 코드, 모듈, 페이스플레이트

2024년 전시회 및 이벤트 리뷰

2024년 4월 16일~18일 두바이 중동 에너지

2024년 4월 16일-18일 모스크바 Securika

2024년 5월 9일 상하이에서 신제품 및 기술 출시 행사

2024년 10월 22일~25일 베이징에서 열리는 SECURITY CHINA

2024년 11월 19-20일 CONNECTED WORLD KSA


게시 시간: 2025년 2월 10일