BMS, 버스, 산업, 계측 케이블 용.

봄 축제가 가까워지면서 Deepseek을 둘러싼 흥분은 여전히 강합니다. 최근 휴가는 기술 산업 내에서 중요한 경쟁 감각을 강조했으며, 많은 사람들 이이 "메기"를 논의하고 분석했습니다. 실리콘 밸리 (Silicon Valley)는 전례없는 위기 의식을 경험하고 있습니다. 오픈 소스 옹호자들은 다시 의견을 표명하고 있으며, Openai조차도 폐쇄 소스 전략이 최선의 선택인지 여부를 재평가하고 있습니다. 계산 비용이 낮은 새로운 패러다임은 NVIDIA와 같은 칩 거인들 사이의 연쇄 반응을 일으켜 미국 주식 시장 역사에서 일일 시장 가치 손실을 기록했으며 정부 기관은 DeepSeek가 사용하는 칩 준수를 조사하고 있습니다. 국내, 국내에서 심해에 대한 혼합 리뷰 가운데서, 그것은 특별한 성장을 겪고 있습니다. R1 모델이 출시 된 후, 관련 앱은 트래픽이 급증하여 응용 프로그램 부문의 성장이 전체 AI 생태계를 이끌어 낼 것임을 나타냅니다. 긍정적 인 측면은 DeepSeek가 응용 프로그램 가능성을 넓힐 것이며, 이는 ChatGpt에 의존하는 것이 미래에 비싸지 않을 것이라고 제안합니다. 이러한 변화는 OpenAI의 최근 활동에 반영되었으며, O3-MINI에 대한 O3-MINI라는 추론 모델 제공을 포함하여 DeepSeek R1에 대한 응답으로 O3-MINI의 사고 체인을 공개적으로 만든 후속 업그레이드. 많은 해외 사용자들이 이러한 발전에 대해 Deepseek에 감사를 표했지만,이 사고 체인은 요약으로 사용됩니다.
낙관적으로, DeepSeek은 국내 선수를 통일하고 있음이 분명합니다. 교육 비용 절감에 중점을두면 다양한 업스트림 칩 제조업체, 중간 클라우드 제공 업체 및 수많은 신생 기업이 적극적으로 생태계에 가입하여 DeepSeek 모델 사용의 비용 효율성을 향상시킵니다. DeepSeek의 논문에 따르면 V3 모델의 완전한 교육에는 2.788 백만 H800 GPU 시간이 필요하며 교육 과정은 매우 안정적입니다. MOE (전문가의 혼합) 아키텍처는 405 억 파라미터를 가진 LLAMA 3에 비해 사전 훈련 비용을 10 배나 낮추는 데 중요합니다. 현재 V3는 MOE에서 그러한 높은 희소성을 보여주는 최초의 공개 모델입니다. 또한 MLA (다중 계층주의)는 특히 추론 측면에서 상승적으로 작동합니다. AI 기술 검토에 대한 분석에서 Chuanjing 기술의 연구원은“MOE가 Sparser는 계산 능력을 완전히 활용하는 데 필요한 배치 크기가 클수록 KVCache의 크기는 주요 제한 요인이며 MLA는 KVCache 크기를 크게 줄입니다. 전반적으로 DeepSeek의 성공은 단 하나의 기술뿐만 아니라 다양한 기술의 조합에 있습니다. 업계 내부자는 DeepSeek 팀의 엔지니어링 기능을 칭찬하여 병렬 교육 및 운영자 최적화의 우수성을 지적하여 모든 세부 사항을 수정하여 획기적인 결과를 달성합니다. DeepSeek의 오픈 소스 접근 방식은 대규모 모델의 전반적인 개발에 더 많은 영향을 미치며, 유사한 모델이 이미지, 비디오 등으로 확장되면 업계 전체의 수요를 크게 자극 할 것으로 예상됩니다.
타사 추론 서비스의 기회
데이터에 따르면 DeepSeek은 21 일 만에 2 억 2,150 만 명의 일일 활동 사용자 (DAU)를 발생시켜 ChatGpt의 사용자 기반의 41.6%를 달성하고 Doubao의 1,395 만 명의 활동적인 사용자를 능가하여 전 세계적으로 가장 빠르게 성장하는 응용 프로그램이되어 157 개국/지역에서 Apple App Store를 토핑 한 것으로 나타났습니다. 그러나 사용자가 운전에 몰려 들었을 때 사이버 해커는 DeepSeek 앱을 끊임없이 공격하여 서버에 상당한 부담을 초래했습니다. 업계 분석가들은 이것이 부분적으로 훈련을위한 카드를 배포하는 동시에 추론을위한 충분한 계산 능력이 부족하기 때문이라고 생각합니다. 업계 내부자는 AI 기술 검토를 알렸다. 이것은 기술 대 생산물에 초점을 맞추는 데 상충 관계를 제시합니다. DeepSeek은 외부 자금이 거의 없어서 자체 유지를위한 양자 양자화에 크게 의존하여 현금 흐름 압력이 상대적으로 낮고 기술 환경을 상대적으로 낮 춥니 다. 현재, 위에서 언급 한 문제에 비추어 일부 사용자는 소셜 미디어에서 DeepSeek에게 사용 임계 값을 높이거나 유료 기능을 도입하여 사용자의 편의를 향상시킵니다. 또한 개발자는 최적화를 위해 공식 API 또는 타사 API를 활용하기 시작했습니다. 그러나 DeepSeek의 오픈 플랫폼은 최근에 "현재 서버 리소스가 부족하고 API 서비스 재충전이 중단되었습니다."라고 발표했습니다.
이것은 의심 할 여지없이 AI 인프라 부문의 타사 공급 업체에게 더 많은 기회를 열어줍니다. 최근에 수많은 국내 및 국제 클라우드 거인들이 DeepSeek의 모델 API를 출시했습니다. 오버세스 거인 Microsoft와 Amazon은 1 월 말에 처음으로 합류했습니다. 국내 지도자 인 화웨이 클라우드 (Huawei Cloud)는 2 월 1 일에 실리콘 기반 흐름과 협력하여 DeepSeek R1 및 V3 추론 서비스를 발표했습니다. AI Technology Review의 보고서에 따르면 Silicon 기반 Flow의 서비스가 사용자의 유입을 보았을 때 플랫폼의 "충돌"하는 것으로 나타났습니다. 바트 (바이 두, 알리바바, 텐 센트)와 사이드 런스 (Bytedance)는 2 월 3 일부터 저렴한 제한된 시간 제안을 발행했으며 작년의 클라우드 공급 업체 가격 전쟁을 연상시키는 Deepseek의 V2 모델 출시를 연상 시켰습니다. 클라우드 공급 업체의 열광적 인 행동은 Microsoft Azure와 Openai 사이의 초기 강력한 관계를 반영합니다. 2019 년 Microsoft는 2023 년에 Chatgpt가 출시 한 후 OpenAI에 대한 10 억 달러의 투자와 재점 혜택을 얻었습니다. 그러나이 긴밀한 관계는 Meta Open Sourced LLAMA 이후에 Microsoft Azure 외부의 다른 공급 업체를 사용하여 FRAY를 시작했습니다. 이 경우 DeepSeek은 제품 열 측면에서 ChatGpt를 능가했을뿐만 아니라 LLAMA의 GPT-3 부흥을 둘러싼 흥분과 유사하게 O1 릴리스 후 오픈 소스 모델을 도입했습니다.
실제로 클라우드 제공 업체는 AI 애플리케이션의 트래픽 게이트웨이로 자리 매김하고 있습니다. 즉, 개발자와의 관계가 심화되는 것은 선제 적 이점으로 해석됩니다. 보고서에 따르면 Baidu Smart Cloud는 모델의 출시 당일에 Qianfan 플랫폼을 통해 DeepSeek 모델을 사용하는 15,000 명 이상의 고객이 있습니다. 또한, 실리콘 기반 흐름, 루첸 기술, chuanjing 기술 및 깊은 모델에 대한 지원을 시작한 다양한 AI 인프라 제공 업체를 포함한 몇몇 소규모 회사가 솔루션을 제공하고 있습니다. AI Technology Review는 DeepSeek의 현지화 된 배포를위한 현재 최적화 기회가 주로 두 가지 영역에 존재한다는 것을 알게되었습니다. 하나는 하이브리드 GPU/CPU 추론을 활용하면서 671 억 파라미터 MOE 모델을 로컬로 배치하기위한 혼합 추론 접근법을 사용하여 MOE 모델의 스파트 특성을 최적화하고 있습니다. 또한 MLA의 최적화는 필수적입니다. 그러나 DeepSeek의 두 모델은 여전히 배포 최적화에 몇 가지 어려움에 직면 해 있습니다. Chuanjing Technology의 연구원은 "모델의 크기와 수많은 매개 변수로 인해 최적화는 실제로 복잡합니다. 특히 성능과 비용 사이의 최적의 균형을 달성하는 것이 어려울 수있는 로컬 배치의 경우 특히 복잡합니다."라고 Chuanjing Technology의 연구원은 말했습니다. 가장 중요한 장애물은 메모리 용량 제한을 극복하는 데 있습니다. "우리는 CPU 및 기타 계산 자원을 완전히 활용하기 위해 이기종 협업 접근법을 채택하여 고성능 CPU 운영자를 사용하여 CPU/DRAM의 비 공유 부분 만 배치하는 반면, 조밀 한 부분은 GPU에 머물러 있습니다." 보고서에 따르면 Chuanjing의 오픈 소스 프레임 워크 Ktransformers는 주로 다양한 전략과 운영자를 템플릿을 통해 원래 변압기 구현에 주입하여 Cudagraph와 같은 방법을 사용하여 추론 속도를 크게 향상시킵니다. DeepSeek은 성장 혜택이 분명해지면서 이러한 스타트 업을위한 기회를 창출했습니다. 많은 회사들이 DeepSeek API를 시작한 후 눈에 띄는 고객 성장을보고했으며, 최적화를 찾는 이전 고객으로부터 문의를 받았습니다. 업계 내부자들은 과거에 다소 확립 된 고객 그룹이 종종 대기업의 표준화 된 서비스에 잠겨 있었고, 규모로 인해 비용 이점에 밀접하게 구속되었습니다. 그러나 봄 축제 전에 DeepSeek-R1/V3의 배치를 완료 한 후, 우리는 여러 유명한 고객으로부터 협력 요청을 받았으며, 심지어 Depeek 서비스를 도입하기 위해 Depeek 서비스를 도입하기 위해 갑자기 고객으로부터 협력 요청을 받았습니다. 현재 DeepSeek이 모델 추론 성능을 점점 더 중요하게 만들고 있으며, 대규모 모델을 광범위하게 채택함으로써 AI 인프라 산업의 개발에 크게 영향을 미칠 것입니다. DeepSeek 수준의 모델을 저렴한 비용으로 로컬로 배치 할 수 있다면 정부 및 기업 디지털 혁신 노력을 크게 도와 줄 것입니다. 그러나 일부 고객은 대규모 모델 기능에 대한 높은 기대치를 가질 수 있으므로 어려움이 지속되므로 실질적인 배포에서 성능과 비용의 균형을 잡는 것이 더욱 분명합니다.
DeepSeek이 Chatgpt보다 더 나은지 여부를 평가하려면 주요 차이점, 강점 및 사용 사례를 이해하는 것이 필수적입니다. 포괄적 인 비교는 다음과 같습니다.
기능/측면 | Deepseek | chatgpt |
---|---|---|
소유권 | 중국 회사가 개발했습니다 | OpenAi에 의해 개발되었습니다 |
소스 모델 | 오픈 소스 | 소유권 |
비용 | 무료로 사용할 수 있습니다. 저렴한 API 액세스 옵션 | 구독 또는 지불액 가격 |
사용자 정의 | 사용자 정의가 가능하여 사용자가 조정하고 구축 할 수 있습니다. | 제한된 사용자 정의 사용 가능 |
특정 작업의 성능 | 데이터 분석 및 정보 검색과 같은 특정 영역에서 탁월합니다. | 창의적 글쓰기 및 대화 작업에서 강력한 성능으로 다재다능합니다. |
언어 지원 | 중국어와 문화에 중점을 둡니다 | 광범위한 언어 지원이지만 미국 중심 |
훈련 비용 | 효율성에 최적화 된 교육 비용이 낮아집니다 | 상당한 계산 자원이 필요한 더 높은 교육 비용 |
응답 변형 | 지정 학적 맥락에 의해 영향을받을 수있는 다른 응답을 제공 할 수 있습니다 | 교육 데이터를 기반으로 일관된 답변 |
대상 청중 | 유연성을 원하는 개발자와 연구원을 대상으로합니다 | 대화 기능을 찾는 일반 사용자를 대상으로합니다 |
사용 사례 | 코드 생성 및 빠른 작업에 더 효율적입니다 | 텍스트 생성, 쿼리 응답 및 대화에 이상적 |
"Nvidia 방해"에 대한 중요한 관점
현재 화웨이 외에도 Moore Threads, Muxi, Biran Technology 및 Tianxu Zhixin과 같은 여러 국내 칩 제조업체도 DeepSeek의 두 모델에 적응하고 있습니다. 칩 제조업체는 AI Technology Review에 말했다. "DeepSeek의 구조는 혁신을 보여 주지만 LLM으로 남아 있습니다. DeepSeek에 대한 우리의 적응은 주로 추론 응용 프로그램에 중점을 두어 기술 구현을 상당히 간단하고 빠르게 만듭니다." 그러나 MOE 접근 방식은 저장 및 분배 측면에서 더 높은 요구를 요구하며, 국내 칩을 배치 할 때 호환성을 보장하고 적응 중에 해결이 필요한 수많은 엔지니어링 과제를 제시합니다. "현재 국내 전산 능력은 NVIDIA가 유용성과 안정성에 맞지 않으므로 소프트웨어 환경 설정, 문제 해결 및 기초 성능 최적화에 대한 독창적 인 공장 참여가 필요합니다." 동시에 "DeepSeek R1의 큰 매개 변수 척도로 인해 국내 전산 전력은 병렬화를위한 더 많은 노드가 필요합니다. 또한 국내 하드웨어 사양은 여전히 다소 뒤쳐져 있습니다. 예를 들어 Huawei 910B는 현재 DeepSeek가 도입 한 FP8 추론을 지원할 수 없습니다." DeepSeek V3 모델의 하이라이트 중 하나는 FP8 혼합 정밀 훈련 프레임 워크의 도입이며, 이는 매우 큰 모델에서 효과적으로 검증되어 상당한 성취도를 표시했습니다. 이전에는 Microsoft 및 Nvidia와 같은 주요 선수들이 관련 작업을 제안했지만 의심은 타당성과 관련하여 업계에서 남아 있습니다. FP8의 주요 장점은 INT8과 비교하여 훈련 후 양자화가 거의 무서운 정밀도를 달성하면서 추론 속도를 크게 향상시킬 수 있다는 것입니다. FP16과 비교할 때 FP8은 NVIDIA의 H20에서 최대 2 배의 가속을 실현하고 H100에서 1.5 배 이상 가속도를 실현할 수 있습니다. 특히, 국내 전산 전력과 국내 모델의 추세를 둘러싼 토론이 추진력을 얻음에 따라, Nvidia가 혼란 스러울 수 있는지, Cuda 해자가 우회 될 수 있는지에 대한 추측은 점점 더 널리 퍼지고 있습니다. 부인할 수없는 사실 중 하나는 DeepSeek이 실제로 NVIDIA의 시장 가치가 상당한 하락을 일으켰지 만 NVIDIA의 고급 컴퓨터 전력 무결성에 관한 의문을 제기한다는 것입니다. 자본 중심의 계산 축적에 관한 이전에 받아 들여진 이야기는 도전 받고 있지만, NVIDIA가 훈련 시나리오에서 완전히 대체되는 것은 여전히 어려운 일입니다. DeepSeek의 Cuda를 깊은 사용에 대한 분석에 따르면 커뮤니케이션 또는 네트워크 카드를 직접 조작하는 데 SM을 사용하는 것과 같은 유연성은 일반 GPU가 수용 할 수 없습니다. 업계의 관점은 Nvidia의 해자가 CUDA 자체가 아닌 전체 CUDA 생태계를 포함하고 있으며 DeepSeek가 사용하는 PTX (Parallel Thread Execution) 지침은 여전히 CUDA 생태계의 일부라고 강조합니다. "단기적으로 Nvidia의 계산력은 우회 할 수 없다. 그러나 이것은 훈련에서 특히 분명하다. 그러나 추론을 위해 국내 카드를 배치하는 것이 상대적으로 더 쉬울 것이기 때문에 진보는 더 빠를 것이다. 국내 카드의 적응은 주로 추론에 중점을두고있다. 아직도 스케일에 대한 Deepseek의 성능 모델을 훈련시키지 않았다"고 Ai Technology Review는 아직 언급하지 않았다. 전반적으로, 추론 관점에서 볼 때, 상황은 국내 대형 모델 칩을 장려하고 있습니다. 추론 영역 내에서 국내 칩 제조업체의 기회는 교육의 과도하게 높은 요구 사항으로 인해 더욱 분명합니다. 애널리스트들은 단순히 국내 추론 카드를 활용하는 것만으로 충분하다고 주장합니다. 필요한 경우 추가 기계를 얻는 것은 가능하지만 교육 모델은 고유 한 과제를 제기합니다. 증가하는 기계를 관리하면 부담이 될 수 있으며 오류율이 높을수록 교육 결과에 부정적인 영향을 줄 수 있습니다. 교육에는 특정 클러스터 스케일 요구 사항이 있으며 추론 클러스터에 대한 요구는 엄격하지 않으므로 GPU 요구 사항이 완화됩니다. 현재 Nvidia의 단일 H20 카드의 성능은 화웨이 또는 캄브리아기의 성능을 능가하지 않습니다. 그 강도는 클러스터링에 있습니다. Luchen Technology의 창립자 인 Luchen Technology의 창립자 인 Yang은 컴퓨팅 전력 시장에 대한 전반적인 영향을 기반으로 AI Technology Review와의 인터뷰에서 다음과 같이 지적했다. 계산 전력 시장의 지속적인 수요. " 또한 "DeepSeek의 추론 및 미세 조정 서비스에 대한 수요가 높아지는 국내 컴퓨터 환경과 더 호환되며, 지역 역량이 상대적으로 약해서 클러스터 시설 이후의 유휴 자원에서 폐기물을 완화하는 데 도움이됩니다. 이는 국내 계산 생태계의 여러 수준에 걸쳐 제조업체를위한 실행 가능한 기회를 창출합니다." Luchen Technology는 Huawei Cloud와 협력하여 국내 계산 능력을 기반으로 DeepSeek R1 시리즈 추론 API 및 클라우드 이미징 서비스를 시작했습니다. Yang Yang은 미래에 대한 낙관론을 표명했습니다. "Deepseek은 국내 제작 된 솔루션에 대한 신뢰를 심어 주어 국내 계산 능력에 대한 열정과 투자를 장려합니다."

결론
DeepSeek이 Chatgpt보다 "더 나은"지 여부는 사용자의 특정 요구와 목표에 따라 다릅니다. 유연성, 저렴한 비용 및 사용자 정의가 필요한 작업의 경우 DeepSeek이 우수 할 수 있습니다. 창의적인 글쓰기, 일반 문의 및 사용자 친화적 인 대화 인터페이스를 위해 Chatgpt가 주도 할 수 있습니다. 각 도구는 다른 목적을 제공하므로 선택은 사용되는 컨텍스트에 크게 의존합니다.
제어 케이블
구조화 된 케이블 링 시스템
네트워크 및 데이터, 광섬유 케이블, 패치 코드, 모듈, 페이스 플레이트
두바이의 2024 년 4 월 16 일 -18 일
2024 년 4 월 16 일 -18 일, 2024 년 모스크바에서 Securika
2024 년 5 월 9 일, 상하이에서 열린 새로운 제품 및 기술 출시 이벤트
2024 년 10 월 22 일 25 일, 베이징에서 중국 보안 중국
2024 년 11 월 19 일 -20 일 Connected World KSA
후 시간 : 2 월 10 일부터 20125 년