“세계에서 가장 똑똑한”Grok3 테스트

AIPU WATON GROUP (1)

소개

Grok3이 미리 훈련 된 모델의 "종말점"이 될 것이라고 생각하십니까?

Elon Musk와 XAI 팀은 공식적으로 Livestream 동안 최신 버전의 Grok3을 출시했습니다. 이 행사 전에 Musk의 24/7 프로모션 과대 광고와 함께 상당한 양의 관련 정보가 Grok3에 대한 전 세계적 기대를 전례없는 수준으로 올렸습니다. 불과 일주일 전, 머스크는 라이브 스트림 중에 자신있게 말하면서 Deepseek R1에 대해 언급하면서 "Xai는 더 나은 AI 모델을 시작하려고합니다." 제시된 데이터에서 Grok3은 수학, 과학 및 프로그래밍을위한 벤치 마크의 현재의 모든 주류 모델을 능가했으며, Musk는 Grok3의 "3 년 이내에 노벨상 수준에서의 돌파구를 예측하는"SpaceX의 MARS 임무와 관련된 계산 작업에 사용될 것이라고 주장했다. 그러나 이것들은 현재 Musk의 주장 일뿐입니다. 런칭 후, 나는 Grok3의 최신 베타 버전을 테스트하고 큰 모델에 대한 고전적인 트릭 질문을 제기했습니다. "더 큰 9.11 또는 9.9?" 유감스럽게도, 예선이나 표시가 없으면 소위 Smart Grok3는 여전히이 질문에 올바르게 대답 할 수 없었습니다. Grok3는 질문의 의미를 정확하게 식별하지 못했습니다.

 

이 테스트는 많은 친구들로부터 상당한 관심을 끌었으며, 우연히도 해외의 다양한 유사한 테스트에서 Grok3은 기본 물리학/수학 질문으로 어려움을 겪고있는 것으로 나타났습니다. 따라서 그것은 유머러스하게 "간단한 질문에 대답하지 않을 천재"로 분류되었습니다.

640

Grok3는 좋지만 R1 또는 O1-Pro보다 낫지는 않습니다.

Grok3는 실제로 많은 공통 지식 테스트에서 "실패"를 경험했습니다. Xai 런칭 이벤트에서 Musk는 Grok3을 사용하여 망명 2의 게임 경로에서 캐릭터 클래스와 효과를 분석했으며, 자주 재생한다고 주장했지만 Grok3가 제공 한 대부분의 답변은 잘못되었습니다. 라이브 스트림 중 머스크는이 명백한 문제를 발견하지 못했습니다.

 

이 실수는 해외 네티즌이 게임에서 "대체품 찾기"를 조롱하기위한 추가 증거를 제공했을뿐만 아니라 실제 응용 분야에서 Grok3의 신뢰성에 대해 상당한 우려를 제기했습니다. 이러한 "천재"의 경우 실제 기능에 관계없이 화성 탐색 작업과 같은 매우 복잡한 응용 시나리오의 신뢰성은 의심의 여지가 없습니다.

 

현재 3 주 전 Grok3에 접근 할 수있는 많은 테스터와 어제 몇 시간 동안 모델 기능을 테스트 한 사람들은 모두 일반적인 결론을 지적합니다. "Grok3은 좋지만 R1 또는 O1-Pro보다 낫지는 않습니다."

640 (1)

"Nvidia 방해"에 대한 중요한 관점

공식적으로 발표 된 PPT에서 Grok3은 챗봇 경기장에서 "먼 앞"인 것으로 나타 났지만,이 영리하게 사용 된 그래픽 기술 : 리더 보드의 세로 축은 1400-1300 점수 범위에서만 나열된 결과 만 나열되어 테스트 결과의 원래 1% 차이가 예외적으로 유의 한 것처럼 보입니다.

640

실제 모델 스코어링 결과에서 Grok3은 DeepSeek R1 및 GPT-4.0보다 1-2% 앞서 있으며, 이는 "눈에 띄는 차이가 없음"을 발견 한 실제 테스트에서 많은 사용자의 경험에 해당합니다. Grok3는 후임자를 1%-2%만 능가합니다.

640

Grok3는 현재 공개 된 모든 모델보다 높은 점수를 받았지만 많은 사람들이 이것을 진지하게 받아들이지 않습니다. 결국, Xai는 이전에 Grok2 시대에 "점수 조작"에 대해 비판을 받았습니다. 리더 보드가 답변 길이 스타일을 위반함에 따라, 점수는 크게 줄어들어 업계 내부자들은 종종 "높은 점수이지만 낮은 능력"의 현상을 비판하도록 이끌었습니다.

 

리더 보드를 통해 "조작"이든 삽화의 디자인 트릭이든, 그들은 모델 기능에서 "팩을 이끄는"개념에 대한 Xai와 Musk의 집착을 드러냅니다. 머스크는이 마진에 대한 가파른 가격을 지불했다. 출시 중에, 그는 200,000 H100 GPU (생명 기간 동안 10 만 명 이상을 주장 함)를 사용하고 2 억 시간의 총 훈련 시간을 달성하는 것을 자랑했다. 이로 인해 일부 사람들은 그것이 GPU 산업의 또 다른 중요한 혜택을 나타내고 Deepseek 의이 부문에 대한 영향을 "어리석은"것으로 간주한다고 믿었습니다. 특히 일부 사람들은 엄청난 계산 능력이 모델 교육의 미래가 될 것이라고 믿는다.

 

그러나 일부 네티즌은 2 개월에 걸쳐 2000 H800 GPU의 소비를 비교하여 Deepseek V3을 생산하여 Grok3의 실제 교육 전력 소비가 V3의 263 배라고 계산했습니다. 1402 점을 기록한 DeepSeek V3의 간격과 Grok3는 100 점 미만입니다. 이 데이터가 출시 된 후 많은 사람들은 "세계에서 가장 강한"으로 Grok3의 타이틀 뒤에 명확한 한계 유틸리티 효과가 있다는 것을 빨리 깨달았습니다. 더 강한 성능을 생성하는 더 큰 모델의 논리는 수익이 줄어들 기 시작했습니다.

640 (2)

"높은 점수이지만 낮은 능력"에도 불구하고 Grok2는 사용을 지원하기 위해 X (Twitter) 플랫폼의 수많은 고품질의 1 자 데이터를 가졌습니다. 그러나 Grok3의 교육에서 Xai는 OpenAi가 현재 직면하고있는 "천장"을 자연스럽게 만났습니다. 프리미엄 교육 데이터의 부족은 모델 기능의 한계 유용성을 신속하게 노출시킵니다.

 

Grok3와 Musk의 개발자는 이러한 사실을 깊이 이해하고 식별 한 최초의 제품이므로 Musk는 소셜 미디어에서 사용자가 현재 경험하고있는 버전이 "여전히 베타 버전"이며 "앞으로 몇 달 안에 정식 버전이 출시 될 것"이라고 계속 언급 한 이유입니다. Musk는 Grok3의 제품 관리자의 역할을 수행하여 사용자가 의견 섹션에서 발생하는 다양한 문제에 대한 피드백을 제공한다고 제안했습니다.

 

그러나 하루 만에 Grok3의 성능은 의심 할 여지없이 "대규모 계산 근육"에 의존하여 더 강한 대형 모델을 훈련시키기를 희망하는 사람들에게 경보를 높였습니다. 공개적으로 이용 가능한 Microsoft 정보를 기반으로 OpenAi의 GPT-4는 GPT-3보다 10 배 이상 매개 변수 크기가 1.8 진동 매개 변수입니다. 소문에 따르면 GPT-4.5의 매개 변수 크기는 훨씬 클 수 있습니다.

 

모델 매개 변수 크기가 급증함에 따라 교육 비용도 급등합니다. Grok3의 존재로 인해 GPT-4.5와 같은 경쟁자와 매개 변수 크기를 통해 더 나은 모델 성능을 달성하기 위해 "돈을 태우기"를 원하는 다른 사람들은 현재 명확하게 보이는 천장을 고려하고 그것을 극복하는 방법을 고려해야합니다. 현재 Openai의 전 최고 과학자 인 Ilya Sutskever는 지난 12 월에 "우리가 친숙한 사전 훈련은 끝날 것입니다."토론에서 재 포장되어 큰 모델을 훈련하기위한 진정한 경로를 찾기위한 노력을 촉구했습니다.

640 (3)

Ilya의 관점은 업계에서 경보를 울렸다. 그는 접근 가능한 새로운 데이터의 임박한 피로를 정확하게 예고하여 데이터 수집을 통해 성능을 계속 향상시킬 수없는 상황으로이를 화석 연료의 소진에 비유합니다. 그는 "오일처럼 인터넷에서 인간이 생성 된 콘텐츠는 제한된 자원"이라고 지적했다. Sutskever의 예측에서, 후 세대의 모델 인 Post-Training은 "진정한 자율성"과 "인간의 뇌와 유사한 추론 능력"을 보유 할 것입니다.

 

미래의 AI 시스템은 주로 컨텐츠 매칭 (이전에 배운 모델 컨텐츠를 기반으로)에 주로 의존하는 미리 훈련 된 모델과 달리 인간 뇌의 "사고"와 유사한 방식으로 문제를 해결하기 위해 방법론을 배우고 확립 할 수 있습니다. 인간은 기본적인 전문 문헌을 가진 주제에서 근본적인 능력을 달성 할 수있는 반면, AI 대형 모델에는 가장 기본적인 엔트리 레벨 효능 만 달성하기 위해 수백만 개의 데이터 포인트가 필요합니다. 문구가 약간 변경 되더라도, 이러한 근본적인 질문은 정확하게 이해되지 않을 수 있으며, 이는 지능에서 모델이 진정으로 개선되지 않았 음을 보여줍니다. 기사의 시작 부분에서 언급 된 기본적으로 해결할 수없는 질문은이 현상의 명확한 예를 나타냅니다.

微信图片 _20240614024031.jpg1

결론

그러나, 무차별적인 힘을 넘어서, Grok3이 실제로 업계에 "미리 훈련 된 모델이 그들의 목적에 접근하고있다"는 것을 공개하는 데 성공한다면, 그것은이 분야에 중대한 영향을 미칠 것입니다.

아마도 Grok3을 둘러싼 열광이 점차 가라 앉은 후에, 우리는 Fei-Fei Li의 "특정 데이터 세트에서 고성능 모델을 $ 50에 불러 일으키는"과 같은 더 많은 사례를 목격 할 것입니다.

ELV 케이블 솔루션을 찾으십시오

제어 케이블

BMS, 버스, 산업, 계측 케이블 용.

구조화 된 케이블 링 시스템

네트워크 및 데이터, 광섬유 케이블, 패치 코드, 모듈, 페이스 플레이트

2024 전시회 및 이벤트 검토

두바이의 2024 년 4 월 16 일 -18 일

2024 년 4 월 16 일 -18 일, 2024 년 모스크바에서 Securika

2024 년 5 월 9 일, 상하이에서 열린 새로운 제품 및 기술 출시 이벤트

2024 년 10 월 22 일 25 일, 베이징에서 중국 보안 중국

2024 년 11 월 19 일 -20 일 Connected World KSA


후 시간 : 19-2025 년 2 월