"세상에서 가장 똑똑한" Grok3 테스트

아이푸 와톤 그룹 (1)

소개

Grok3가 사전 훈련된 모델의 "엔드포인트"가 될 것이라고 생각하시나요?

일론 머스크와 xAI 팀은 라이브 스트리밍을 통해 Grok의 최신 버전인 Grok3를 공식 출시했습니다. 이 행사에 앞서, 머스크의 24시간 연중무휴 홍보와 더불어 상당한 양의 관련 정보가 공개되면서 Grok3에 대한 전 세계적인 기대감이 전례 없는 수준으로 치솟았습니다. 불과 일주일 전, 머스크는 DeepSeek R1 라이브 스트리밍에서 "xAI가 더 나은 AI 모델을 출시할 것"이라고 자신 있게 말했습니다. 라이브로 공개된 데이터를 바탕으로, Grok3는 수학, 과학, 프로그래밍 벤치마크에서 현존하는 모든 주류 모델을 능가하는 것으로 알려졌습니다. 머스크는 Grok3가 SpaceX의 화성 탐사와 관련된 계산 작업에 사용될 것이며, "3년 안에 노벨상 수준의 혁신을 가져올 것"이라고 예측했습니다. 하지만 이는 현재 머스크의 주장일 뿐입니다. 출시 후, 저는 Grok3 최신 베타 버전을 테스트하며 대형 모델에 대한 고전적인 속임수 질문을 던졌습니다. "9.11과 9.9 중 어느 버전이 더 큰가요?" 안타깝게도, 아무런 자격이나 표시 없이 소위 '가장 똑똑하다'는 그록3조차도 이 질문에 제대로 답하지 못했습니다. 그록3는 질문의 의미를 정확히 파악하지 못했습니다.

 

이 테스트는 금세 많은 친구들의 관심을 끌었고, 공교롭게도 해외의 여러 유사 테스트에서 Grok3는 "피사의 사탑에서 어떤 공이 먼저 떨어질까?"와 같은 기초 물리/수학 문제에 어려움을 겪는 것으로 나타났습니다. 그래서 "간단한 질문에 대답하기 싫어하는 천재"라는 우스꽝스러운 별명이 붙기도 했습니다.

640

Grok3는 괜찮지만 R1이나 o1-Pro보다 낫지는 않습니다.

Grok3는 실제 테스트에서 여러 일반 상식 테스트에서 "실패"를 경험했습니다. xAI 출시 행사에서 머스크는 Grok3를 사용하여 자신이 자주 플레이한다고 주장하는 게임인 패스 오브 엑자일 2의 캐릭터 클래스와 효과를 분석하는 모습을 시연했지만, Grok3가 제시한 답변 대부분은 틀렸습니다. 라이브 스트리밍 중 머스크는 이러한 명백한 문제를 알아차리지 못했습니다.

 

이 실수는 해외 네티즌들이 머스크가 게임에서 "대체품을 찾았다"며 조롱할 수 있는 추가적인 증거를 제공했을 뿐만 아니라, Grok3의 실제 적용 분야에서의 신뢰성에 대한 심각한 우려를 불러일으켰습니다. 이처럼 "천재적인" 존재인 Grok3는 실제 성능과는 관계없이 화성 탐사 작업과 같은 매우 복잡한 적용 상황에서의 신뢰성에 여전히 의문이 제기됩니다.

 

현재, 몇 주 전에 Grok3에 대한 액세스 권한을 받은 많은 테스터와 어제 몇 시간 동안 모델 기능을 테스트한 테스터는 모두 "Grok3는 괜찮지만 R1이나 o1-Pro보다 낫지는 않다"는 공통된 결론을 내리고 있습니다.

640(1)

"엔비디아를 파괴하다"에 대한 비판적 관점

출시 당시 공식적으로 발표된 PPT에서는 Grok3가 Chatbot Arena에서 "훨씬 앞서" 있는 것으로 나타났지만, 여기서는 그래픽 기술을 교묘하게 사용했습니다. 리더보드의 세로축에는 1400~1300점 범위의 결과만 나열되어 있어, 이 프레젠테이션에서는 테스트 결과의 원래 1% 차이가 매우 크게 보입니다.

640

실제 모델 점수 결과에서 Grok3는 DeepSeek R1과 GPT-4.0보다 1~2% 정도 앞섰는데, 이는 실제 테스트에서 "눈에 띄는 차이가 없다"고 답한 많은 사용자들의 경험과 일치합니다. Grok3는 후속 제품들보다 1~2% 정도만 앞설 뿐입니다.

640

Grok3가 현재 공개적으로 테스트된 모든 모델보다 높은 점수를 받았지만, 많은 사람들이 이를 심각하게 받아들이지 않습니다. 사실 xAI는 Grok2 시절 "점수 조작"으로 비판받았습니다. 리더보드가 답변 길이 유형에 페널티를 부과하면서 점수가 크게 감소했고, 업계 관계자들은 "점수는 높지만 능력은 낮은" 현상을 자주 비판했습니다.

 

리더보드 "조작"이든 일러스트레이션 디자인 트릭이든, 이는 xAI와 머스크가 모델 성능에서 "업계를 선도"하려는 집착을 드러냅니다. 머스크는 이러한 마진을 위해 엄청난 대가를 치렀습니다. 출시 당시 그는 20만 개의 H100 GPU를 사용했다고 자랑했고(라이브 스트리밍에서는 "10만 개 이상"이라고 주장했습니다), 총 2억 시간의 학습 시간을 달성했습니다. 이로 인해 일부 사람들은 이것이 GPU 업계에 또 다른 중요한 도약이라고 생각했고, DeepSeek이 이 분야에 미치는 영향을 "어리석은 짓"이라고 여겼습니다. 특히, 일부는 순수한 연산 능력만이 모델 학습의 미래가 될 것이라고 생각합니다.

 

그러나 일부 네티즌들은 DeepSeek V3를 제작하는 데 두 달 동안 H800 GPU 2,000개가 소모된 것을 비교하며, Grok3의 실제 학습 전력 소비량이 V3의 263배에 달한다고 계산했습니다. 1,402점을 기록한 DeepSeek V3와 Grok3의 차이는 100점에 약간 못 미칩니다. 이 데이터가 공개되자 많은 사람들은 Grok3가 "세계 최강"이라는 타이틀 뒤에는 분명한 한계효용 효과가 있다는 것을 금방 깨달았습니다. 더 큰 모델이 더 높은 성능을 내는 논리가 점점 약해지고 있는 것입니다.

640(2)

"점수는 높지만 능력은 낮음"에도 불구하고, Grok2는 X(트위터) 플랫폼에서 얻은 방대한 양의 고품질 퍼스트파티 데이터를 활용하여 활용도를 높였습니다. 그러나 Grok3 학습 과정에서 xAI는 OpenAI가 현재 직면하고 있는 "한계"에 자연스럽게 직면하게 되었습니다. 프리미엄 학습 데이터의 부족은 모델 성능의 한계적 효용성을 빠르게 드러냈습니다.

 

Grok3 개발자와 머스크는 이러한 사실을 가장 먼저 이해하고 깊이 있게 파악했을 가능성이 높습니다. 머스크가 소셜 미디어에서 현재 사용자들이 경험하고 있는 버전은 "아직 베타 버전"이며 "정식 버전은 몇 달 안에 출시될 것"이라고 꾸준히 언급한 것도 바로 이러한 이유 때문입니다. 머스크는 Grok3의 제품 관리자 역할을 맡아 사용자들에게 댓글 섹션에 발생한 다양한 문제에 대한 피드백을 제공할 것을 제안했습니다. 그는 아마도 지구상에서 가장 많은 팔로워를 보유한 제품 관리자일 것입니다.

 

하지만 하루 만에 Grok3의 성능은 "막대한 연산 능력"을 통해 더 강력한 대형 모델을 훈련하고자 하는 사람들에게 경종을 울렸습니다. 마이크로소프트가 공개한 정보에 따르면, OpenAI의 GPT-4는 GPT-3의 10배가 넘는 1조 8,000억 개의 매개변수를 가지고 있습니다. 소문에 따르면 GPT-4.5의 매개변수 크기는 그보다 더 클 수 있습니다.

 

모델 매개변수 크기가 급증함에 따라 학습 비용 또한 급증하고 있습니다. Grok3의 등장으로, GPT-4.5와 같은 경쟁자들을 비롯해 매개변수 크기를 통해 더 나은 모델 성능을 달성하기 위해 계속해서 "돈을 태우고" 싶어 하는 다른 경쟁자들은 이제 눈앞에 닥친 한계를 인지하고 이를 극복할 방법을 고민해야 합니다. OpenAI의 전 수석 과학자인 일리아 수츠케버는 지난 12월 "우리가 익숙한 사전 학습은 끝날 것"이라고 발언한 바 있으며, 이 발언은 논의에서 다시금 부상하면서 대규모 모델 학습을 위한 진정한 방향을 모색하는 노력을 촉발시켰습니다.

640(3)

일리아의 관점은 업계에 경종을 울렸습니다. 그는 접근 가능한 새로운 데이터가 곧 고갈될 것을 정확하게 예견했으며, 이는 데이터 수집을 통해 성능을 지속적으로 향상시킬 수 없는 상황으로 이어지며, 화석 연료의 고갈에 비유했습니다. 그는 "석유처럼 인터넷에서 인간이 생성한 콘텐츠는 제한된 자원"이라고 지적했습니다. 수츠케버의 예측에 따르면, 사전 훈련 이후 차세대 모델은 "진정한 자율성"과 "인간의 뇌와 유사한" 추론 능력을 갖추게 될 것입니다.

 

오늘날의 사전 학습된 모델들이 주로 콘텐츠 매칭(이전에 학습된 모델 콘텐츠 기반)에 의존하는 것과 달리, 미래의 AI 시스템은 인간 두뇌의 "사고"와 유사한 방식으로 문제를 해결하는 방법론을 학습하고 구축할 수 있을 것입니다. 인간은 기본적인 전문 지식만으로도 특정 주제에 대한 기본적인 숙달을 달성할 수 있는 반면, AI 대형 모델은 가장 기본적인 입문 수준의 효율성을 달성하는 데 수백만 개의 데이터 포인트가 필요합니다. 표현을 조금만 바꿔도 이러한 근본적인 질문들이 제대로 이해되지 않을 수 있으며, 이는 모델의 지능이 진정으로 향상되지 않았음을 보여줍니다. 이 글의 서두에 언급된 기본적이지만 해결 불가능한 질문들은 이러한 현상을 분명히 보여주는 사례입니다.

사진_20240614024031.jpg1

결론

그러나 단순한 힘을 넘어, Grok3가 "사전 훈련된 모델이 종말을 맞이하고 있다"는 사실을 업계에 실제로 밝혀낸다면, 이는 해당 분야에 중대한 영향을 미칠 것입니다.

아마도 Grok3를 둘러싼 열풍이 점차 가라앉은 후에는 Fei-Fei Li가 "특정 데이터 세트에 대해 50달러만 들여 고성능 모델을 튜닝"한 사례와 같은 사례를 더 많이 볼 수 있을 것이며, 궁극적으로 AGI로 가는 진정한 길을 발견하게 될 것입니다.

ELV 케이블 솔루션 찾기

제어 케이블

BMS, BUS, 산업용, 계측용 케이블입니다.

구조화된 케이블 시스템

네트워크 및 데이터, 광섬유 케이블, 패치 코드, 모듈, 페이스플레이트

2024년 전시회 및 이벤트 리뷰

2024년 4월 16일~18일 두바이 중동 에너지

2024년 4월 16일-18일 모스크바 Securika

2024년 5월 9일 상하이에서 신제품 및 기술 출시 행사

2024년 10월 22일~25일 베이징에서 열리는 SECURITY CHINA

2024년 11월 19-20일 CONNECTED WORLD KSA


게시 시간: 2025년 2월 19일