NO.1: Nh 뉴 헤븐
NO.2: 뉴 헤븐 cim
NO.3: 뉴 헤븐 카지노 후기
NO.4: 뉴헤븐슬롯
NO.5: 뉴헤븐카지노 먹튀
NO.6: 뉴헤븐카지노 보증
NO.7: 메이저 카지노 추천 뉴 헤븐 카지노 추천
NO.8: 바카라 사이트 뉴헤븐카지노
NO.9: 바카라사이트 뉴헤븐카지노
NO.10: 슬롯 순위 뉴 헤븐 카지노
NO.11: 슬롯사이트 뉴헤븐카지노메이저
NO.12: 안전한 카지노 사이트 뉴 헤븐 카지노 메이저
NO.13: 온라인 바카라 뉴 헤븐 카지노 추천
NO.14: 카지노 추천 사이트 뉴헤븐카지노 추천
NO.15: 카지노메이저사이트 뉴헤븐카지노메이저
NO.16: 쿨카지노
NO.17: 홈카지노
국가대표 인공지능(AI)에 도전하는 한국 팀들의 기존 LLM 모델 성능이 수학 수능 및 논술 문제 풀이에서 챗GPT와 제미나이 등 글로벌 모델 성능에 못 미쳤다는 연구 결과가 나왔다.
16일 뉴스1에 따르면 김종락 서강대 수학과 교수 연구팀은 국내 대표 AI 도전 5개 팀의 LLM 모델과 챗GPT,제미나이 등 5개 글로벌 모델을 대상으로 수능 수학 20문제와 논술 30문제를 풀게 했더니 이 같은 결과가 나왔다고 발표했다.
연구팀은 수능 수학의 △공통과목 △확률과 통계 △미적분 △기하 영역에서 가장 어려운 5문항씩 총 20문제를,서울 주요 대학 10곳의 논술 기출문제와 인도 대학 입시문제,뉴헤븐카지노일본 도쿄대 공대 대학원 입시문제 각 10문항씩 총 30문제를 선정해 평가를 진행했다.
한국 모델로는 △업스테이지 솔라 프로-2 △LG AI연구원 엑사원 4.0.1 △네이버 HCX-007 △SK텔레콤 A.X 4.0(72B) △엔씨소프트 라마 바르코 8B 인스트럭트 등을 테스트했다.
미국과 중국 모델로는 △오픈AI GPT-5.1 △구글 제미나이 3 프로 프리뷰 △앤트로픽 클로드 오푸스 4.5 △xAI 그록 4.1 패스트 △딥시크 V3.2 등을 선택했다.
테스트 결과 해외 모델의 점수는 76~92점으로 고르게 높았지만,한국 모델은 솔라 프로-2가 58점으로 가장 높았고 나머지는 20점대에 머물렀다.경량모델인 라마 바르코 8B 인스트럭트는 2점을 기록했다.
연구팀은 한국 모델들이 단순 추론으로는 대부분 문제를 풀지 못해 파이선(Python) 계산 툴을 활용할 수 있도록 설정했음에도 낮은 정답률을 보였다고 설명했다.
연구진이 대학생 수준부터 교수급 연구 난도까지 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문항을 추가로 구성해 진행한 테스트에서도 격차는 컸다.미국과 중국 모델은 82.8~90점을,한국 모델은 7.1~53.3점 수준이었다.
문제 풀이를 3번 시도해 정답을 맞히면 통과로 조건을 완화했을 때도 글로벌 모델은 대부분 90점 이상을 받았다.그록은 만점을 기록하기도 했다.
같은 조건에서 솔라 프로-2는 70점,엑사원은 60점,HCX-007은 40점,뉴헤븐카지노A.X 4.0은 30점,라마 바르코는 20점에 그쳤다.