하이커뮤니티매니져
0
8
12.28

챗GPT 같은 대규모 언어모델(LLM) 기반 AI 서비스를 이용하려면 고가의 데이터센터 GPU가 필수다. 국내 연구팀이 개인용 PC나 스마트폰에 탑재된 저렴한 GPU를 활용해 AI 서비스 비용을 약 67% 절감할 수 있는 기술을 개발했다.
KAIST는 한동수 전기및전자공학부 교수팀이 데이터센터 밖에 널리 보급된 개인 소비자가 쓰는 수준의 GPU를 활용해 LLM 인프라 비용을 크게 낮출 수 있는 새로운 기술 '스펙엣지(SpecEdge)'를 개발했다고 28일 밝혔다. 연구 결과는 12월초 미국 샌디에이고에서 열린 인공지능 분야 최고 권위 국제학회인 ‘신경정보처리시스템학회(NeurIPS)’에서 스포트라이트(상위 3.2% 우수 논문)로 선정돼 발표됐다.
스펙엣지는 데이터센터 GPU와 개인 PC나 소형 서버 등에 탑재된 '엣지 GPU'가 역할을 나눠 LLM 추론 인프라를 함께 구성하는 방식이다. 기존 데이터센터 GPU만 사용하는 방식에 비해 토큰당 비용을 약 67.6% 절감했다.

연구팀은 '추측적 디코딩(Speculative Decoding)' 방법을 활용했다. 엣지 GPU에 배치된 소형 언어모델이 확률이 높은 토큰 시퀀스를 빠르게 생성하면 데이터센터의 대규모 언어모델이 일괄 검증하는 방식이다. 엣지 GPU는 서버의 응답을 기다리지 않고 계속 단어를 만들어 LLM 추론 속도와 인프라 효율을 동시에 높였다.
데이터센터 GPU에서만 추측적 디코딩을 수행하는 방식과 비교해 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상됐다. 일반적인 인터넷 속도에서도 문제없이 작동해, 별도의 특수한 네트워크 환경 없이도 실제 서비스에 바로 적용할 수 있다.
서버는 여러 엣지 GPU의 검증 요청을 효율적으로 처리하도록 설계됐다. GPU 유휴 시간 없이 더 많은 요청을 동시에 처리할 수 있어 데이터센터 자원을 보다 효율적으로 활용할 수 있는 LLM 서빙 인프라 구조를 구현했다.
한동수 교수는 "데이터센터를 넘어 사용자의 주변에 있는 엣지 자원까지 LLM 인프라로 활용하는 것이 목표"라며 "AI 서비스 제공 비용을 낮추고 누구나 고품질 AI를 활용할 수 있는 환경을 만들고자 한다"고 말했다.
<참고자료>
- neurips.cc/virtual/2025/loc/san-diego/poster/119940
https://m.dongascience.com/news.php?idx=75728
토토하이, 토토하이먹튀신고, 토토힌먹튀사이트, 토토하이먹튀검증사이트, 토토하이먹튀없는사이트, 토토먹튀, 먹튀토토, 토토하이먹튀예방, 토토하이먹튀제보, 토토하이먹튀확인, 토토하이먹튀이력조회, 먹튀피해, 토토하이먹튀검증업체, 토토하이먹튀사이트검증, 토토하이먹튀공유, 토토하이먹튀사이트목록, 토토하이먹튀리스트, 토토하이안전공원, 토토하이안전놀이터, 토토하이안전사이트, 토토하이검증사이트