고성능·저전력 AI 반도체 설계로 GPU 의존도 낮추고 AI 인프라 효율화 기대
KAIST(총장 이광형)는 7월 4일, 전산학부 박종세 교수 연구팀이 ㈜하이퍼엑셀(김주영 교수 창업기업)과 공동으로 생성형 AI 클라우드 환경에 특화된 고성능·저전력 NPU(신경망처리장치) 핵심 기술을 개발했다고 밝혔다. 이 기술은 최근 일본 도쿄에서 열린 ‘2025 국제 컴퓨터구조 심포지엄(ISCA)’에서 논문으로 채택되며 기술적 성과를 입증받았다.
생성형 AI 모델은 추론 시 막대한 메모리 대역폭과 용량을 소모하는 ‘KV 캐시(Key-Value Cache)’를 지속적으로 생성하고 누적 저장한다. 이로 인해 서비스 규모가 커질수록 GPU 수요, 전력 소모, 클라우드 인프라 구축 비용이 기하급수적으로 증가한다.
연구팀은 이러한 병목 현상을 해결하기 위해, KV 캐시를 32비트에서 4비트로 줄이는 ‘다중 그룹 기반 양자화 알고리즘’을 설계했다. 양자화는 데이터의 크기를 줄이면서도 성능 손실을 최소화하는 기술로, 이번 연구에서는 양자화가 어려운 데이터를 최소 정보 손실로 처리하는 기법과 맞춤형 인코딩 형식을 함께 제안했다.
그 결과, 기존 GPU 대비 평균 60% 이상 추론 성능을 향상시키면서도 약 44%의 전력 절감 효과를 달성했다. 특히 연산 로직은 그대로 두면서도 메모리 인터페이스만 최적화한 점에서 실용성과 확장성이 높이 평가된다.
AI반도체와 시스템SW 통합 설계… 비용–성능 두 마리 토끼 잡아
이번 기술의 핵심은 AI 반도체(NPU)와 AI 시스템 소프트웨어를 통합적으로 설계해, 적은 수의 디바이스만으로도 대규모 생성형 AI 인프라를 구축할 수 있도록 한 데 있다. 기존에는 성능 확보를 위해 수십~수백 개의 고가 GPU가 필요했지만, 이번 기술을 적용하면 더 적은 수의 NPU로 유사한 성능을 낼 수 있어 클라우드 구축 비용과 운영비용을 모두 절감할 수 있다.

연구팀은 하드웨어적으로는 양자화 엔진, 탈양자화 엔진, 페이지 단위 메모리 관리 유닛 등으로 구성된 모듈형 설계를 적용했으며, 시스템 측면에서는 메모리 병목을 해소하는 알고리즘 최적화에 주력했다.
박종세 교수는 “이번 기술은 생성형 AI의 정확도를 유지하면서도 경량화를 가능케 하는 알고리즘과 이를 구현할 하드웨어 구조를 동시에 확보한 사례”라며, “AI 클라우드뿐 아니라 향후 에이전틱 AI 등 실시간·고성능 AI 응용 환경에서도 활용 가능성이 크다”고 말했다.
이번 연구는 KAIST가 지향하는 ‘AI 시대를 위한 실용 인프라의 핵심 기술 확보’라는 방향성을 잘 보여주는 사례다. 생성형 AI의 성능이 커지는 만큼, 이를 뒷받침할 인프라 효율성과 비용 구조가 병목이 되고 있는 상황에서, KAIST는 알고리즘-하드웨어 통합설계를 통해 그 해법을 제시했다. 추론의 속도만이 아니라, 인공지능 기술의 지속가능성을 가능케 하는 엔지니어링 전략이라는 점에서, 이번 연구는 실험실을 넘어 AI 산업 전반에 실질적인 영향을 미칠 수 있을 것으로 기대된다.
#KAIST #NPU기술 #챗GPT성능향상 #양자화기술 #KV캐시최적화 #생성형AI인프라 #AI반도체 #AI시스템SW통합 #ISCA2025 #박종세교수 #하이퍼엑셀 #KAIST성과