[피치원뷰]삼성·SK하이닉스 강타한 구글 터보권트,AI메모리시장 격동의 시간 [피치원뷰]삼성·SK하이닉스 강타한 구글 터보권트,AI메모리시장 격동의 시간
구글의 첨단 메모리 압축 기술 ‘터보퀀트(TurboQuant)’ 가 글로벌 반도체업계를 강타하고 있다. 향후 AI용 메모리 반도체 수요가 6분의 1로 격감할 것이란 전망부터 메모리 수요폭증 조정기가... [피치원뷰]삼성·SK하이닉스 강타한 구글 터보권트,AI메모리시장 격동의 시간

구글의 첨단 메모리 압축 기술 ‘터보퀀트(TurboQuant)’ 가 글로벌 반도체업계를 강타하고 있다.

향후 AI용 메모리 반도체 수요가 6분의 1로 격감할 것이란 전망부터 메모리 수요폭증 조정기가 더 빠르게 올 것이란 전망까지 희비가 엇갈리고 있다. 구글이 24일 전격 공개한 터보퀀트는 AI가 답을 만들 때 사용하는 ‘KV 캐시’ 메모리를 압축하는 기술.

같은 작업을 하면서도 메모리 사용량이 6분의 1에 불과하고, 속도는 크게 높일 수 있다는 점이 핵심이라는 게 구글의 설명이다. 터보퀀트가 상용화할 경우 AI빅테크들의 메모리 구매가 6분의 1 수준으로 줄어들 수 있다는 의미다.

구글 연구진은 지난 24일(현지시간) 구글리서치 블로그와 소셜네트워크서비스(SNS) 계정에 터보퀀트 기술의 적용 사례를 소개하는 콘텐츠를 게재해 ‘구글의 딥시크’라는 평가와 함께 글로벌 반도체업계 및 AI업계에 또한번 충격을 주고 있다.

gtq.jpg

24일 구글 ‘터보퀀트(TurboQuant)’ 공개 충격파로 글로벌 메모리 반도체 3사 주가는 26일 급락했다. 이날 삼성전자 주가는 시초가보다 3.6%하락한 18만2200원, 하이닉스는 4.5% 하락한 95만에 거래됐다. 미 메모리 반도체업체 마이크론도 25일(현지시간) 뉴욕증시에서 전거래일보다 3.4% 떨어진 382.09달러에 장을 마감했다.

구글리서치는 터보퀀트를 “정확도 손실 없이 모델 크기를 크게 줄이는 압축 방식”이라고 소개했다. 사이버보안기업 클라우드플레어의 매튜 프린스 최고경영자(CEO)는 이 기술이 “구글의 딥시크”라며 높게 평가했다.

딥시크가 알고리즘을 개선,소량의 GPU로 빅테크 AI모델과 비슷한 성능을 내는 빼어난 성능을 자랑했듯, 구글이 메모리 압축 기술로 메모리 과부하 문제를 극적으로 해결했다는 의미다. 프린스 CEO는 “AI 추론 속도, 메모리 사용량, 전력 소비 등을 최적화할 여지가 훨씬 많아졌다”고 평가했다.

구글 터보퀀트가 전격 공개되자 삼성전자, SK하이닉스 마이크론 등 글로벌 메모리 반도체 3사는 비상이 걸렸다. 삼성전자와 SK하이닉스는 구글의 터보퀀트가 과연 상용화 직전 단계까지 왔는지,필드테스크 결과 메모리 수요가 6분의 1이하로 감소하고 엔비디아 AI칩 성능이 8배까지 향상됐다는 데이터에 대해 비상한 관심을 쏟고 있다.

삼성전자와 SK하이닉스는 이번 기술이 메모리 반도체는 물론 HBM수요까지 영향을 미칠지 면밀히 검토하는 등 향후 구글의 행보에 촉각을 곤두세우는 분위기다. 구글 연구진은 지난해 논문 형태로 소개한 터보퀀트 기술을 이번엔 실제 상용화에 근접한 적용 사례로 소개,시장의 폭발적인 관심을 모았다.

특히 터보권트 기술의 경우 고가의 메모리 사용량을 크게 줄일 수 있는 기술이라는 점이 부각되며, 글로벌 메모리 공급부족사태와 천정부지로 치솟는 D램 가격 문제를 극적으로 해소할 것이란 기대감이 폭발했다.

주요 외신은 터보퀀트 기술이 상용화할 경우 메모리 수요가 둔화할 것이라며 일제히 보도했다. 반면 상용화까지는 많은 시간이 소요되고 실제 필드 적용시 여전히 메모리수요는 큰 변동없이 증가세를 유지할 것이란 전망도 우세하다. 확산되고 있다.

투자업계는 이번 기술은 이미 지난해 공개된 논문으로, 상용화시 AI인프라 효율 개선이 더욱 빠르게 진행되면서 더 많은 데이터 처리로 이어질 수 있어 메모리 수요는 오히려 늘어날 가능성이 높다는 해석을 내놓고 있다.

결국 터보퀀트로 인해 메모리 수요감소로 각 개별 추론 비용은 낮아질 수 있지만 빅테크기업의 AI인프라 전체 추론 수요는 더 폭발적으로 증가할 것이란 분석이다.

증권가는 글로벌 메모리 반도체 품귀현상으로 인한 조정기를 거칠 가능성이 높고, 결국 거품논란을 일으키며 천문학적인 투자경쟁에 몰입했던 빅테크기업이 AI인프라 투자 역시 큰 변동없이 이어질 공산이 크다는 분위기다.

오히려 상용화와 관련해 기술 실효성에 대한 신중론도 제기되고 있다. 일부 시장 참여자는 벤치마크 환경과 실제 필드 환경에서 성능차이가 존재할수 있고,양자기술을 적용한 양산단계에서의 상황도 지켜봐야 한다는 입장이다.

구글에 따르면 인공지능(AI) 모델은 인간 언어와 이미지를 숫자의 나열인 ‘벡터’로 정의한다. 벡터 가운데 이미지의 특징, 단어의 의미 등 복잡한 정보를 담는 고차원 벡터는 더 많은 메모리 용량을 차지하기 마련이다.

고차원 벡터가 늘어나면 AI가 사용자와 나눈 대화의 맥락을 저장하는 ‘임시 저장 메모장’인 KV캐시에 병목 현상이 발생, 속도저하가 일어난다. 구글리서치는 이 문제를 해결하기 위해 고차원 벡터를 압축하는 ‘벡터 양자화’ 기술을 적용했다고 밝혔다.

이를테면 S,M,L 사이즈 등 규격화하듯 다양한 데이터를 몇 가지 표준 규격으로 묶는 기술이다. 문제는 압축된 데이터를 해석하는 데 또 별도 데이터가 필요해,또다시 메모리를 차지하는 문제가 반복된다.

구글 리서치는 그 해결책으로 고품질 압축 기술인 ‘폴라 퀀트(PolarQuant)’를 제시했다. 데이터의 기하학적 구조를 단순화시키는 기술로, 5.46524…처럼 소수점이 이어지는 숫자를 정수인 5으로 표시하는 식이다.데이터 구조를 단순화하면 메모리 용량을 급격히 줄일 수 있다는 것.

정확도를 유지하기 위해서는 양자화된 존슨-린데스트라우스 변환(QJL) 기법을 적용했다. 이를테면 기존 데이터와 압축 데이터 간의 차이를 보존하는 개념이다. 다만 벡터 양자화와 달리 각 결과 벡터를 +1 또는 -1의 부호 비트로 표시해 차지하는 메모리를 최소화했다.

구글 리서치는 터보퀀트 기술을 오픈소스 AI 모델인 구글 젬마, 미스트랄 등의 연산에 적용한 결과, 데이터를 대부분 유지한 채 KV캐시 용량을 6분의1로 줄였다고 밝혔다. 4비트 터보퀀트를 통해서는 엔비디아의 H100 그래픽처리장치(GPU) 성능을 8배 높였다는 게 구글측의 설명이다.

구글은 이 기술을 자사 AI 모델 제미나이의 KV캐시 병목을 해결하는 데 적용하는 한편, 온라인 검색에도 적용키로 했다.

KakaoTalk_20260326_154421058

No comments so far.

Be first to leave comment below.

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.