Top-tier 학회 논문을 깊이 파고드는 기술 리뷰. 대학원 세미나 참고자료 수준.
7편의 글
어텐션 맵 두 장의 차이를 구하면 노이즈가 상쇄된다. 노이즈 캔슬링 헤드폰과 같은 원리로 self-attention의 고질적 문제를 해결한 ICLR 2025 Oral 논문을 분석한다.
Softmax 어텐션 출력에 sigmoid 게이트를 하나 곱하면, 8년 된 구조적 결함이 사라진다. Qwen 팀이 30개 모델 변형, 3.5조 토큰 실험으로 이를 증명했다. NeurIPS 2025 Best Paper를 받은 Gated Attention을 분석한다.
LLM의 메타인지로 의료 추론 효율을 5.5배 높인 MedCoG. 더 많이 생각하는 대신, 언제 생각할지를 판단하는 프레임워크를 분석한다.
MIT 연구진이 제안한 RLM은 프롬프트를 파이썬 변수로 저장하고 LLM이 스스로 재귀 호출하며 탐색하게 한다. 1,000만 토큰도 성능 저하 없이 처리한다.
3.8B 파라미터 모델도 제대로 된 프롬프트만 주면 수학·코딩·논리 문제를 풀 수 있다. 마이크로소프트 연구팀이 제안한 Blueprint + Template Search 프레임워크가 소형 LLM 추론의 판을 바꾸는 방법.
VQ 코드북 8,192가지 대신 0과 1만으로 이미지를 표현하면? ByteDance Research가 내놓은 BitDance는 이진 토큰으로 AR 이미지 생성 최고 기록(FID 1.24)을 갈아치웠다.
RFT로 추론 능력을 끌어올린 모델일수록 hallucination도 따라 오른다. UT Austin 연구팀이 loss function의 정규화 항 하나를 바꿔 이 트레이드오프를 줄인 방법.