AI 연구 딥다이브

AI 연구 딥다이브

Top-tier 학회 논문을 깊이 파고드는 기술 리뷰. 대학원 세미나 참고자료 수준.

7편의 글

AI 연구 딥다이브2026년 2월 21일

두 개의 Softmax를 빼면 노이즈가 사라진다, Differential Transformer 분석

어텐션 맵 두 장의 차이를 구하면 노이즈가 상쇄된다. 노이즈 캔슬링 헤드폰과 같은 원리로 self-attention의 고질적 문제를 해결한 ICLR 2025 Oral 논문을 분석한다.

읽기 →
AI 연구 딥다이브2026년 2월 21일

수식 한 줄이 어텐션 싱크를 없앴다: NeurIPS 2025 최고 논문 분석

Softmax 어텐션 출력에 sigmoid 게이트를 하나 곱하면, 8년 된 구조적 결함이 사라진다. Qwen 팀이 30개 모델 변형, 3.5조 토큰 실험으로 이를 증명했다. NeurIPS 2025 Best Paper를 받은 Gated Attention을 분석한다.

읽기 →
AI 연구 딥다이브2026년 2월 21일

MedCoG: 의료 LLM은 '언제 생각할지'를 알아야 한다

LLM의 메타인지로 의료 추론 효율을 5.5배 높인 MedCoG. 더 많이 생각하는 대신, 언제 생각할지를 판단하는 프레임워크를 분석한다.

읽기 →
AI 연구 딥다이브2026년 2월 21일

Recursive Language Models: 컨텍스트 윈도우를 넘어서는 재귀적 접근

MIT 연구진이 제안한 RLM은 프롬프트를 파이썬 변수로 저장하고 LLM이 스스로 재귀 호출하며 탐색하게 한다. 1,000만 토큰도 성능 저하 없이 처리한다.

읽기 →
AI 연구 딥다이브2026년 2월 21일

작은 모델도 생각할 수 있다: Blueprint와 Prompt Template Search로 소형 LLM의 추론 능력 끌어올리기

3.8B 파라미터 모델도 제대로 된 프롬프트만 주면 수학·코딩·논리 문제를 풀 수 있다. 마이크로소프트 연구팀이 제안한 Blueprint + Template Search 프레임워크가 소형 LLM 추론의 판을 바꾸는 방법.

읽기 →
AI 연구 딥다이브2026년 2월 19일

이진 토큰으로 이미지를 만든다, BitDance가 VQ 코드북 7년 천하에 던진 도전장

VQ 코드북 8,192가지 대신 0과 1만으로 이미지를 표현하면? ByteDance Research가 내놓은 BitDance는 이진 토큰으로 AR 이미지 생성 최고 기록(FID 1.24)을 갈아치웠다.

읽기 →
AI 연구 딥다이브2026년 2월 18일

CARE-RFT: 추론 잘하는 모델이 거짓말도 잘하는 이유, 그리고 해법

RFT로 추론 능력을 끌어올린 모델일수록 hallucination도 따라 오른다. UT Austin 연구팀이 loss function의 정규화 항 하나를 바꿔 이 트레이드오프를 줄인 방법.

읽기 →