News
성과
S2W, LLM 토큰화 취약점 규명… EMNLP 2025 채택
2025.11.11

S2W, LLM 토큰화 취약점 규명… EMNLP 2025 채택



LLM 토큰화 구조의 근본적 취약점을 규명한 S2W 및 KAIST 공동연구팀의 논문이 세계 최고 권위 AI 학회 ‘EMNLP 2025’에 채택됐습니다! EMNLP는 ACL, NAACL과 함께 자연어처리(NLP) 분야의 세계 3대 학술대회 중 하나로 꼽히는데요. 이번 논문 등재를 통해 S2W는 글로벌 최고 권위 AI 학회에 4년 연속으로 채택되는 쾌거를 이루게 됐습니다.


본 논문은 LLM 내부의 처리 기능 중 하나로, 문장 분석 과정에서 문자를 분절해 처리하는 ‘토크나이저(Tokenizer)'가 환각 현상을 유발할 수 있다는 내용을 담고 있습니다. 특히 토크나이저 설계로 발생한 환각이 영어 이외의 언어에서 자주 나타난다는 점에서, 모델의 답변 품질이 영어권보다 비영어권에서 더욱 저하될 수 있다는 가능성을 제시하며 소버린AI에 관한 논의에 유의미한 시사점을 제공하고 있는데요.


S2W는 향후에도 신뢰할 수 있는 AI를 만들기 위한 선도적인 연구 성과를 지속 창출해 나가며, AI 생태계의 발전에 기여할 계획입니다.


🔥 자세한 내용을 아래 기사에서 확인해 보세요.

https://bit.ly/3LqK8ap


✅ 논문 상세보기

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers


목록