토스의 AI 기술력, 세계 최고 권위 NeurIPS 2025에서 인정받다: FedLPA 연구
안녕하세요, 토스 Face Modeling Team의 ML Engineer 이진우입니다.
영광스럽게도 AI/ML 분야의 세계 최고 권위 학회인 NeurIPS 2025에 제 연구가 게재 되었습니다. 저의 연구 내용과 이 연구가 토스에 미칠 수 있는 비즈니스 임팩트, 그리고 학회 참여에 대한 소회를 공유하고자 합니다.
NeurIPS가 어떤 곳인가요?
NeurIPS(Neural Information Processing Systems)는 매년 12월 개최되는 세계 최대 규모의 기계학습(Machine Learning) 학회입니다. 전 세계 AI 연구자들이 한 해 동안 이룬 최고의 성과들이 모이는 곳으로, 이곳에 논문이 채택되었다는 것은 해당 기술이 세계적으로 인정받았다는 가장 확실한 증거가 됩니다. 토스는 이번 연구를 통해 글로벌 테크 기업들과 어깨를 나란히 하는 AI 기술력을 증명했습니다.
서울대 비전랩과의 시너지
이번 성과는 혼자만의 힘으로 이룬 것이 아닙니다. 서울대학교 Computer Vision Lab의 한보형 교수님 팀과 긴밀히 협업한 결과물인데요. 한보형 교수님과는 이전 Neural Architecture Search(NAS) 연구부터 꾸준히 기술적 교류를 이어오고 있었습니다. 이번에도 새로운 연구 주제를 치열하게 고민하던 중, 교수님께서 소개해주신 김지호 학생과 의기투합하게 되었고, '현실적인 연합학습(Federated Learning)'이라는 난제를 함께 풀어나가며 FedLPA라는 값진 결실을 맺을 수 있었습니다.
저희는 이 연구를 통해, 1) 데이터는 흩어져 있고, 2) 라벨은 부족하며, 3) 분포는 불균형한 현실 세계의 문제를 정면으로 돌파했습니다.
페이스페이, 국경을 넘어 호주에 진출한다면?
토스의 자랑인 '페이스페이'를 호주 시장에 런칭한다고 상상해 봅시다. 최고의 사용자 경험을 위해서는 호주 사용자들의 얼굴 데이터로 AI 모델을 정교하게 학습시켜야 합니다. 하지만 현실적인 장벽이 존재합니다.
"호주 사용자의 생체 데이터는 호주 밖으로 반출될 수 없다."
각국의 개인정보 보호법과 데이터 주권(Data Sovereignty) 문제 때문에 데이터를 한국 서버로 가져와서 학습하는 기존 방식은 불가능합니다. 바로 이때 필요한 기술이 연합 학습(Federated Learning)입니다.
연합 학습(Federated Learning)이란?
데이터를 서버로 모으는 대신, '모델이 데이터가 있는 곳으로 가는' 기술입니다. 사용자의 스마트폰(Client) 내에서 AI가 학습하고, 오직 학습된 결과(Weights)만 암호화되어 서버로 전송됩니다. 사용자의 민감한 원본 데이터는 절대 기기 밖을 나가지 않으므로 개인정보 보호와 AI 학습이라는 두 마리 토끼를 잡을 수 있습니다.
기존 기술의 한계: "현실은 실험실과 다르다"
하지만 기존의 연합학습 기술을 실제 비즈니스에 바로 적용하기에는 치명적인 맹점이 있었습니다.
1️⃣ ‘모든 사용자는 비슷할 것이다’라는 착각: 기존 연구들은 한국 사용자와 호주 사용자의 데이터 분포(얼굴형, 조명 환경, 결제 패턴 등)가 비슷하다고 가정했습니다. 하지만 실제로는 국가별, 지역별, 클라이언트별로 데이터 특성이 완전히 다릅니다(Non-IID).
2️⃣ ‘새로운 것은 없다’는 가정: 서비스 운영 중에는 우리가 미리 알지 못했던 새로운 인종적 특성이나, 새로운 형태의 부정 결제 패턴(Novel Class)이 끊임없이 등장합니다. 기존 기술은 '내가 아는 범주'만 학습하도록 설계되어 있어, 이런 새로운 변화에 대응하지 못했습니다.
결국, 기존 기술을 그대로 도입하면 호주 사용자에게는 한국 사용자만큼의 인식 정확도를 제공하지 못하거나, 새로운 데이터 패턴을 학습하지 못해 성능이 도태되는 문제가 발생합니다.
FedLPA는 어떻게 학습하나요?
FedLPA는 저희가 개발한 알고리즘으로, Local Prior Alignment를 활용한 Federated Learning, Federated Generalized Category Discovery의 약자입니다. 여기서 Generalized Category Discovery(GCD)는 기계 학습 분야의 중요한 과제로, 레이블이 지정된 일부 데이터(Seen Classes)와 레이블이 지정되지 않은 대규모 데이터셋을 함께 활용하여 레이블이 없는 데이터 내의 모든 이미지를 알려진 클래스와 완전히 새로운(Novel) 클래스 모두로 분류하는 것을 목표로 합니다.
FedLPA가 기존 연구의 한계를 뛰어넘을 수 있었던 비결은 '데이터의 구조를 그래프로 파악하고, 이를 모델 학습에 동적으로 반영하는 3단계 파이프라인' 덕분입니다. 논문에서는 이 과정을 통해 서버의 개입 없이 클라이언트 스스로 데이터의 분포(Local Prior)를 찾아냅니다.
그 구체적인 과정을 하나씩 뜯어보겠습니다.

Step 1. 신뢰도 기반 로컬 구조 발견 (Confidence-guided Local Structure Discovery, CLSD)
첫 번째 단계는 각 클라이언트가 가진 데이터들 사이의 '관계'를 정의하는 것입니다. 단순히 이미지의 특징(Feature)만 비교하는 것이 아니라, 더 정교한 유사도 그래프(Similarity Graph)를 구축합니다.
- 초기 그래프 생성: 먼저 모델이 추출한 특징 벡터(Feature Vector)를 이용해 데이터 간의 유사도를 계산하고 연결합니다.
- 신뢰도 기반 정제 (Confidence-guided Refinement): 여기서 중요한 점은 '확실한 정보'를 적극 활용한다는 것입니다. 라벨이 있는 데이터(Labeled Data)는 물론이고, 라벨이 없는 데이터 중에서도 모델이 "이건 확실히 A다"라고 높은 확률로 예측한 데이터(High-confidence samples)를 선별합니다.
- 그래프 강화: 이렇게 선별된 데이터들의 예측 결과(Pseudo-labels)를 이용해 그래프의 연결 강도를 조정합니다. 같은 클래스로 예측된 데이터끼리는 더 강하게 연결하고, 다른 클래스는 끊어내어 그래프의 품질을 높입니다.
Step 2. 인포맵 클러스터링 (InfoMap Clustering)
그래프가 준비되었다면, 이제 그 안에서 '숨겨진 범주'를 찾아낼 차례입니다. 저희는 여기서 InfoMap이라는 커뮤니티 탐지 알고리즘을 사용합니다.
- 왜 InfoMap인가요? 기존 방법론들은 "새로운 범주가 5개일 거야"라고 사람이 미리 정해줘야 했습니다. 하지만 InfoMap은 그래프 상에서 확률적 랜덤 워크(Random Walk)를 통해 데이터들이 자연스럽게 뭉치는 그룹(Community)을 찾아냅니다.
- 자동 범주 추정: 이 과정을 거치면 클라이언트는 서버의 도움 없이도 "내 데이터 안에는 대략 K개의 범주가 있구나"라는 것을 스스로 발견하게 됩니다. 즉, 미지의 데이터가 들어와도 유연하게 대처할 수 있는 기반이 마련되는 것이죠.
Step 3. 로컬 사전 확률 정렬 (Local Prior Alignment, LPA)
마지막 단계는 발견된 구조를 모델 학습에 적용하는 것입니다. 여기서 FedLPA의 핵심 아이디어인 동적 사전 정렬(Dynamic Prior Alignment)이 등장합니다.
- 자가 증류 (Self-distillation): 모델은 앞서 발견된 클러스터의 중심(Prototypes)을 기준으로 데이터를 다시 예측합니다. 이때 데이터의 증강된 뷰(View)들이 서로 일관된 예측을 하도록 유도하여 학습의 안정성을 높입니다.
- LPA 정규화 (Regularizer): 가장 중요한 부분입니다. 모델이 배치를 학습할 때, 예측 결과의 분포가 앞서 Step 2에서 파악한 '실제 데이터의 분포(Empirical Prior)'와 일치하도록 강제합니다.
- 효과: 만약 데이터가 불균형해서 특정 클래스만 잔뜩 있다면, 일반적인 모델은 그 클래스로만 예측하려는 편향을 보입니다. 하지만 LPA는 "이 배치의 실제 분포는 저렇지 않아!"라고 알려주며 모델이 균형 잡힌 학습을 하도록 가이드합니다.
요약하자면, FedLPA는 ① 확실한 데이터로 지도를 그리고(Graph), ② 그 지도에서 스스로 구역을 나눈 뒤(Clustering), ③ 그 구역 정보에 맞춰 모델을 교정(Alignment)하는 과정을 반복합니다. 이 덕분에 전 세계 어디서든, 어떤 데이터 분포를 가진 사용자든 일관되게 높은 성능의 AI 서비스를 경험할 수 있게 되는 것입니다.
토스의 비즈니스, 이렇게 달라집니다
이 연구 성과는 단순한 학술적 기여를 넘어, 토스의 비즈니스 확장성과 안정성에 직접적인 임팩트를 줄 수 있습니다.
1. 규제 리스크 없는 글로벌 진출 가속화 각국의 금융 및 개인정보 규제가 강화되더라도, FedLPA를 통해 데이터를 현지에 둔 채로 고성능 글로벌 모델을 구축할 수 있습니다. 이는 토스가 동남아, 유럽 등 새로운 시장에 진출할 때 기술적 진입 장벽을 제거하는 강력한 무기가 될 수 있습니다.
2. 초개인화된 금융 서비스 (Hyper-personalization) 사용자마다 제각각인 금융 생활 패턴을 중앙 서버의 획일화된 기준이 아닌, 개별 사용자의 로컬 환경에 맞춰 학습합니다. 이를 통해 이상거래탐지(FDS) 시스템은 전 세계 어디서나 발생할 수 있는 신종 사기 수법을 실시간으로 학습하여 방어하고, 신용평가 모델(CSS)은 각국의 특수성을 반영하여 더 많은 사용자에게 금융 기회를 제공할 수 있습니다.
3. 유지보수 비용 절감 및 운영 효율화 새로운 유형의 데이터가 발생할 때마다 사람이 일일이 개입하여 라벨링하고 재학습시키는 과정을 획기적으로 줄일 수 있습니다. FedLPA는 새로운 패턴을 스스로 감지하고 학습하므로, 모델 업데이트 주기를 단축하고 운영 효율성을 극대화합니다.
NeurIPS 2025 현장 참가 후기
지난 12월, 연구 결과를 발표하기 위해 미국 샌디에고에서 열린 NeurIPS 2025 현장에 다녀왔습니다. 전 세계 AI 연구자들의 열기로 가득했던 그곳에서의 경험을 짧게 적어봅니다.
3시간 동안 쉴 새 없었던 포스터 세션

저희 발표 세션은 그야말로 '핫'했습니다. 총 3시간 동안 진행된 포스터 세션 내내 하이퍼커넥트, 네이버, LG 같은 국내 기업 연구자분들 뿐만 아니라, 해외 유수의 대학 학생들과 글로벌 테크 기업 관계자들의 발길이 끊이지 않았습니다. 한국어와 영어를 쉴 새 없이 오가며 목이 쉴 정도로 열띤 설명을 이어갔습니다.
"그래서 토스는 이걸 어디에 쓰나요?"
현장에서 가장 많이 받은 질문은 단연 실제 서비스 적용에 관한 것이었습니다. 저는 한국에서 이미 토스 페이스페이(Face Pay)가 성공적으로 운영되고 있다는 점을 강조하며, "이 알고리즘은 얼굴 데이터를 국경 밖으로 가져가기 어려운 글로벌 환경에서 토스의 AI 서비스를 가능하게 하는 핵심 Key가 될 것"이라고 설명해 드렸습니다. 많은 분들이 연구의 기술적 우수성 뿐만 아니라, 명확한 비즈니스 Use Case가 있다는 점에 큰 관심을 보여주셨습니다.
인상 깊었던 다른 연구들
학회장은 영감의 보고였습니다. 특히 한양대에서 연구한 'Non-Adaptive Adversarial Face Generation'이라는 주제의 연구가 기억에 남았습니다. 우리가 흔히 쓰는 얼굴 인식 모델은 얼굴을 수학적인 공간(고차원 구) 위의 한 점으로 변환해서 누군지를 구별하는데, 이 연구는 이 수학적 공간 안에서 '인종', '성별', '나이' 같은 속성들이 끼리끼리 모여있는 특정 구역(Subsphere)이 있다는 점을 발견했습니다.
이 원리를 이용하면, AI에게는 여전히 '철수'로 인식되지만, 사람 눈에는 '미국인 여성'이나 '노인'으로 보이는 가짜 얼굴을 만들어낼 수 있습니다. 보안 시스템의 허점을 기하학적 원리로 찾아낸 매우 흥미로운 연구였습니다. 토스의 얼굴 인증 보안을 더 강력하게 만드는 데에도 참고할 만한 중요한 인사이트였습니다.
.jpg)
.jpg)
마치며
세계 최고 권위의 AI 학회인 NeurIPS에 토스의 연구를 발표할 수 있었던 것은 정말 영광이었습니다. 학회장에서 만난 전 세계 연구자들과 나눈 대화, 그들의 연구에서 얻은 인사이트는 앞으로 토스의 AI 기술을 더 발전시킬 수 있는 귀중한 자산이 되었습니다.
이번 경험을 통해 연구자로서 더 성장할 수 있었고, 앞으로도 계속해서 실제 비즈니스 문제를 해결하는 의미 있는 연구를 이어가고 싶다는 의지가 생겼습니다. 특히 FedLPA 같은 기술이 토스 페이스 페이를 넘어 토스의 다양한 금융 서비스에 적용되어, 전 세계 사용자들에게 더 안전하고 편리한 경험을 제공할 수 있기를 기대합니다.
토스는 앞으로도 학계와의 협업을 통해 세계 수준의 AI 기술을 개발하고, 이를 실제 서비스에 적용하는 데 집중할 예정입니다. 토스 페이스 페이와 토스의 기술 발전에 많은 관심 부탁드립니다.
