
얼굴 인식의 역사와 페이스페이의 미래
프롤로그: 얼굴이라는 열쇠
새벽 6시, 출근길 편의점. 양손에는 우산과 서류 가방이 들려 있고, 코트 주머니 어딘가에 있을 지갑을 찾기엔 시간이 없습니다. 그때, 계산대 옆 작은 화면이 당신의 얼굴을 인식합니다. 2초. 결제 완료. 커피를 들고 나서는 당신의 손은 여전히 자유롭습니다.
불과 몇 년 전만 해도 SF 영화에서나 볼 법한 장면입니다. 하지만 이제 이것은 우리의 일상입니다. 편의점에서, 카페에서 — 우리는 얼굴만으로 결제를 완료합니다.
그런데 문득 궁금해집니다. 기계는 어떻게 사람의 얼굴을 ‘인식’하게 된 걸까요? 수많은 사람 중에서 단 한 사람을 어떻게 찾아낼 수 있는 걸까요? 그리고 이 기술은 어떻게 ‘안전하게’ 결제 수단이 될 수 있었을까요?
이 질문들에 답하기 위해, 우리는 60년 전으로 거슬러 올라가야 합니다. 냉전의 한복판, 한 수학자의 비밀 연구실에서 시작된 여정으로.
제1장: 수학자의 비밀 연구
1960년대, 얼굴인식의 탄생
1960년 초반, 미국의 Woodrow Wilson Bledsoe라는 수학자가 정부의 비밀 프로젝트를 수행하고 있었습니다. 프로젝트의 목표는 단순하면서도 야심찼습니다. 사진만으로 사람을 식별할 수 있는 시스템을 만들어라. [1]
Bledsoe의 접근법은 오늘날의 관점에서 보면 원시적이었습니다. 그는 연구원들과 함께 수천 장의 얼굴 사진을 테이블 위에 펼쳐놓고, 하나하나 특징점의 좌표를 손으로 기록했습니다. 눈과 눈 사이의 거리, 코끝에서 입술까지의 길이, 귀의 위치 등 여러가지 특징이 되는 숫자들을 기록하고, 이 특징이 비슷하면 같은 사람을 의미했습니다.
컴퓨터는 계산만 도왔을 뿐, 사진에서 특징점을 찾는 건 전적으로 사람의 몫이었습니다. 기계가 보는것이 아니라 사람이 보고, 기계가 계산하는 시스템이었죠.
이 연구는 기밀로 분류되어 Bledsoe는 자신의 가장 중요한 연구를 학계에 발표할 수 없었습니다. 그의 이름이 얼굴인식의 선구자로 재조명된 것은 수십 년이 지난 후의 일입니다.

제2장: 기계의 눈이 열리다
1970년대, 자동화의 시작
1973년, 일본의 Takeo Kanade는 <Picture Processing System by Computer Complex and Recognition of Human Faces>라는 제목의 박사 논문을 발표했습니다.[2] 그는 컴퓨터가 스스로 사진에서 얼굴의 특징점을 찾아내도록 만들었습니다. 그당시 일본에서는 Expo가 열렸고, 전 세계의 관광객이 올 텐데 이들을 자동으로 인식할 방법이 없을지 고민하다가 이 기술 연구가 시작되었다고 합니다.
여기서 주목할 점은 더 이상 사람이 좌표를 입력할 필요가 없었습니다. 기계가 보기 시작한 것입니다.
Kanade의 시스템은 눈, 코, 입의 위치를 자동으로 감지하고, 이들 사이의 기하학적 관계를 여러 개의 파라미터로 추출했습니다. 이 논문을 통해서 컴퓨터는 인간의 도움 없이 이미지에서 의미를 추출할 수 있다는 가능성이 열렸습니다.

제3장: 유령의 얼굴들
1990년대, Eigenface 혁명
1991년, MIT 미디어랩. Matthew Turk와 Alex Pentland가 <Eigenfaces for Recognition> 라는 논문을 발표합니다.[4] Principal Components Analysis (PCA) 방법을 사용하여 얼굴 이미지의 통계학적 분석을 통해 얼굴간의 차이를 나타낼 수 있다는 아이디어입니다.
방식은 다음과 같습니다. 수백 장의 얼굴 사진을 모아 평균 얼굴을 만듭니다. 그리고 각 얼굴이 이 평균에서 어떻게 벗어나는지를 분석합니다. 이 벗어남의 패턴들을 수학적으로 추출하면, 유령처럼 희미하고 기이한 이미지들이 나타납니다. 이것이 바로 Eigenfaces, 고유얼굴들입니다.
이 유령 같은 이미지들은 마치 얼굴의 알파벳과 같습니다. 모든 얼굴은 이 알파벳들의 조합으로 표현될 수 있습니다. 예를 들어 "이 사람의 얼굴은 Eigenface 1을 30%, Eigenface 2를 15%, Eigenface 7을 22% 포함한다"는 식이죠.
두 얼굴이 같은 사람인지 알고 싶다면 각 얼굴의 조합 비율을 비교하면 됩니다. 조합 비율이 비슷하면 같은 사람, 다르면 다른 사람으로 말할 수 있습니다. 이 논문에서는 얼굴 이미지를 저차원 공간으로 표현할 수 있고 이 정보를 사용해서 사람의 얼굴을 구분할 수 있다는 것을 알 수 있습니다.

제4장: 빛과 그림자의 싸움
2000년대, 현실 세계의 도전
연구실을 벗어난 얼굴인식 기술은 예상치 못한 적과 마주했습니다. 바로 빛(Lighting) 이었죠.
같은 사람이라도 형광등 아래에서 촬영한 얼굴과 햇빛 아래에서 촬영한 얼굴은 전혀 다르게 보입니다. 창가에 서면 얼굴 한쪽은 밝고 다른 한쪽은 그림자에 가려집니다. 실내에서 촬영한 증명사진과 야외에서 찍은 셀카는 마치 다른 사람처럼 보일 정도입니다. 당시의 얼굴인식 기술은 이러한 조명 변화에 매우 취약했습니다.
연구자들은 새로운 접근법을 고민하기 시작했습니다. 얼굴 전체를 하나의 이미지로 바라보는 대신, 얼굴을 구성하는 작은 영역들의 특징을 분석하자는 아이디어였습니다. 이렇게 국소 특징(Local Feature) 기반 얼굴인식의 시대가 열렸습니다.
이 시기를 대표하는 기술이 LBP(Local Binary Pattern) 입니다.[6, 7, 8] LBP는 각 픽셀을 주변 픽셀과 비교하여 이진 코드로 표현합니다. “이 픽셀이 주변보다 밝은가, 어두운가?“라는 단순한 비교를 반복함으로써, 절대적인 밝기보다 얼굴의 질감과 패턴에 집중할 수 있게 되었습니다. 그 결과 조명 변화에 상대적으로 강인한 얼굴 표현 방법이 탄생했습니다.
이렇게 사람이 직접 설계한 특징(Hand-crafted Feature) 위에 다양한 머신러닝 분류기가 결합되었습니다. SVM(Support Vector Machine)은 고차원 특징 공간에서 서로 다른 사람의 얼굴을 구분하는 최적의 경계면을 찾았고,[9] AdaBoost 는 여러 개의 약한 분류기를 조합하여 보다 강력한 인식기를 만들어냈습니다.[10]
이 시기의 얼굴인식 시스템은 오늘날의 딥러닝 모델처럼 스스로 특징을 학습하지는 못했지만, 조명 변화와 촬영 환경의 다양성이라는 현실 세계의 문제를 해결하기 위한 중요한 진전을 이루었습니다. 이후 등장하는 딥러닝 기반 얼굴인식 기술 역시 이러한 연구의 토대 위에서 발전하게 됩니다.
제5장: 딥러닝, 게임의 규칙을 바꾸다
2014년, DeepFace의 충격
2014년 6월, Facebook(현 Meta)의 AI 연구팀이 <DeepFace: Closing the Gap to Human-Level Performance in Face Verification>[11] 논문을 발표했습니다.
LFW(Labeled Faces in the Wild)[12]라는 얼굴인식 벤치마크 데이터셋에서 DeepFace는 97.35%의 정확도를 기록했습니다. 인간의 평균 정확도는 97.53%. 기계가 인간을 따라잡기 직전이었죠.
DeepFace는 이름 그대로 심층 신경망(Deep Neural Network)을 사용했습니다. 이전의 방법들에서 ‘어떤 특징을 볼 것인가’를 연구자가 정했다면, 심층 신경망은 스스로 특징을 학습했습니다. 4백만 장의 얼굴 사진을 보며, 기계는 사람이 상상하지 못한 패턴들을 발견했습니다.
1년 후, Google의 FaceNet[13]이 등장합니다. ‘Triplet Loss’라는 새로운 학습 방법을 도입한 이 시스템은 LFW에서 99.63%의 정확도를 달성합니다. 인간을 넘어섰습니다.
이후 SphereFace(2017)[14], CosFace(2018)[15], ArcFace(2019)[16]가 연이어 등장하며 기록을 갈아치웠습니다. 얼굴인식은 더 이상 ‘가능한가’의 문제가 아니었습니다. ‘어떻게 더 잘할 것인가’의 문제가 되었죠.


제6장: 데이터의 대결
기술을 견인한 거대한 데이터셋들
딥러닝의 성능은 데이터에 비례합니다. 얼굴인식 분야도 예외가 아니었습니다. 더 크고, 더 다양한 데이터셋을 확보하기 위한 경쟁이 시작되었습니다.
FERET (1993-1996) [17]
미국 NIST가 주도한 체계적 얼굴 데이터베이스입니다. 1,199명의 14,126장 흑백 이미지(추후 컬러 이미지 추가)로 구성이 되어 있습니다. 오늘날의 기준으로는 작지만, 이 데이터셋이 없었다면 얼굴인식 연구의 객관적 비교는 불가능했을 것입니다.

LFW - Labeled Faces in the Wild (2007) [12]
‘in the wild’ 라는 이름이 말해주듯, 인터넷에서 수집한 5,749명, 13,233장의 자연스러운 사진들입니다. 조명, 각도, 표정이 제각각인 이 데이터셋은 실제 환경에서 얼마나 잘 인식하는지를 확인할 수 있는 대표적인 데이터입니다. 지금은 대부분의 알고리즘이 높은 성능을 보이지만, 당시에는 전세계의 많은 연구자들이 이 데이터에서 성능을 높이기 위해 많은 노력을 하였습니다.

VGGFace (2015) [18]
Oxford 대학에서 공개한 대규모 데이터셋입니다. 2,600명, 270만 장. 딥러닝 시대에 들어와서 일반적인 이미지 분류 뿐 아니라 얼굴 인식 분야에서도 ‘데이터가 많으면 성능이 올라간다’는 기본적인 원칙을 보여준 데이터입니다. 이후 VGGFace2[19] 까지 공개되었습니다.

MS-Celeb-1M (2016) [20]
Microsoft가 공개한 초대형 데이터셋입니다. 원래 목표는 100만 명이었지만, 실제로는 약 10만 명 규모로 사용됐습니다. 논문에서는 셀럽 100만 명에 대한 이미지를 모아 정제를 거치는 과정에 대해 설명했습니다. 하지만 이 데이터셋은 개인정보 보호 이슈로 현재는 공식 배포가 중단되었습니다—기술 발전과 프라이버시 사이의 긴장을 보여주는 상징적 사례죠. [21]
WebFace260M (2021) [22]
현재 세계 최대 규모의 얼굴 데이터셋입니다. 2억 6천만 장의 원본 이미지에서 정제하여 200만 명, 4,200만 장을 구축했습니다. 이 논문에는 데이터 구축 과정이 자세히 기술되어 있습니다. MS1M과 IMDB에 등록된 인물들의 이름 400만 개로부터 이미지 2억 6천만 장을 수집한 후, 노이즈와 오류를 자동으로 정제하여 200만 명, 4200만 장으로 데이터를 정제하였습니다. 이 논문은 다시 한 번 데이터 스케일과 품질의 중요성을 일깨워 주었습니다.

제7장: 얼굴이 지갑을 대신하다
페이스페이의 탄생
60년 간 발전해 온 얼굴인식 기술. 스마트폰 잠금 해제, 공항 출입국 심사, 사무실 출입 통제 등 활용 분야는 점점 넓어졌지만, 한 가지 영역은 오랫동안 열리지 않았습니다. 바로 ‘결제’였습니다.
결제는 특별합니다. 틀려도 되는 잠금 해제와 달리, 결제는 틀리면 안됩니다. 보안은 철벽 같아야 하면서도, 사용자 경험은 자연스러워야 합니다. 토스의 페이스페이는 이 기술적인 모순을 해결하고자 끊임없이 노력했고 2025년 9월, 대한민국에서 얼굴 결제 서비스가 시작되었습니다. [23]

왜 얼굴인가?
결제 수단의 역사를 돌아보면, 방향성이 보입니다. 동전에서 지폐로, 지폐에서 카드로, 카드에서 스마트폰으로 — 매번 더 편리하고, 더 빠르고, 더 적게 들고 다니는 방향으로 진화했습니다.
그렇다면 다음 단계는? ‘아무것도 들고 다니지 않는’ 결제일 것입니다. 그리고 그것을 가능하게 하는 유일한 것은 우리 자신, 바로 얼굴입니다.
제8장: 기술 구조의 비밀
페이스페이는 어떻게 작동하는가
매장의 토스 단말기 앞에 섰을 때, 눈에 보이지 않는 곳에서 수많은 일들이 순식간에 일어납니다.
결제의 흐름
기존 카드 결제의 흐름은 단순합니다. 고객이 카드를 제시하면, POS 단말기가 정보를 읽고, VAN사를 거쳐 카드사에 승인을 요청하고 승인이 나면 결제가 완료됩니다.
페이스페이는 여기에 몇가지 단계가 추가됩니다.
Edge vs Cloud: 설계의 딜레마
얼굴인식을 어디서 처리할 것인가? 결제 과정에서는 결제 단말기, 서버 등 다양한 장치가 관여되어 있습니다. 그래서 얼굴 인식의 각 과정을 어느 장치에서 처리할 것인지 결정해야 하고 그 결정에 따라 결제 속도와 성능, 보안 등이 차이가 납니다.
단말기 처리 (Edge Computing)
장점은 명확합니다. 네트워크 지연이 없으니 빠르고, 이미지가 외부로 전송되지 않으니 프라이버시에 유리합니다. 하지만 단말기의 제한된 하드웨어 안에서 동작해야 하므로 사용할 수 있는 모델의 크기와 정확도에 한계가 있습니다. 모델 업데이트도 개별 단말기마다 해야 하니 관리가 어렵습니다. 페이스페이 사용자가 지속적으로 가입을 하기 때문에 고객 정보 동기화가 필요한데, 한 명이 가입하면 전국의 단말기에 고객 정보를 입력해야 하는 것은 오히려 네트워크 비용이 더 큽니다.
서버 처리 (Cloud Computing)
강력한 GPU가 장착된 서버에서 처리하면 최신의, 가장 정확한 모델을 사용할 수 있습니다. 중앙에서 로그를 관리하니 문제 해결도 쉽습니다. 모델 업데이트는 서버만 바꾸면 즉시 전체에 적용됩니다. 대신 이미지를 전송하는 시간이 필요하고, 이 과정에서의 보안이 더 중요해집니다.
페이스페이는 이 두 접근법의 장점을 조합하여 빠르면서도 정확한, 그리고 안전한 시스템을 구축했습니다. 단말기에서 빠르게 처리하는 초기 과정을 거쳐 이미지를 서버로 전송하여 얼굴 정보를 추출, 인식, 결제를 하게 됩니다.
제9장: 보안, 그 철벽 같은 방어선
"얼굴 정보가 유출되면 어떻게 하죠? 비밀번호는 바꾸면 되지만, 얼굴은 바꿀 수 없잖아요."
페이스페이를 처음 접한 사람들이 가장 많이 하는 질문입니다. 당연한 걱정이고, 당연히 답이 있어야 합니다.
다층 보안 체계
1️⃣ 통신은 암호화됩니다 단말기와 서버 사이의 모든 통신은 TLS로 암호화됩니다. 이미지 자체도 AES-256으로 추가 암호화됩니다. 중간에서 누군가 데이터를 가로챈다 해도 의미 있는 정보를 얻을 수 없습니다.
2️⃣ 취소 가능한 생체인증 (Cancellable Biometrics) 페이스페이는 ‘Matrix Projection’ 기술을 사용합니다. 같은 얼굴이라도 다른 Key를 적용하면 완전히 다른 벡터가 생성됩니다. 만약 — 극히 드문 경우지만 — 데이터가 유출된다면? 새로운 Key로 벡터를 재발급하면 됩니다. 마치 비밀번호를 바꾸듯이, 생체정보도 갱신이 가능합니다. 생성된 생체 특징 정보는 원본 얼굴 이미지와 일대일로 대응되지 않으며, 해당 정보만으로 원본 얼굴을 복원하기 어렵도록 설계되어 있습니다.
3️⃣ 서버 접근 제한 생체정보는 제한된 시스템과 인원만 접근할 수 있으며, 모든 접근은 기록되고 관리됩니다. 또한 서비스 운영 과정에서도 최소한의 데이터만 활용하도록 설계되어 있으며, 접근 권한은 업무상 필요한 범위로 제한됩니다.
4️⃣ 제도적 검증 기술만으로는 부족합니다. 페이스페이는 서비스 출시 전 개인정보보호위원회의 사전적정성 검토를 통과했습니다. 안심보장제를 통해 부정 결제 시 전액을 보상합니다. 기술과 제도, 양쪽에서 사용자를 보호합니다.
제10장: 가짜 얼굴을 걸러내다
Anti-Spoofing 기술
보안 관점에서 이런 궁금증이 생길 수 있습니다.
“얼굴 사진을 들이대면 인증되지 않을까?” “태블릿이나 휴대폰 화면에 영상을 재생하면?” “정교한 3D 마스크를 사용하면?”
이처럼 실제 사용자가 아닌 사진, 영상, 마스크 등으로 인증을 우회하려는 시도를 스푸핑 공격(Spoofing Attack) 또는 프레젠테이션 공격(Presentation Attack)이라고 합니다. 페이스페이는 이러한 공격을 방어하기 위해 카메라 앞에 있는 대상이 실제 사람인지 판별하는 Anti-Spoofing(또는 Liveness Detection, Presentation Attack Detection) 기술을 적용합니다.
다양한 센서를 활용한 다중 검증
결제 단말기에는 얼굴을 촬영하기 위한 카메라가 설치되어 있는데, Anti-spoofing을 위해 여러 종류의 카메라를 설치할 수 있습니다. 페이스페이 뿐만 아니라 일반적인 Anti-spoofing의 관점에서 사용되는 카메라는 다음과 같습니다.
실제 서비스에서는 하나의 센서나 하나의 알고리즘에만 의존하지 않습니다. RGB, IR, Depth 센서에서 얻은 정보를 함께 분석하고, 다양한 위변조 탐지 모델을 결합하여 여러 형태의 스푸핑 시도에 대응합니다.
대응하는 공격 유형
2D 공격
평면 이미지를 이용해 얼굴 인증을 우회하려는 시도입니다.

3D 공격
실제 얼굴과 유사한 입체 구조를 이용한 공격입니다.
페이스페이의 Anti-Spoofing 시스템은 다양한 형태의 2D·3D 공격에 대응하도록 설계되어 있습니다.
단말기의 센서로부터 수집한 정보를 종합적으로 분석하고, 딥러닝 기반 위변조 탐지 모델이 실제 사람인지 여부를 판별합니다. 사용자는 별도의 동작을 수행할 필요가 없습니다. 눈을 깜빡이거나 고개를 움직이는 등의 추가 절차 없이도, 시스템이 백그라운드에서 자동으로 진위 여부를 확인합니다.
제11장: 세계가 인정한 기술력
기술의 성능을 주장하기는 쉽지만 증명하기는 어렵습니다. 페이스페이의 얼굴인식 기술은 NIST의 FRTE를 통해서 대외적으로 성능을 검증하기로 했습니다.
NIST FRTE 1:1 평가: 세계 12위
NIST(미국 국립표준기술연구소)의 FRTE(Face Recognition Technology Evaluation) [25]는 전 세계 얼굴인식 알고리즘의 성능을 객관적으로 평가하는 가장 권위 있는 벤치마크입니다. 수백 개의 알고리즘이 동일한 조건에서 경쟁합니다. 외부에는 전혀 공개되지 않는 비자, 머그샷, 입국 사진 등의 사진을 사용하여 실험을 하기 때문에 모든 얼굴 인식 알고리즘들이 공정하게 비교되기 때문에 신뢰할 수 있는 성적입니다.
페이스페이의 얼굴인식 엔진은 지난 2025년 10월, 이 평가에서 1:1 Verification 부문 세계 12위를 기록했습니다. 페이스페이는 여기서 멈추지 않고 지속적으로 모델 성능을 향상시켜 순위를 올리기 위해 노력하고 있습니다.

제12장: 숫자가 말해주는 것들
페이스페이의 성장
2025년 9월, 첫 출시. 새로운 결제 수단에 대한 시장의 반응은 어땠을까요?
정식 출시 2개월 만인 2025년 11월, 페이스페이 가입자 수는 100만 명을 돌파했습니다. 전국 결제율 50%, 서울 결제율은 약 79%에 달합니다. 2026년 4월 기준 가입자수 483만 명을 넘었습니다.
이 숫자들이 의미하는 것은 분명합니다. 사람들은 새로운 결제 방식을 받아들이고 있습니다. 편리함과 보안 사이에서 균형을 찾은 서비스는 빠르게 일상으로 스며듭니다.
에필로그: 결제의 미래, 그리고 그 너머
Bledsoe가 연구실에서 얼굴 사진의 특징점을 손으로 기록하던 시절로부터 60여년이 흘렀습니다. 당시 그는 상상했을까요? 자신의 연구가 언젠가 사람들이 얼굴만으로 결제하는 세상으로 이어질 것이라는 사실을.
기술은 그 자체만으로 의미를 갖지 않습니다. 사람들의 삶 속으로 들어가 실제 문제를 해결할 때 비로소 가치를 갖게 됩니다. 얼굴인식 기술 역시 수십 년간 연구실과 논문 속에서 발전해 왔고, 이제는 우리의 일상 속 가장 익숙한 행동 중 하나인 결제에 활용되고 있습니다.
페이스페이는 그 시작에 불과합니다. 더 많은 브랜드와의 협업이 진행되고 있으며, 앞으로 더 많은 매장에서 얼굴인식 결제를 경험할 수 있게 될 것입니다. 지갑을 꺼내지 않아도 되고, 스마트폰을 찾지 않아도 되는 경험. 결제를 위해 무언가를 꺼내야 했던 시대에서, 나 자신이 결제 수단이 되는 시대로 변화가 시작되고 있습니다.
얼굴인식 기술의 60년 역사는 아직 끝나지 않았습니다. 그리고 그 다음 장은, 우리의 일상 속에서 계속 써 내려가게 될 것입니다.
