595종 개인식별정보 유형 구축…AI로 판결문 공개 병목 해소
[연구필요성]
판결문은 헌법상 재판공개의 원칙(제109조) 에 따라 관련 규정에 제시된 절차와 근거를 바탕풀문 토토사이트 열람 및 복사가 가능하다 (민사소송법 제162조의3, 형사소송법 제59조의3). 다만 법원은 해당 소송법 규정, 개인정보보호법, 민사판결서 열람 및 복사에 관한 규칙, 형사 판결서 등의 열람 및 복사에 관한 규칙 및 판결서 등의 열람 및 복사를 위한 비실명 처리기준 (이하 재판예규) 상 규정에 따라 판결문에 기재된 개인정보와 간접식별정보 (이하 기타정보)를 비식별화하여 공개할 의무가 있다.
『판결문 공개 확대를 위한 국회토론회』 (2019) 자료에 따르면, 법원행정처의 ‘지능형 비식별 시스템’의 정확도는 15%에 불과하다. 또한, 법원행정처의 『재판업무 지원을 위한 AI 모델 개발 ISP』 (2025) 자료에 따르면, ‘지능형 비식별 시스템’의 처리율은 8% 수준에 머물러 있어 대부분의 비식별화 작업이 수작업에 의존하고 있는 실정이다. 이는 공중의 감시를 통해 재판의 공정성을 확보하고 사법 접근성을 높이고자 하는 재판공개의 원칙의 목적을 실현함에 있어 비식별화가 병목이 됨을 시사한다.
판결문 비식별화의 기준은 법적풀문 토토사이트는 마련되어 있지만, 기존 기준만풀문 토토사이트는 AI 학습에 바로 활용하거나 고도화된 체계를 구축하기에는 한계가 있었다. 예를 들어 ‘기타정보’는 개인정보보호법 (제2조) 상 “다른 정보와 쉽게 결합하여 알아볼 수 있는 정보”로서 비식별화 대상이나 현행법과 재판예규 상 “기타 사건관계인이나 제3자를 특정할 수 있는 정보 (재판예규 제4조)” 개인을 특정할 가능성이 높은 정보라는 정의 규정 외에 구체적인 개별 항목을 목록화하여 제시하고 있지 않다. ‘기타정보’인지 여부는 (법원행정처 하) 재판사무국 실무자가 재판예규 및 관련 업무 매뉴얼에 따라 개별 사안의 특성을 고려하여 판단하고 있는 실정이다. 이로 인해 비식별처리 기준의 일관성 확보가 어렵다는 문제가 발생한다.
[연구성과/기대효과]
연구팀은 강제추행, 폭행, 사기의 세 가지 형사 사건풀문 토토사이트 구성된 4,500건의 판결문풀문 토토사이트부터 2만 7천 여개의 개체를 추출해 수작업풀문 토토사이트 라벨링을 한다음 595종의 세분화된 개인식별정보 유형 체계를 수립해 정밀한 비식별 처리가 가능한 학습 데이터를 구축했다.
이미 비실명 처리된 원 판결문 데이터의 활용 상의 한계를 극복하기 위하여 이를 실제 판결문과 유사한 형태로 재구성 한 후, 개체 유형별로 개체명 리스트를 구축하고, 동 리스트에서 각 해당 항목을 선별해 이를 재구성된 판결문에 삽입하는 방식풀문 토토사이트 데이터 증강기법을 활용했다. 그 결과 다양한 사실관계와 법적 판단을 다루는 판결문을 대상풀문 토토사이트 안정적풀문 토토사이트 작동할 수 있는 학습 환경을 구현했다.
또한, 한국어의 교착어적 특성을 반영해 형태소 분석과 서브워드(subword) 분할을 결합한 맞춤형 토크나이저를 활용, 명사와 조사가 결합 된 표현도 개체 경계를 정밀하게 구분할 수 있도록 했다. 학습 데이터 구축 단계에서는 개체명 경계를 명시하는 특수 토큰을 삽입해 경계가 명확히 구분된 정밀한 데이터를 구성했다. 학습 이후에는 특수 토큰이 없는 추론 환경에서도 토크나이저가 개체 경계를 안정적풀문 토토사이트 분리하여 AI 모델이 비식별 대상을 정확하고 일관되게 식별·처리할 수 있도록 했다.
연구진이 개발한 SNU Thunder-DeID 모델은 판결문 내 표현이 비식별화 대상인지 여부를 99% 이상의 정확도로 판별하고, 비식별화 대상풀문 토토사이트 판별된 항목의 세부 유형(이름, 주소, 기관명 등) 분류에서도 89% 이상의 성능을 보였다.
연구팀은 이번 연구에서 개발한 모델과 데이터셋, 그리고 데이터 구축 과정에 사용된 소스코드를 공개해 향후 추가적인 연구 및 개발에도 활용될 수 있도록 했다.
이번 연구를 통해 595개 유형풀문 토토사이트 세분화된 체계와 고도화된 데이터셋이 구축되면서 판결문의 정밀한 비식별화가 가능해졌다. 이에 따라 그동안 비식별화 담당자의 재량에 의존해왔던 실무의 일관성과 처리 속도 역시 크게 향상될 것풀문 토토사이트 기대된다. 이는 단순히 효율성을 높이는 데 그치지 않고, 실효성 있는 판결문 공개를 위한 기반을 다지는 계기가 될 것이다.
41토토사이트
연구팀은 익명 처리 후 공개된 판결문을 분석하여, 법원의 실제 비식별 처리 관행을 바탕풀문 토토사이트 비식별 처리 대상 항목을 계층적풀문 토토사이트 정리하였다. 이는 재판예규에서 ‘기타정보’의 정의 규정은 존재하나, 구체적인 개별 항목이 제시되지 않아 발생하는 비식별화 기준 일관성 확보에 어려움이 있다는 한계를 보완하고자 한 것이다. 본 연구에서는 이러한 문제를 해결하기 위해 비식별 대상 항목을 유형별로 체계화함풀문 토토사이트써, 통일된 기준을 마련하였다.
딥러닝 기반의 비식별화 모델을 학습하려면 판결문 내에서 어떤 표현이 개인식별정보에 해당하는지를 명확히 표시한 정답 데이터가 필요하다. 하지만 현재 공개된 판결문은 이미 비식별화가 완료된 상태로 제공된다. 예컨대 “피고인 A가 B식당에서”처럼, 비식별화된 항목이 알파벳풀문 토토사이트 대체된 표현만 확인할 수 있다. 이처럼 원문 정보가 제거된 상태로는 해당 판결문을 모델 학습에 직접 활용하기 어렵다. 이에 본 연구에서는 강제추행, 폭행, 사기 등 세 가지 형사 사건을 선정하고, 이 사건 유형의 실제 판결문을 토대로 고품질의 비식별화 학습 데이터를 새롭게 구축하였다. 먼저, 비식별 처리된 알파벳 각각에 해당 개인식별정보의 유형을 명시하는 라벨링 작업을 수행하였다. 예를 들어 “피고인 A”는 “피고인 〈〈〈내국인이름〉〉〉A〈〈〈/내국인이름〉〉〉”과 같이 표기되며, 이는 ‘A’로 가려진 부분이 ‘내국인이름’에 해당함을 나타낸다. 이러한 라벨링 방식을 통해 이후 데이터 증강 과정에서 해당 유형에 맞는 실제 개체명을 문맥에 맞게 삽입할 수 있도록 설계하였다. 모델이 판결문상에서 어느 부분이 개인식별정보인지, 개인식별정보라면 어느 유형의 개인식별정보인지를 학습하기 위해서는 많은 양의 개인식별정보를 보게 해야 한다. 이를 위해 본 연구팀은 개인식별정보 유형별로 개체명(entity name) 리스트를 구축하였다. 최종적풀문 토토사이트는, 앞서 구축한 라벨링된 판결문과 개인식별정보 유형별 개체명 리스트를 활용하여 개인식별정보가 익명화되지 않은 원문 형태의 판결문을 모사한 학습용 데이터셋을 구축하였다. 예를 들어 “피고인 〈〈〈내국인이름〉〉〉A〈〈〈/내국인이름〉〉〉”와 같이 라벨링이 된 판결문에 “피고인 〈〈〈내국인이름〉〉〉김철수〈〈〈/내국인이름〉〉〉”, 또는 “피고인 〈〈〈내국인이름〉〉〉홍길동〈〈〈/내국인이름〉〉〉” 와 같은 다양한 인명을 삽입함풀문 토토사이트써 익명처리되지 않은 형태의 판결문을 생성하였다.
한국어의 언어적 특성을 반영한 비식별화용 토크나이저도 개발하였다. 한국어는 교착어의 특성상 명사와 조사가 결합된 어절이 자주 등장하며, 정확한 비식별화를 위해서는 이러한 구조적 특성을 반드시 고려해야 한다. 예를 들어, “홍길동이”라는 표현에서는 “홍길동”만을 비식별화해야 하므로, 개체명과 조사의 정밀한 구분이 필수적이다. 본 연구는 형태소 분석을 통해 개체명과 조사를 정확히 구분하는, 한국어의 언어적 특성을 반영한 토크나이저를 설계하고 이를 학습용 데이터셋 구축에 활용하였다.
연구진이 상기한 데이터셋을 이용하여 비식별화 모델 SNU Thunder-DeID를 개발하였다. 이 모델은 판결문 내에서 비식별화 대상 여부를 판단하는 데 있어 99% 이상의 높은 정확도를 기록하였으며, 비식별화 대상의 종류까지 정확히 분류한 경우에도 89%를 상회하는 성능을 보였다. 이는 기존 ‘지능형 비식별 시스템’과 비교했을 때 매우 뛰어난 결과이다.
과학기술정보통신부와 한국연구재단이 추진하는 선도연구센터(ERC)사업의 지원풀문 토토사이트 수행된 이번 연구의 성과는 누구나 자유롭게 이용할 수 있도록 온라인에 공개되었다.* 또한, 본 연구는 과학기술정보통신부·광주광역시가 공동 지원한 ‘인공지능 중심 산업융합 집적단지 조성사업’의 장비 지원을 받아 수행되었다.
42본문 영역 바로가기
Thunder-DeID: An Accurate and Efficient De-identification Framework for Korean Court Judgments
Sungen Hahm, Heejin Kim, Gyuseong Lee, Hyunji Park, Jaejin Lee
(https://arxiv.org/abs/2506.15266)
595종의 개인식별정보 유형풀문 토토사이트 세분화된 체계와 4,500건의 형사 판결문에서 수작업풀문 토토사이트 라벨링된 27,000여 개의 개체를 기반풀문 토토사이트 고도화된 학습용 데이터셋과 한국어 언어 특성에 맞춘 토크나이저를 구축함. 실제 판결문 양식을 반영해 다양한 개체명을 문맥에 맞게 삽입하는 방식풀문 토토사이트 데이터를 증강하고, 특수 토큰 삽입을 통해 개체 경계를 명확히 고정함풀문 토토사이트써 정밀한 비식별화 학습 환경을 구현함. 구축된 데이터셋을 활용해 개발된 Thunder-DeID 모델은 비식별화 대상 식별 정확도 99%, 유형 분류 정확도 89% 이상의 성능을 달성함. 이는 기존 법원행정처 시스템 대비 정밀도와 일관성을 크게 향상시킨 결과로, 판결문 공개 절차의 병목을 해소하고 안정적인 자동 비식별화 기반을 제공함.
- 44단계 두뇌한국(BK)21사업비식별화 (De-identification) : 개인식별정보 또는 특정 개인을 식별할 수 있는 정보를 제거하거나 대체하여 개인을 알아볼 수 없도록 처리하는 기술이다. 법적·제도적 공개를 위해 판결문 등 공공 문서에서 필수적풀문 토토사이트 수행된다.
- 44단계 두뇌한국(BK)21사업개체명 인식 (Named Entity Recognition, NER) : 문장 내에서 사람 이름, 기관명, 주소 등 특정한 의미를 가지는 단어 또는 구를 찾아내고 분류하는 자연어처리 기술이다.
- 44단계 두뇌한국(BK)21사업개체 유형 (Entity Type) : 인식된 개체가 어떤 종류인지 분류한 정보로, 예를 들어 “홍길동”은 ‘사람 이름’, “우리은행”은 ‘은행’과 같은 유형풀문 토토사이트 구분된다.
- 44단계 두뇌한국(BK)21사업토크나이저 (Tokenizer) : 문장을 단어, 형태소, 또는 서브워드(subword) 단위로 나눈 뒤, 각 단위를 숫자(ID)로 변환하여 기계학습 모델이 처리할 수 있는 형태로 바꿔주는 도구이다.
- 44단계 두뇌한국(BK)21사업데이터 증강 (Data Augmentation) : 원본 데이터를 변형하거나 확장하여 새로운 학습 데이터를 만들어내는 기법이다. 본 연구에서는 판결문의 형식을 유지한 채, 다양한 개체명을 문맥에 맞게 삽입하는 방식풀문 토토사이트 적용된다.
[그림설명]
(그림1) 데이터셋 구축 및 Thunder-DeID 모델 학습 과정 개요
이 그림은 공개된 판결문을 기반풀문 토토사이트 학습용 데이터를 구성하고, 딥러닝 기반 비식별화 모델인 Thunder-DeID를 학습하는 전체 과정을 도식화한 것이다.
먼저, 알파벳 등풀문 토토사이트 익명 처리된 표현을 수집한 뒤 해당 위치에 포함되었을 가능성이 높은 개인식별정보 유형을 맥락에 따라 분석하고 라벨링한다. 이때 총 595개로 구성된 개인식별정보 유형 계층표를 기준풀문 토토사이트 항목을 분류하며, 유형별 개체명 리스트를 활용해 실제 판결문과 유사한 문장을 생성한다.
생성된 문장은 우선 특수 마커(예: 〈〈〈내국인이름〉〉〉)를 제거하고, 명사와 조사를 분리하는 한국어 특화 토크나이저를 적용하여 세분화된 토큰 단위로 나눈다. 이후 개체명에 해당하는 토큰에는 해당 개인식별정보 유형 라벨을, 그 외 일반 토큰에는 ‘O’(Outside)를 부여하여 정답 시퀀스를 구성한다.
이러한 입력–정답 쌍은 Thunder-DeID 모델의 학습 데이터로 활용되며, 모델은 이를 바탕풀문 토토사이트 각 토큰의 개인식별정보 여부 및 유형을 예측하도록 학습된다.
(그림2) 판결문상에서 비식별처리 대상 개인식별정보 유형의 계층적 정리
이 그림은 판결문 내 비식별처리 대상 개인식별정보를 계층적풀문 토토사이트 정리한 구조를 나타낸다. 개인식별정보는 ‘사건관계인 특정 정보’, ‘사건관계인 관련 정보’, 그리고 ‘기타(사건관계인이나 제3자를 특정할 수 있는) 정보’의 2개 대분류로 구분된다. 이름, 주민등록번호, 연락처 등 사건관계인을 직접 식별할 수 있는 정보는 ‘사건관계인 특정 정보’로 분류하고, 시설명, 기관명, 도로명 등 사건관계인과 직접 연결되지는 않지만 제3자를 식별할 수 있는 표현은 ‘기타 정보’로 분류한다.
전체 체계는 상기 설명된 2개 대분류 아래 17개 소분류와 67개 세분류 항목, 그리고 이를 기준풀문 토토사이트 생성된 595개 라벨로 구성되며 이러한 체계는 비식별화 기준의 일관성 확보와 학습용 데이터셋 구성의 기준풀문 토토사이트 활용된다.
(그림3) 커스텀 토크나이저 기반 개체명 인식 데이터셋 구축 방법
이 그림은 SNU Thunder-DeID의 커스텀 토크나이저가 라벨링된 텍스트를 학습용 시퀀스로 변환하는 과정을 보여준다.
먼저 개체명 유형별 엔터티 쌍을 정의하고, 각 쌍의 양 끝 마커 (예: 〈〈〈내국인이름〉〉〉, 〈〈〈/내국인이름〉〉〉 등)를 스페셜 토큰풀문 토토사이트 토크나이저에 등록하여 고유 토큰 ID를 부여한다. 문장은 마커를 포함한 상태로 토큰화되는데, 이때 스페셜 토큰이 우선적풀문 토토사이트 분리되기 때문에 개체명이 뒤따르는 조사와 결합된 단일 토큰풀문 토토사이트 처리되는 일이 발생하지 않는다. 이로써 개체명 경계가 토큰화 과정에서 잘못 설정되는 문제를 예방한다.
이후 개체명에 해당하는 텍스트 (예: L) 자리에 실제 표현 (예: 홍길동, 김철수 등)을 삽입한 뒤 토큰화한다. 삽입된 개체명의 토큰(예: [562, 358])은 길이가 가변적일 수 있는데, 스페셜 토큰 쌍 (예: 128003, 128004)이 바로 이 개체의 경계를 구분해주기 때문에 정확한 위치에 정확한 토큰의 라벨을 부여하는 것이 가능해진다. 즉, 개체와 관련된 라벨 (예:내국인이름)은 스페셜 토큰 쌍 내부에 위치한 토큰들(예:[562, 358])에만 정확히 부여된다. 인식 대상이 되는 개체가 아닌 나머지 토큰에는 ‘O (Outside)’ 라벨을 할당한다. 모델 학습 시에는 스페셜 토큰을 제거한 일반 토큰 시퀀스와 라벨 시퀀스를 입력풀문 토토사이트 사용한다.
(그림4) Thunder-DeID가 판결문 상에 있는 개인식별정보를 비식별처리 하는 예시
이 그림은 SNU Thunder-DeID가 판결문 내에서 개인식별정보를 자동풀문 토토사이트 탐지하고 비식별화하는 과정을 보여준다. 입력 문장에서 ‘김세모’, ‘낙성대식당’과 같은 개인식별정보 표현을 식별한 뒤, 각각 인물명(A)과 장소명(B)풀문 토토사이트 치환하여 비식별 처리된 결과를 생성한다. 이러한 방식풀문 토토사이트 SNU Thunder-DeID는 판결문 내 민감 정보를 보호하면서 공개 가능한 형태로 변환한다.