Meta-SAIGE: Scalable and Accurate Meta-Analysis for Rare Variants
[연구필요성]
희귀 유전변이(Rare Variant)는 유전체 내에서 매우 낮은 빈도로 존재하는 변이로, 질병의 유전적 요인 규명, 신약 타깃 발굴, 질병 위험 예측 등에 핵심적인 역할을 한다. 최근 전 세계적으로 전장엑솜(Whole Exome Sequencing, WES) 및 전장유전체(Whole Genome Sequencing, WGS) 데이터가 대규모로 구축되면서 희귀 유전변이에 대한 연구가 본격적으로 가능해지고 있다.
희귀 변이는 개별 코호트 내 발생 빈도가 낮아 질병과의 연관성을 검정하기에는 통계적 검정력이 낮다는 한계가 있다. 이를 보완하기 위해 여러 코호트의 요약 통계량을 통합하는 메타분석이 활용되고 있으나, 기존 방법은 유병률이 낮은 형질에서 제1종 오류(Type I error)를 적절히 통제하지 못하거나, 다수의 표현형을 동시에 분석할 때 계산 비용이 급격히 증가하는 문제가 있다. 따라서 다양한 코호트와 형질을 효율적으로 통합할 수 있는 새로운 통계적 분석 방법의 개발이 요구된다.
[연구성과/기대효과]
본 연구에서는 대규모 바이오뱅크 데이터를 대상으로 한 새로운 희귀 변이 메타분석 방법인 Meta-SAIGE를 제안하였다. Meta-SAIGE는 검정 통계량의 분포를 정밀하게 추정하여 제1종 오류(Type I error)를 효과적으로 통제하며, 연관불균형(Linkage Disequilibrium, LD) 행렬을 재사용할 수 있도록 설계되어 대규모 표현형 분석의 계산 효율성을 획기적으로 향상시켰다. 해외 대규모 바이오뱅크인 UK Biobank와 미국 All of Us 코호트를 통합한 83개 형질의 메타분석을 통해, 기존에 보고되지 않은 80개의 새로운 연관성을 포함한 총 237개의 유의한 유전자–형질 연관성을 확인하였다.
본 연구는 세계적으로 구축되고 있는 바이오뱅크의 전장엑솜(Whole Exome) 및 전장유전체(Whole Genome) 데이터를 통합적으로 분석할 수 있는 기반을 제시함으로써, 질병의 원인 규명, 질병 위험 예측, 및 신약 타깃 발굴에 기여할 것으로 기대된다.화 등 생산 효율과 품질 향상에 기여하는 산업적 효과가 기대된다.
41배너닫기
희귀 유전변이(Rare Variant)는 유전체 내에서 매우 낮은 빈도로 존재하는 변이로, 질병의 유전적 요인 규명, 신약 타깃 발굴, 질병 위험 예측 등에 핵심적인 역할을 한다. 예를 들어, 유방암의 주요 위험요인인 BRCA 유전자 변이, 심근병증의 주요 위험요인인 TTN 유전자 변이는 대표적인 희귀 유전변이에 해당한다.
세계적으로 주요 바이오뱅크에서 전장엑솜(Whole Exome Sequencing, WES)과 전장유전체(Whole Genome Sequencing, WGS) 데이터가 대규모로 구축되고, 이를 통합적으로 분석하기 위한 국제 컨소시엄이 등장하면서, 대규모 인구집단을 대상으로 한 희귀유전변이-질병 연관성 분석이 가능해졌다. 개인정보를 공유하지 않고 이러한 데이터를 통합적으로 분석하기 위해서는 여러 코호트의 요약통계를 결합하는 메타분석(meta-analysis) 방법을 활용해야 한다. 현존하는 희귀 유전변이 메타분석 방법은 백혈병이나 심근병증과 같이 유병률이 낮은 질병의 경우 제1종 오류를 적절히 통제하지 못하고, 계산 비용과 시간이 많이 소요되어 다수의 표현형을 동시에 분석하는 데 한계가 존재한다.
본 연구에서는 이러한 문제를 해결하기 위해 Meta-SAIGE라는 새로운 희귀 변이 메타분석 방법을 제안하였다. Meta-SAIGE는 기존의 본 그룹이 제안한 희귀유전변이 분석 방법인 SAIGE-GENE+를 메타분석으로 확장한 것으로, 분석과정은 크게 세 단계로 구성된다.
1. 각 코호트 별로 변이 단위 요약통계량과 희소 LD행렬 생성.
2. 여러 연구의 요약통계량을 하나의 통합 세트로 병합하고, SPA및 GC 기반 보정을 적용하여 case-control 불균형을 보정한 점수 통계량 추정.
3. 병합된 데이터에 대해 유전자 단위 희귀 변이 검정 수행.
Meta-SAIGE의 유효성을 확인하기 위해 160,000명의 영국 바이오뱅크(UKB) 전장 엑솜 데이터를 활용하여 분석을 진행한 결과, Meta-SAIGE(요약통계 기반)와 SAIGE-GENE+(개인 수준 데이터 기반)을 비교한 결과, 연속형, 이진형 형질 모두에서 두 방법의 일치성이 매우 높았고 (P-value R2>0.95), 유병률 1% 및 5% 조건에서 제1종 오류를 안정적으로 통제하는 것을 확인하였다. 또한, UK Biobank(약 45,9만명) 및 AllofUS(11.6만명) 코호트의 통합 분석을 통해 83개 표현형에 대한 대규모 실증 분석을 진행한 결과, 237개의 유전자-형질 연관성이 확인되었으며, 이중 80개는 개별 데이터셋에서 유의하지 않았던 새로운 연관성으로, 대규모 코호트의 메타분석이 효율적으로 이루어질 수 있음을 보여주었다.
Meta-SAIGE는 또한 현존하는 다른 방법 대비 계산 속도 및 메모리 사용량에서 높은 효율성을 보여주었으며, 향후 다양한 바이오뱅크에서 생산되는 대규모 시퀀싱 데이터를 활용할 때, 희귀 질환 연관 유전자의 발견과 복잡 형질의 유전 구조 규명에 핵심적인 도구로 기여할 것으로 기대된다.
본 연구는 남기성 박사 및 정석호 박사과정생 주도로 연구재단 해외우수과학자유치사업 (Brainpool+) 지원을 받아 수행되었으며, 유전체학 최상위 저널인 Nature Genetics (IF=29.0) 에 2025년 11월에 게재(예정)되었다. 본 연구는 이승근 교수 연구실에서 석사학위를 받은 미국 UCSD 소속 박은재 박사과정생과도 공동으로 수행되었다.
42본문 영역 바로가기
Meta-SAIGE: Scalable and Accurate Meta-Analysis for Rare Variants
Eunjae Park, Kisung Nam, Seokho Jeong, Karl Keat, Dokyoon Kim, Vikas Bansal, Wei Zhou*, Seunggeun Lee*
(Nature Genetics, https://www.nature.com/articles/s41588-025-02403-y)
- 4국가지원연구센터전장 유전체 연관성 분석 (Genome-wide association study, GWAS): 분석하고자 하는 형질 (표현형)과 연관성이 있는 유전자의 위치를 유전체 전반에 걸쳐 확인하고 탐지하는 분석 방법
- 4국가지원연구센터유전자/영역 단위 희귀 변이 검정 (Gene/region based rare variant test): 하나의 유전자 또는 염색체 영역 내 변이들을 통합하여 집단적으로 질병 연관성을 검정하는 통계적 방법
- 4국가지원연구센터안장점 근사 (Saddlepoint Approximation, SPA): 확률분포의 꼬리 영역에서 정확한 p값을 근사적으로 계산하기 위해, 누적생성함수(cumulant generating function)를 이용해 분포를 정밀하게 근사하는 통계적 방법이다.
4한국학 통일학지원

그림: Meta-SAIGE 개요: 변이 단위 요약통계량(점수 통계 및 그 분산) 및 희소 연관불균형 행렬을 활용한 메타 분석 과정. 유전자 카운트 (GC) 기반 SPA로 추정된 분산 및 이로 인해 보정된 점수통계를 활용한 유전자 단위 검정을 수행함. 추가적으로 Meta-SAIGE는 기능적 주석(functional annotation) 및 희귀 대립유전자 빈도를 고려한 방법임. 통합된 희소 연관불균형 행렬을 활용해 대규모 형질 통합 분석에서 새로운 유전적 연관성을 찾도록 최적화 됨.

