유전체 분석을 통해 내 안의 지도를 그리다

0
1387

최근 질병이 다양해지고 기대수명이 늘면서 개인 맞춤 의료의 수요가 증가하고 있다. 유전체 분석은 개인 맞춤 의료 수단 중 하나로, 암과 같이 유전자에 이상이 생겨 발생하는 질병을 치료하는 데 도움이 될 수 있다. 본 기사는 유전체 분석의 개념, 연구 발전사와 현황을 다룬다.

유전체 분석 연구란?
글의 내용을 이해하기 위해 각각의 글자의 배열을 읽듯, 유전체를 분석하기 위해서는 염기서열을 읽어야 한다. 유전체(genome)는 유전자(gene)와 염색체(chromosome)의 합성어로, 유전 정보를 총체적으로 이르는 말이다. 유전체는 염색체의 집합이며, 염색체는 유전자의 집합이다. 유전자는 염기서열의 조합으로 나타난다.

DNA의 염기서열은 A(아데닌), G(구아닌), C(사이토신), T(티민) 4개 염기의 조합으로 이뤄진다. 염기 순서를 알아내는 것을 염기서열 분석이라고 한다. 알아낸 염기서열을 통해 세포의 전체 유전 정보를 알아내는 것이 유전체 분석 연구의 목표다.

염기서열 분석법 발전사
현재 전체 염기서열을 한 번에 읽어내는 기술은 존재하지 않는다. 따라서, 염기서열을 분석하기 위해서는 DNA 조각을 각각 읽고 이를 조합해야 한다. 초기에 사용되던 생어 염기서열 분석법1)과 같은 1세대 분석법은 한 번에 DNA 조각을 하나씩만 읽어 시간과 비용이 많이 든다는 단점이 있었다. 이후 차세대 염기서열 분석(NGS)으로 불리는 2세대 분석법이 등장했다. 병렬 처리방식으로 한 번에 대용량 시료를 처리할 수 있고 분석 과정의 일부를 자동화해 속도가 비약적으로 빨라지고 가격이 저렴해졌다. 이러한 염기서열 분석법의 발전으로 현재 통용되는 전장 유전체 분석(whole-genome sequencing)은 짧은 시간 안에 유전체 전체를 분석할 수 있다.

유전체 분석과 계산생물학
과학자들은 여러 사람의 유전체 분석 결과를 조합해 인간 참조 유전체 지도(human reference genome)를 만들었다. 인간의 염기서열은 99.9%가 서로 같아 인간 참조 유전체 지도는 개인 유전체를 분석할 때 표준으로 활용되며 형질을 발현시키는 염기서열 조각의 정보를 제공한다. 이때 짧게 나눈 조각을 이어붙인 염기서열 중 의미 있는 부분을 찾아내기 위해서 컴퓨터의 도움이 필요하다. 적절한 알고리즘을 구현해야 하며, 이를 다루는 건 계산생물학의 영역이다.

1990년 시작돼 2003년 마무리된 인간 유전체 프로젝트(Human Genome Project)는 인간 유전체의 30억 염기쌍을 최초로 알아낸 혁신적인 성과였다. 1세대 분석법인 생어 염기서열 분석법을 이용해 13년의 긴 세월 동안 3조 원이 넘는 큰돈이 들었다. 이후 더 나은 인간 참조 유전체 지도를 만들려는 노력이 이어져 현재 2013년 완성된 GRCh38과 같은 유전체 지도가 표준으로 쓰인다. 이처럼 염기서열의 분석이 빨라지고 인간 참조 유전체 지도의 정확성도 높아지면서 유전체 검사에 소모되는 비용이 100만원 아래까지 떨어졌다. 검사 시간도 짧아져 이틀 안에 결과를 받아볼 수 있다.

유전체 염기서열 분석과 암 치료
암 치료는 유전체학의 주요 목표이자 동력이다. 암은 체세포의 염색체 변이로 발생하는 질병이기 때문이다. 염색체 변이에는 염색체 구조 변이(structure variation)와 복제수 변이(copy number aberration)가 있다. 체세포 변이는 모든 세포가 아닌 일부 세포에서만 나타나며 주로 후천적으로 발생한다.

유전체 염기서열 정보는 암 환자의 개인 맞춤 의료에 필수 요소다. 유전체 분석을 통해 암을 예방한 대표적인 사례가 배우 안젤리나 졸리다. 그는 검사를 통해 암 억제 유전자의 일종인 BRCA1 유전자에 변이가 생겼다는 것을 알게 되었고, 암 발병을 방지하기 위해 유방절제술을 받았다.

GIST 연구 성과
GIST 이현주 교수 연구팀은 새로운 알고리즘을 개발해 구조 변이 검출의 정확도와 정밀도를 개선했다. 또한, 세계 최초로 변이가 일어난 암세포의 유전체 배열 형태를 하나의 염기 단위 수준으로 분석했다.

현재 주로 사용되는 2세대 염기서열 분석법은 DNA 조각을 이용하며 그 대표적인 예시가 바로 세계 최대 유전체 분석장비 기업 일루미나가 개발한 만타(Manta) 알고리즘이다. 이러한 2세대 알고리즘은 유전체의 국소적인 변이나 간단한 구조 변이만 검출할 수 있다는 한계가 있다.

GIST 이현주 교수 연구팀이 개발한 알고리즘 인포지노머(InfoGenomeR)는 중단점 그래프(breakpoint graph)2) 기반의 전산학적 기법을 이용한다. 인포지노머 알고리즘은 먼저 만타 알고리즘과 같은 기존 알고리즘을 통해 파악한 초기 구조 변이 데이터를 그래프로 변환한다. 이 초기 구조 변이 데이터는 오류를 가지고 있기 때문에, 선형계획법3) 알고리즘을 이용해 구조 변이와 복제수 변이가 서로 일관성 있는 값을 가지도록 그래프를 재구성한다. 예를 들어, 특정 DNA 영역의 복제수는 2인데, 3개의 구조 변이가 연결되어 있다면, 오류가 있기 때문이므로 이를 수정해야 한다. 이후 은닉 마르코프 모형4), 오일러 경로5) 문제 등 전산학적 방법을 이용해 최종적으로 암세포의 염기서열을 분석한다.
인포지노머는 유전체의 복잡한 변이를 판정할 수 있어 유전 변이 검출 오차가 기존에 비해 크게 줄었다. 만타(Manta) 알고리즘은 94.2%의 구조 변이 검출 정밀도, 90.4%의 F-measure6)를 지녔으나, 인포지노머는 98.1%의 구조 변이 검출 정밀도와 94.9%의 F-measure를 달성했다.

이현주 교수 인터뷰,
유전체 알고리즘 연구를 묻다

연구 배경을 설명한다면?
우리 연구실의 주요 연구 주제 중 하나가 유전체 변이다. 그동안 복제수 변이 발굴 알고리즘을 계속 개발했고, 이번 논문에서 구조 변이 발굴 및 유전체 구조 복원에 집중했다.

연구 수행 중 어려웠던 점은?
암세포의 유전체 배열 형태를 단일염기서열 수준으로 복원하는 기존 연구가 없었다. 따라서 인포지노머의 정확성 및 유용성을 검증하는 방법도 직접 개발해야 했다. 예를 들어 인포지노머의 정확성 검증을 위해 시뮬레이션 데이터를 만들고, 다양한 측면에서 이를 분석했다. 또한 유용성을 검증을 위해 암 환자의 전장 유전체 데이터에 인포지노머를 적용했다.

앞으로 연구 계획이 궁금하다.
현재는 원인 불명인 암 환자의 개인 맞춤 치료를 위해 분자유전학적 인공지능 시스템을 개발하고 있다. 이 시스템은 암 환자의 전장 유전체 데이터에서 변이를 발굴하고, 변이를 가지는 유전자 중 암의 진행에서 주요 역할을 하는 유전자를 지목한다. 해당 유전자를 표적으로 하는 약물 추천 시스템 개발을 목표로 한다. 이를 위해 알고리즘과 머신러닝, 딥러닝 방법론을 개발 중이다.

계산생물학에 관심 있는 학생들에게
계산생물학은 분자생물학에 관심이 많은 학생이 즐겁게 연구할 수 있는 분야다. 또한 알고리즘과 머신러닝 방법론을 잘 이해하고, 이를 대용량 데이터에 적용하는 프로그래밍 능력이 있어야 한다. 컴퓨터공학과 생명과학을 복수 전공이나 부전공으로 하면 처음에 연구 주제를 이해하기 쉽지만, 필수는 아니다.

이현주 교수는 “이 알고리즘으로 나온 암세포 유전체를 활용해 암 유전자 발현 조건을 규명하고, 개인 맞춤 의료에 기여할 것을 기대한다”고 전했다.

용어 설명
1)생어 염기서열 분석법:
DNA를 서로 다른 길이로 복제한 뒤, 이를 길이순으로 배열해 끝부분의 염기를 읽어내는 분석법
2)Breakpoint graph: 유전체 구조를 표현하기 위해 이용하는, 점과 선으로 이뤄진 그래프
3)선형 계획법: 한정된 자원을 효율적으로 할당해 목적 함수를 최적화하는 법
4)은닉 마르코프 모형: 시스템이 ‘은닉된 상태’와 ‘관찰 가능한 결과’의 두 가지 요소로 이루어졌다고 보는 통계 모형
5)오일러 경로: 그래프에 존재하는 모든 변을 한 번씩만 지나는 경로
6)F-measure: 정확도와 재현율의 조화평균