ppsy 2024. 7. 15. 16:45

이 포스팅은 INCOEDU | KOBIC 교육센터의 온라인 강의 내용을 듣고 복습한 내용을 바탕으로 만들어졌습니다.

저작권 보호 등의 문제 발생 시 삭제 하겠습니다.

https://edu.insilicogen.com/kobic/course/167

 

차세대 생명정보 온라인 교육 | KOBIC 교육센터

KOBIC 차세대 생명정보 교육은 바이오 데이터 분석 및 활용을 위한 IT 기술(프로그래밍 언어, 리눅스)과 바이오 데이터 분석 전문기술을 제공합니다.

edu.insilicogen.com

 

DNA 시퀀싱

 

NGS는 기존 Sanger 시퀀싱보다 비용적, 시간적으로 효율적이어서 기존 연구의 한계들을 극복할 수 있다.

1. 신규 게놈의 해독

게놈 해독 및 조립의 기술, 시간, 비용적 문제로 작은 게놈들이 먼저 해독되었다.
예를 들어 바이러스, 박테리아, 효모, 곤충, 파충류 등이 여기에 포함된다.
게놈 조립을 방해하는 반복서열 문제는 생명정보학 기술의 발전으로 해결되었다.
이러한 문제들이 어느정도 해결된 뒤에야 인간질병모델 및 가축등의 게놈 해독이 시도되었다.

진화관련 연구주제는 나중에 진행되었다.
2000년대 초반 영장류의 고해상도 시퀀싱은 비용이 많이 들어 여러 종의 저해상도 시퀀싱을 하였다.
영장류 저해상도 게놈을 인간의 고해상도 게놈과 비교하여 인간 고유 유전자 차이를 발견하였다.
영장류 저해상도 게놈으로는 인간에게만 고유한 유전자를 찾기는 어렵다.
그러나 인간에게 없고 영장류에만 존재하는 유전자를 찾는것은 비교적 신뢰성이 있다. 
그래서 인간 게놈의 gain of function보다는 loss of function에 대한 연구들이 많았다.

NGS의 등장으로 인해 낮아진 시퀀스 비용은 영장류의 고해상도 시퀀싱을 가능하게 해주었다.
따라서 인간의 gain of function에 대한 연구가 가능하게 되었다.

 

2. 유전자 변이 분석

생물 종 간의 차이 연구를 진화학이라고 한다면 같은 종 개체 간의 연구를 유전자 변이 연구라고 한다.
특정 유전자의 mutation으로 개체를 변화시킨다. 그 변화를 바탕으로 유전자의 기능을 밝혀낸다.
Reverse genetics는 특정 유전자의 인위적 변이로 형질 변화를 밝히는 것이다.
Forward genetics는 형질이 다른 두 개체 간의 유전자 차이를 찾는 방법이다.

mutation 중에는 silent mutation 또는 예상치도 못한 다른 형질을 변화시키는 mutation이 있다.
따라서 집단별로 가능한 한 많은 개체의 게놈을 해독하여 통계적으로 유의한 차이를 찾아야한다.

개체의 mutation을 찾는 고전적인 방법 방법은 한 생물 종 내 발생 가능한 mutation을 카탈로깅 하는 것이다.
그리고 개체별로 mutation의 존재 여부를 타입핑 하는 것이다.
이러한 접근법의 예시는 mutation PCR, SNP microarray chip이 있다.
"mutation PCR"은 mutation에 특이적으로 annealing하는 primer를 사용하여 PCR을 하는 방법이다.
"SNP microarray chip"은 한번에 많은 mutation을 타입핑하는 방법이다.
target gene을 mutation 특이적인 chip planted gene에  hybridization 시켜 SNP mutation을 찾는 것이다.

이 방법들의 단점은 카탈로깅 되지 않은 mutation은 타입핑이 불가능 하다는 것이다.
즉 연구가 많이 된 mutation과 달리 최근 발견된 mutation 또는 somatic mutation의 경우 한계가 있다.

Resequencing을 사용하면 이러한 mutation을 찾는데 유용하다.
NGS 시퀀싱 데이터를 이용하여 표준게놈과 비교하면 mutation을 알아낼 수 있다.
그러나 많은 유전자가 관여된 복잡 질환의 경우에는 SNP chip에 의존적이다.

표준게놈서열이 완성되지 않은 생물의 mutation의 경우 RFLP로 mutation을 알아낼 수 있다. 

 

3. 미생물 메타 게놈 분석

우리 몸 또는 생태계에는 많은 수의 미생물이 microbiome을 이루고 있다.
그리고 이 미생물들은 배양이 되지 않는 경우가 많다.
메타 게놈 분석을 이용하여 microbiome에서 DNA 추출 및 시퀀싱 하여 생물정보학적 분석이 가능하다.

예를 들어 종 간의 차이가 적은 16s rRNA을 인코딩하는 DNA  부위가 있다.
이 부위를 포함한 DNA 서열을 포함하는 DNA 조각을 시퀀싱하여 종을 판별할 수 있다.
 shotgun 메타게놈 시퀀싱을 사용하면 microbiome의 전체 게놈을 시퀀싱하여 콘티그를 종별로 조립할 수 있다.

 

 

RNA 시퀀싱

 

1. transcriptomics

DNA를 전사하여 얻어진 RNA의 총합을 연구하는 것을 transcriptomics라고 한다.
가장 먼저 연구된 분야는 게놈에서 단백질을 인코딩하는 유전자의 개수를 알아내는 연구다.
세포에서 전사된 mRNA를 선별하여 상보적인 cDNA를 만들고 고유 cDNA를 시퀀싱한다.

각 mRNA의 시퀀싱 빈도를 측정하면 발현량, EST(Expressed Sequence Tag)를 유추할 수 있다.
이 연구는 표준 게놈 서열이 확보되지 않아도 진행될 수 있었고 EST 프로젝트라는 이름으로 연구가 만연했다.

housekeeping gene이 아닌 tissue specific gene을 연구하기 위해 여러 종류의 세포의 게놈을 시퀀싱해야한다.
이 데이터들을 모아 생물종마다 얼마나 다양한 mRNA가 발견되는지 정리한 DB가 NCBI UniGene이다.

Sanger 시퀀싱을 사용하여 한 세포에서 여러 EST를 측정할 수 있다. 
이 방법을 사용한 결과 발현량이 높은 유전자가 대부분을 차지했고 낮은 유전자는 정확하게 산출하기 어려웠다.

Microarray chip을 사용하여 cDNA를 chip planted DNA에 hybridization 시킨다.
그 결과 발현량에 관계 없이 낮은 발현량의 mRNA의 발현량도 측정이 가능했다.

NGS 시퀀싱을 사용해서도 mRNA 발현량을 측정할 수 있다.
한번에 많은 양의 DNA 조각들을 시퀀싱하므로 발현량이 낮은 mRNA도 측정이 가능하다.
또한 표준 게놈 서열에 맵핑하여 게놈의 exon, intron 부위를 알아낼 수 있으며 alternative splicing을 알 수 있다.


 

2. 암 세포 유전자 분석


조직의 전사체 연구는 샘플이 다수의 세포로 이루어진다. 
즉 세포들의 평균적인 현상만을 알 수 있다.
암조직에서는 서로 다른 mutation을 가진 암세포들이 존재한다. 면역세포도 다양한 분화상태를 갖는다.

이들 세포를 구별하여 개별적으로 발현량을 측정하는 것을 single cell RNA 시퀀싱이라고 한다.
세포별로 특이적인 DNA 바코드를 삽입하여 RNA 시퀀싱 결과를 바코드에 따라 분리한다.
이러면 유전자 발현패턴이 다른 세포들의 개별적 발현량 측정이 가능해진다.

암을 일으키는 중요한 매커니즘 중 하나는 유전자 기능변화 돌연변이이다.
그것을 일으키는 염색체 치환, 증폭, 결실 등은 DNA 시퀀싱으로 분석해야한다.
translocation을 분석하기 위해서는 whole genome 시퀀싱으로 분석해야한다.
발암 유전자 중에서는 translocation에 의해 생성된 fusion gene에 해당되는 경우가 많다.
fusion gene은 두 유전자의 exon이 합쳐진 형태로 이는 RNA 시퀀싱으로 관찰할 수 있다.
한개의 cDNA fragment가 표준 게놈 서열 상의 두 곳에서 맵핑이 된다면 fusion gene product를 알아낼 수 있다. 

 

Chip 시퀀싱

 

1. Epigenomics

인간 게놈 프로젝트 이후 후속 연구에서 약 1% 에 해당하는 서열만이 단백질을 인코딩하는 것으로 밝혀짐.
전체 게놈의 절반은 STR, LINE, SINE 등의 반복서열이었다.
그 나머지 서열에 대해서는 변형된 반복서열, 발현 조절, 구조 안정화 등 여러 가설들이 나왔다.

생쥐 게놈과 인간 게놈 상동성 비교 결과 exon 부위에선 90%, 그 외 부위에선 50% 로 나타났다.
그런데 exon 주위 부위에서 75% 상동성을 갖는 부위가 여럿 발견되었다.
이는 프로모터에서 주로 발견되어 전사인자(TF) 결합 부위로 인식되었다.

이 서열들의 확인을 위해 고안된 실험기법은 microarray chip이다.
TF가 프로모터에 결합하고 있는 상태에서 formaldehyde를 처리하여 둘이 공유결합을 형성하게 했다.
그리고 TF에 대한 항체로 침강반응을 유도했다. 그 결과 DNA의 TF 결합 부위를 얻을 수 있게 됐다.

이 실험방법을 ChIP(Chromatin Immuno-Precipitation)이라고 한다.
ChIP으로 얻은 DNA fragment를  프로모터 서열 planted chip에 hybridization시킨다.
그 결과 TF와 프로모터 서열간의 특이적인 관계를 알 수 있다.   
이 연결된 두 실험방법을 Chip-chip이라고 한다. 
이 실험으로 인간과 생쥐사이의 promoter 서열의 보존성을 알게되었다.

ChIP 기술에  NGS를 접목한 ChIP-NGS는 프로모터가 아닌 다른 곳에서 전사에 관여하는 것을 조사가능하다.
TF가 접근하기 힘든 heterochromatin 지역의 histone들은 PTM을 받아 그 응축상태가 달라질 수 있다.
histone PTM region에 특이적인 Ab를 사용해 발현량을 변화시킨  ChIP-NGS를 한다.

서열상으로 멀리 떨어진 enhancer 등의 요소들이 3차원 공간상으로 가깝게 상호작용하여 발현량에 영향을 준다. 
enhancer에 관여하는 단백질에 대해서도 ChIP-NGS를 적용할 수 있다.