NGS FASTQC

생물정보학/NGS 데이터분석 기초

NGS FASTQC

ppsy 2024. 8. 15. 16:05

이 포스팅은 INCOEDU | KOBIC 교육센터의 온라인 강의 내용을 듣고 복습한 내용을 바탕으로 만들어졌습니다.

저작권 보호 등의 문제 발생 시 삭제 하겠습니다.

https://edu.insilicogen.com/kobic/course/167

차세대 생명정보 온라인 교육 | KOBIC 교육센터

KOBIC 차세대 생명정보 교육은 바이오 데이터 분석 및 활용을 위한 IT 기술(프로그래밍 언어, 리눅스)과 바이오 데이터 분석 전문기술을 제공합니다.

edu.insilicogen.com

NGS FASTQC 설치

Babraham 웹사이트에서 FASTQC를 다운로드합니다.

JAVA의 다운로드와 환경변수 설정이 선행되어야 합니다.

다운로드 받은 경로에 가서 chmod +x fastqc 를 입력합니다.
그리고 ls -l을 입력하면 아래와 같이 fastqc가 실행 가능한 상태로 바뀝니다.

FASTQC 프로그램을 열기 위해서 ./fastqc 를 입력합니다.

file > Open > fastqc 선택을 하면 1분 정도 뒤에 결과를 내줍니다.
이 결과에 대해선 fastqc documentation page에서 어떻게 보는 지 알 수 있습니다.
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/

FASTQC 읽는 법

1. Base Statistics

Basic Statistics는 읽은 파일의 요약한 내용을 나타냅니다.

Sequence length, %GC내용을 보고 올바른 데이터인지 확인할 수 있습니다.

2. per base sequence quality

per base sequence quality는 각 reads들의 quality score (QS)를 나타냅니다.

read의 먼 쪽으로 갈 수록 QS 분포가 넓어지고 정확도가 떨어집니다.

박스플롯에서 노란색 박스는 각각 QS 분포의 25 ~ 75% 속하는 구간을 나타냅니다.
T자 선은 10%~ 90%에 속하는 구간을 나타냅니다.
붉은색 표시는 median을 나타내며, 푸른색 곡선은 mean을 나타냅니다.

박스플롯의 해석은 노란색 박스의 아래 부분(하위 25% 부분)이 20 미만일 경우에 trimming해야 한다는 것입니다.

3. per tile sequence quality

illumina 시퀀싱의 96개 타일에서 타일 별 퀄리티를 나타낸 것입니다.

위 그림에서 42번 타일에 퀄리티의 문제가 있는 것을 찾을 수 있습니다.

4. per sequence quality scores

전체 seq들의 QS 분포를 나타냅니다.
x축이 QS를 나타내고 y축이 seq의 숫자를 나타냅니다.
Average Quality per read는 seq QS의 평균을 나타냅니다.

5. per base sequence scores

read의 자리에 따라 ATGC 분포가 어떻게 형성되어 있는 지에 대해 비율을 나타낸 것입니다.

6. per base GC content

모든 sequence의 GC content를 이론적인 GC contents 비율과 함께 나타낸 것입니다.

7. per base N content

read 상의 시퀀스가 정해지지 않은 비율을 bp에 따라 N content로 나타낸 것입니다.

8. Sequence Length Distribution

시퀀싱된 read들의 길이에 따른 비율을 나타낸 것입니다.
illumina 시퀀싱에선 대부분 같은 read길이이므로 큰 의미 없지만 trimming 후에 변화를 관찰할 수 있습니다.

9. Sequence Duplication Levels

PCR 시 똑같은 read가 만들어지는 것을 수준으로 나타낸 것의 분포를 나타낸 것입니다.

10. Overrepresented sequence

만약 어떤 sequence가 전체 seq 중 0.1% 이상 비율로 나타난다면 그 sequence를 detect한다.
너무 많은 sequence를 detect할 수는 없고 100,000 reads만 sample로 하여 detect한다.

본 예제 파일에서는 나타나지 않았다.

11. Adaptor content

Adaptor content의 빈도수를 측정하는 것입니다.

추가로 K - mer content는 1 bp 씩 움직이며 Kbp씩 뽑아 낸 것의 빈도수를 측정하는 것입니다.

'생물정보학 > NGS 데이터분석 기초' 카테고리의 다른 글

ngsShoRT Trimming (0)	2024.08.15
NGS 데이터 읽기 (0)	2024.08.14
NGS의 원리 (0)	2024.07.25
NGS의 활용 분야 (1)	2024.07.15

현재글NGS FASTQC

IT/생명과학 공부 블로그

ppsy 님의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

IT/생명과학 공부 블로그