ppsy 2024. 8. 15. 17:43
ngsShoRT 설치

 

ngsShoRT 프로그램을 웹에서 다운받습니다.

perl 모듈 2가지 설치가 선행되어야 합니다.

우분투 터미널을 열고
sudo perl -MCPAN -e shell
install String::Approx   
install PerlIO::gzip

을 차례로 입력해 모듈을 다운받습니다. 그리고 exit으로 cpan shell을 나갑니다.

install String::Approx   모듈 설치 시 경고 메시지가 발생할 수 있습니다.
exit하여 터미널에서
sudo apt-get update
sudo apt-get install build-essential
을 입력하여 설치하고나서 다시 시도해봅니다.


install PerlIO::gzip  모듈 설치 시 경고 메시지가 발생할 수 있습니다.
exit하여 터미널에서
sudo apt-get install zlib1g-dev
을 입력하여 설치하고나서 다시 시도해봅니다.

모듈을 다 설치하고 나면 ngsShoRT 설치 경로로 돌아와 프로그램을 실행시킵니다.

 

 

ngsShoRT 실행

 

perl ngsShorRT.pl -pe1 <데이터1> -pe2 <데이터2> -o <저장경로> -methods <메서드> -t <코어 수>
를 입력하면 method에 따라 pe1, pe2를 trimming 해줍니다.
trimming에는 오랜시간이 걸리는데 새 터미널을 열어 top을 입력하면 작업을 모니터링 할 수 있습니다.

 -pe1: 첫 번째 페어엔드(PE, paired-end) 시퀀싱 데이터를 지정합니다.

 -pe2: 두 번째 페어엔드 시퀀싱 데이터를 지정합니다.

 -o: 결과 파일이 저장될 출력 디렉토리를 지정합니다.
 
-methods: 사용할 전처리 방법들을 지정합니다. 
     ex) lqr_5adpt_tera
     lqr: 로컬 품질 재조정(Local Quality Recalibration)을 수행합니다.
     5adpt: 어댑터 서열 제거(특히 5' 어댑터) 작업을 수행합니다.
     tera: 시퀀스 길이에 따른 트리밍을 수행합니다.

 -t: 사용할 스레드의 수를 지정합니다.
     nano /proc/cpuinfo 로 cpu 코어 수 확인 가능

Trimming 완료 화면

 

결과 확인
trimming 전의 law data trimming 이후의 trimmed data

less 로 두 데이터를 열어본 결과
trimming 전에는 모든 read에 염기가 100bp 씩 있었지만, trimming 이후에는 read에 염기 개수가 다릅니다.
즉 #과 같은 low QS (Q=2)의 데이터는 삭제되었습니다.

만들어진 final_PE_report.txt에는 trimming한 결과를 리포트해줍니다.

trimmed 된 파일은 두 가지이고 보관할 때는 각각 압축해서 보관합니다.
gzip trimmed_SRR490124_*