우분투 터미널을 열고 sudo perl -MCPAN -e shell install String::Approx install PerlIO::gzip 을 차례로 입력해 모듈을 다운받습니다. 그리고 exit으로 cpan shell을 나갑니다.
install String::Approx 모듈 설치 시 경고 메시지가 발생할 수 있습니다. exit하여 터미널에서 sudo apt-get update sudo apt-get install build-essential 을 입력하여 설치하고나서 다시 시도해봅니다.
install PerlIO::gzip 모듈 설치 시 경고 메시지가 발생할 수 있습니다. exit하여 터미널에서 sudo apt-get install zlib1g-dev 을 입력하여 설치하고나서 다시 시도해봅니다.
모듈을 다 설치하고 나면 ngsShoRT 설치 경로로 돌아와 프로그램을 실행시킵니다.
ngsShoRT 실행
perl ngsShorRT.pl -pe1 <데이터1> -pe2 <데이터2> -o <저장경로> -methods <메서드> -t <코어 수> 를 입력하면 method에 따라 pe1, pe2를 trimming 해줍니다. trimming에는 오랜시간이 걸리는데 새 터미널을 열어 top을 입력하면 작업을 모니터링 할 수 있습니다.
-pe1: 첫 번째 페어엔드(PE, paired-end) 시퀀싱 데이터를 지정합니다.
-pe2: 두 번째 페어엔드 시퀀싱 데이터를 지정합니다.
-o: 결과 파일이 저장될 출력 디렉토리를 지정합니다.
-methods: 사용할 전처리 방법들을 지정합니다. ex) lqr_5adpt_tera lqr: 로컬 품질 재조정(Local Quality Recalibration)을 수행합니다. 5adpt: 어댑터 서열 제거(특히 5' 어댑터) 작업을 수행합니다. tera: 시퀀스 길이에 따른 트리밍을 수행합니다.
-t: 사용할 스레드의 수를 지정합니다. nano /proc/cpuinfo 로 cpu 코어 수 확인 가능
Trimming 완료 화면
결과 확인
trimming 전의 law data trimming 이후의 trimmed data
less 로 두 데이터를 열어본 결과 trimming 전에는 모든 read에 염기가 100bp 씩 있었지만, trimming 이후에는 read에 염기 개수가 다릅니다. 즉 #과 같은 low QS (Q=2)의 데이터는 삭제되었습니다.
만들어진 final_PE_report.txt에는 trimming한 결과를 리포트해줍니다.
trimmed 된 파일은 두 가지이고 보관할 때는 각각 압축해서 보관합니다. gzip trimmed_SRR490124_*