# multiple mapping read에 대한 RNAseq count
최근 RSS 피드 구독으로 발견한 논문을 뜯어보다가 여기 계신 분들의 경험을 무료로 얻어갔으면 싶은 도둑놈 마음에 글을 올려봅니다. 얼마 전 BMC Bioinformatics에서 mmquant: how to count multi-mapping reads?(https://www.ncbi.nlm.nih.gov/pubmed/?term=28915787)라는 타이틀의 논문이 눈에 띄었습니다.
질문의 요지는 위의 제목처럼 RNA-seq 분석에서 나오는 multi-mapping reads를 어떻게 처리해야 하는지 입니다. Read alignment를 위해서 어떤 tool을 사용하시든지 간에 결국 존재하는 동일 서열 영역이든 multi-copy genes에 의해 read가 중복되어 mapping이 될 텐데요. 저는 분석을 하면서 read가 심각하게 중복 counting이 되지 않으면 그냥 사용하기도 했습니다. 만약 심각하면 해당 read를 counting에서 솎아내기도 하고, Rcount(https://www.ncbi.nlm.nih.gov/pubmed/25322836)같은 것을 사용하기도 했습니다. 다른 분들은 어떤 식으로 이걸 처리하시는지 의견을 부탁드릴게요.
추가로 질문을 하나 더 드린다면 read alignment를 하는 tool은 alignment된 영역에 대한 report 횟수와 같은 옵션(bowtie2나 BWA의 -a 옵션)을 가지고 있는데요. 이러한 옵션의 사용은 어떻게 하시나요? 저는 multi-mapping으로 결과가 나오려면 모든 곳에서 나와야 한다고 생각해서 항상 all report를 사용하는데요. 이게 때때로 alignment의 시간을 엄청나게 소비하거든요.
FULL complete method 는 Bayesian model을 통한 MCMC 방법을 씁니다. 시간 절약을 위해 EM을 쓰셔도 됩니다. 가장중요한 것은 transcript structure의 복잡성과 Data의 informativity 에 따르 balancing 같습니다.
그리고 repeat element처럼 어디에나 존재하는 -a 를 쓰면 데이타가 폭발하는 경우에는 library를 만들어 쓰셔야 합니다.
'Bioinformatics(생정보학)' 카테고리의 다른 글
RSEM tools (0) | 2017.11.28 |
---|---|
유용한 bioinformatics tool들 (0) | 2017.11.16 |
VEP, variant effect predictor cache download (0) | 2017.09.27 |
vep 특정 genome 및 gtf파일 사용하기 (0) | 2017.09.27 |
ensembl archive (0) | 2017.06.20 |