본문 바로가기

파이썬3

vcf를 pandas dataframe으로 변경하는 코드

728x90
반응형
import pandas as pd
def vcf2df(path):
    '''
    이 명령어는 vcf파일을 pd.DataFrame으로 변환하기 위한 스크립트임.
    path : 파일 경로
    '''
    with open(path,'r') as f:
        lines = f.readlines()
        chrom_index = [i for i, line in enumerate(lines) if line.strip().startswith("#CHROM")]
        data = lines[chrom_index[0]:]  
        header = data[0].strip().replace('#','').split("\t")
        informations = [d.strip().split("\t") for d in data[1:]]
    vcf = pd.DataFrame(informations, columns=header)
    return vcf
728x90
반응형