본문 바로가기

R관련

크롤링과 스크랩핑

728x90
반응형

한글 깨지지 않게 하는 방법

readLines('http://주소')


원하는 정보를 html에서 얻는 법

tmp1=getURL()

htmlParse(tmp1,encoding='UTF-8') #UTF-8은 깨짐을 최대한 막기위한 encoding

xpathSApply(tmp1,'//div[@class="par"]',xmlValue) #원하는 부분의 정보를 얻는 방법임 //div[@해당글자="~~"]로 하면 됨


728x90
반응형

'R관련' 카테고리의 다른 글

벤다이어 그램 그리기  (0) 2017.02.21
조선일보 크롤링 R코드 스케치  (0) 2017.01.18
특정 패키지 인스톨 여부 확인  (0) 2017.01.16
단백질(protein) sequence 얻는 법  (0) 2017.01.16
x축 없애고 plot하기  (0) 2017.01.16