전체 글
R 네이버 영화 웹 크롤링하기 #2 - 영화 리뷰 키워드 수집
R 네이버 영화 웹 크롤링하기 #2 - 영화 리뷰 키워드 수집
2017.10.07전편 [R 네이버 영화 웹 크롤링하기 #1] 에 이어서 내용 계속하도록 하겠습니다. 너무 오랜만에 코드를 보니까 남이 짠 것 코드를 보는 것 마냥 새롭네요..ㅎ 전 내용에서는 '네이버 영화 랭킹 페이지'에서 1위부터 100위까지의 영화 목록을 수집했었습니다. 혹시 가공하지 않은 영화 리뷰에 대한 데이터가 필요하시다면 아래 게시글로 들어가주세요. [R 네이버 영화 웹 크롤링하기 #3 - [번외] 영화 리뷰 수집] 이번 게시글에서는 리뷰를 수집하여 가공하는 작업이 있습니다! 리뷰만 수집하시려는 분들에게는 불필요한 내용이 있어요! 이번 내용에서는 수집한 2000개의 영화에 등록된 리뷰과 평점, 특정 키워드 건수을 읽어들이겠습니다. 페이지 별로 URL의 형식이나, HTML이 구성되는 방식이 다르니까 변수 선언부..
R 네이버 영화 웹 크롤링하기 #1 - 영화 목록
R 네이버 영화 웹 크롤링하기 #1 - 영화 목록
2017.06.24R로 웹 크롤링을 할 수 있게 함수를 제공해주는 라이브러리를 이용하여 네이버를 웹 크롤링하겠습니다. 저는 네이버 영화 랭킹에 있는 영화를 대상으로 리뷰를 모두 긁어와 데이터 분석에 활용할 생각입니다. 그러기 위해서는 영화 목록을 먼저 가져와야겠죠! 이번 화에서는 네이버 영화 랭킹 페이지에 있는 영화의 목록 2000개를 가져오겠습니다. 다음 화는 [R 네이버 영화 웹 크롤링하기 #2 - 영화 리뷰 키워드 수집] 입니다^^ 가공되지 않은 영화에 대한 리뷰 정보만 필요하신 분들은 아래로 바로 넘어가주세요~ [R 네이버 영화 웹 크롤링하기 #3 - [번외] 영화 리뷰 수집] 대상이 되는 웹사이트(네이버 영화)를 선택한 후, 크롬-개발자도구를 이용하여 소스를 봅시다. http://movie.naver.com/mo..
Mac에서 R 그래프 한글 인코딩 깨짐 현상(+해결) in R
Mac에서 R 그래프 한글 인코딩 깨짐 현상(+해결) in R
2017.06.03Windows에서는 한글 깨짐 현상이 덜 하다던데 Mac에서는 한글 깨짐현상에 대한 글이 자주 보인다.Mac에서 발견된 한글 인코딩 문제로는 크게 세가지가 있다. 1. R edit 내 한글 인코딩==> Mac 터미널 기본 어플에서 아래와 같은 명령어를 수행하면 한글 인코딩 설정이 되어 한글이 깨지지 않는다.defaults write org.R-project.R force.LANG ko_KR.UTF-8 2. R에서 사용하는 그래프 라이브러리 사용 시 한글 깨짐R 인코딩도 utf-8로 맞추어놨는데 뭐가 문제인지 아래와 같이 Quartz의 한글이 'ㅁ'로 깨져서 보이는 현상이 있다. ## 1. 터미널에 접속해서 .Rprofile 파일을 찾는다.12$touch ~/.Rprofile$ open ~/.Rprofil..
[스크랩] KoNLP 만든 이의 R 시각화 논문
[스크랩] KoNLP 만든 이의 R 시각화 논문
2017.06.03R 기반의 데이터 시각화 전희원 http://freesearch.pe.kr
R에서 한글 형태소 분석을 위한 KoNLP 라이브러리 설치 in R
R에서 한글 형태소 분석을 위한 KoNLP 라이브러리 설치 in R
2017.06.03R에서 텍스트마이닝을 하기 위해서는 한글 형태소 분석 라이브러리인 KoNLP를 설치해야한다. ## 1. R에서 KoNLP 라이브러리 설치하기 (최초 1회)1> install.packages("KoNLP")cs ## 2. KoNLP 라이브러리를 사용할 때 마다 include 해준다.1> library(KoNLP)cs ## 만약 라이브러리 호출 시 아래와 같은 에러가 생긴다면 rJava를 설치해준다.1234567891011에러: package or namespace load failed for ‘KoNLP’: .onLoad가 loadNamespace()에서 'rJava'때문에 실패했습니다: 호출: dyn.load(file, DLLpath = DLLpath, ...) 에러: 공유된 객체 '/Library/Fr..
Mac에서 R 설치 & 인코딩 변환하기 in R
Mac에서 R 설치 & 인코딩 변환하기 in R
2017.06.03아래 사이트에 접속 후 R 다운로드하기http://cran.nexr.com/ OS에 맞게 다운로드할 R 버전을 선택한다.Mac OS 의 경우 'Download R for (Mac) OS X' 을 선택 후, 최종 R 패키지를 다운로드한다. 다운로드 후 한글 인코딩 설정을 위해Mac 기본 어플인 터미널에 접속하여 아래와 같이 명령어를 실행한다.defaults write org.R-project.R force.LANG ko_KR.UTF-8 끝!
ORACLE SQL paging 처리
ORACLE SQL paging 처리
2017.03.21Select outer_paging_tbl.* From ( Select rownum as paging_seq , inner_paging_tbl.* From ( 쿼리쿼리쿼리 ) inner_paging_tbl.* Where rownum = (:request_page-1) * (:row_cnt)+1
엑셀 VBA ShellExcute 함수로 프로그램 실행/제어하기
엑셀 VBA ShellExcute 함수로 프로그램 실행/제어하기
2017.03.08엑셀 VBA ShellExcute 함수를 이용해서 엑셀 외 다른 응용프로그램을 실행/제어를 할 수 있다. [ShellExcute 함수 시 주의사항] 1 2 3 4 5 6 7 8 9 '#1 ShellExecute 사용을 위한 Lib - 최 상단에 선언 '64bit와의 호환을 위해 PtrSafe 이라는 것을 명시해주기! Private Declare PtrSafe Function ShellExecute Lib "shell32.dll" Alias _ "ShellExecuteA" (ByVal hwnd As Long, _ ByVal lpOperation As String, _ ByVal lpFile As String, _ ByVal lpParameters As String, _ ByVal lpDirectory As..
엑셀 VBA 텍스트파일 읽어오기
엑셀 VBA 텍스트파일 읽어오기
2017.02.15엑셀 VBA에서 특정 폴더에 있는 모든 텍스트파일을 읽어올 수 있다.아래와 같이 세 개의 텍스트파일이 있을 때, 각 텍스트 파일을 읽어서 엑셀 시트에 입력해보자. 엑셀에서 텍스트파일 순서대로 입력하려고 한다.원하는 결과값은 아래와 같다. 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172'작성자 : prohannah2010 '특정 폴더 내에 존재하는 TEXT파일들을 읽어 Excel 내 쓰기Public Sub run_gathering() Dim folder As String Dim folder_dri As String..
Oracle instr 함수로 문자열 자르기
Oracle instr 함수로 문자열 자르기
2017.02.14Oracle instr 함수는 문자열(텍스트)에서 특정 문자의 위치를 리턴해주는 함수입니다. instr 함수와 substr 함수를 함께 사용하여 특정 문자를 기준으로 텍스트를 파싱하여 가져올 수 있습니다. 아래와 같이 '|' 기호로 구분되어 있는 문자열이 있을 때, '|' 기호의 위치를 찾아 substr 함수를 이용하면 내용별로 잘라올 수 있겠죠.12SELECT 'Start|안녕,|반가워!|End' FROM dualcs 이제 '|' 기준으로 문자열을 잘라서 가져와봅시다. 123456789SELECT 내용 , SUBSTR(내용, 1, INSTR(내용, '|', 1, 1) - 1) AS a , SUBSTR(내용, 1, INSTR(내용, '|', 1, 1) + 1, INSTR(내용, '|', 1, 2) - I..
맥북프로 부트캠프로 윈도우 설치하기
맥북프로 부트캠프로 윈도우 설치하기
2017.02.11최근에 구입한 15년형 맥북프로에 부트캠프를 이용하여 윈도우를 설치하기 위해 여러 블로그를 보며 정리한 내용을 공유한다.구버전 가이드를 보면서 부트캠프(bootcamp)를 설치하려고 하니 많이 헤맸는데 다른 분들은 OS/맥모델 버전 문제로 곤란을 겪지 않길 바란다. [준비물]1. Microsoft Windows 8 및 이후 버전(64비트) 디스크 이미지(ISO)는 아래 사이트에서 다운로드한다. https://www.microsoft.com/ko-kr/software-download/windows10ISO2. 2015년 이후 생산 모델은 USB 플래시 드라이브가 필요하지 않다. 하지만 OS X v10.11 El Capitan 및 아래의 더보기 이전 버전의 모델의 경우 USB 플래시 드라이브가 필요하다. M..
Oracle CLOB 컬럼 Select 시 주의사항 (ORA-06502)
Oracle CLOB 컬럼 Select 시 주의사항 (ORA-06502)
2017.01.24Oracle CLOB 컬럼은 Oracle 버전 10g 이후로 지원되는 LOB 타입의 종류 중 하나로, 문자열이나 이미지 데이터를 4GB까지 저장할 수 있습니다.어느 날 화면에서 처리한 데이터가 DB에 정상적으로 들어가있는지 확인하기 위해 Orange에서 CLOB 컬럼을 조회해봤습니다.서비스 Log나 화면 IO를 보면 데이터를 정상적으로 DB에 넣는 것 처럼 보이는데, Orange에서 Select로 조회해보면 일부가 깨져서 보이거나 데이터가 잘리는 현상이 있었습니다. [현상]입력한 값 : 안녕하세요? 테스트 데이터입니다.Orange에서 조회한 CLOB 컬럼의 값 : 안녕하세요? 테스트 [원인]프로그램 오류라 생각하고 몇 시간 동안 로그도 뒤져보고, 비슷한 유형의 다른 프로그램도 테스트해보고 하다가 원인을 ..