#2/R
워드클라우드란 단어 그대로 Word들의 모음(구름이라도 해도 되고...)을 뜻한다. 뉴스 기사나 칼럼 등의 특정 텍스트에서 단어들의 빈도 수를 체크해 키워드가 되는 단어, 통상적으로는 가장 많이 나오는 단어를 시각화하여 보여주는 기법이다. 바로 예제를 살펴보자면,2017년 1월 17일, 대통령이 되기 전 문재인 대통령의 기조연설문을 워드클라우드로 시각화한 예시이다. 연설문 텍스트 중 명사에 해당하는 단어만 추출하였고, 두 자 이상의 단어만 워드클라우드에 포함시켰다. 연설문에서는 '일자리'라는 키워드가 가장 많이 언급된 것을 확인할 수 있다. - 이렇게 내가 쓰는 가계부를 워드클라우드로 표현해보고 싶었다. 2016년 4월부터 'Weple Money Pro'라는 가계부 어플을 사용하고 있다. 좌측 이미지는 ..
R에서 텍스트 마이닝을 수행할 때 꼭 필요한 패키지들이 KoNLP나 rJava 등이다. 특히 Mac에서 rJava 라이브러리를 로딩할 때 심심치 않게 아래와 같은 오류 메세지가 뜬다. rJava가 제대로 설치되지 않으면 KoNLP 라이브러리도 불러올 수가 없다. rJava 라이브러리를 불러오기 위해 library(rJava)를 실행시키면 이런 오류가 발생한다. 왜? 1234567Error: package or namespace load failed for ‘rJava’: .onLoad failed in loadNamespace() for 'rJava', details: call: dyn.load(file, DLLpath = DLLpath, ...) error: unable to load shared ob..
개인용 랩탑을 맥북으로 바꾸면서, 역시나 우려했던 윈도우와의 호환 문제가 발생했다. 맥을 쓰면 감수해야할 불편한 것들이 몇 가지 있다고는 알고 있었지만 막상 맞닥뜨리게 되니 앞으로 상당히 번거로울 것 같은 예감이 든다. 얼마전 공공데이터 포털(data.go.kr/)에서 강원도 춘천시 무료와이파이 정보 CSV 파일을 다운로드 받아서 엑셀로 열어보니 알아볼 수 없게 와장창 깨져있었다. 이렇게... 윈도우에서는 잘 열리는 것을 보면 역시나 파일인코딩 문제인 것 같다(공공데이터 포털에 데이터를 업로드하신 분은 윈도우 유저?). 컬럼 이름도 제대로된 형식이 아니고 값들도 영문과 숫자를 제외하고는 일본어인지 뭔지 판별이 불가능... 혹시나하고 파일명을 간단히 바꾼 뒤(wifi.csv) Rstudio에서 그냥 불러와..