워드클라우드란 단어 그대로 Word들의 모음(구름이라도 해도 되고...)을 뜻한다. 뉴스 기사나 칼럼 등의 특정 텍스트에서 단어들의 빈도 수를 체크해 키워드가 되는 단어, 통상적으로는 가장 많이 나오는 단어를 시각화하여 보여주는 기법이다.


바로 예제를 살펴보자면,

2017년 1월 17일, 대통령이 되기 전 문재인 대통령의 기조연설문을 워드클라우드로 시각화한 예시이다. 연설문 텍스트 중 명사에 해당하는 단어만 추출하였고, 두 자 이상의 단어만 워드클라우드에 포함시켰다. 연설문에서는 '일자리'라는 키워드가 가장 많이 언급된 것을 확인할 수 있다.  


-


이렇게 내가 쓰는 가계부를 워드클라우드로 표현해보고 싶었다. 2016년 4월부터 'Weple Money Pro'라는 가계부 어플을 사용하고 있다.


   


좌측 이미지는 어플의 메인 화면이고 우측 이미지는 설정 화면인데, '백업 및 복구' 항목의 'Export CSV File'을 통해 2016년 4월부터 2018년 1월까지의 데이터를 내려받았다. 기존에는 CSV 파일로 내보낼 수 있는 기능이 없었고, SQLite DB로만 데이터를 확인할 수 있었다. 


약 1년 전 쯤인가, CSV 형태로 데이터를 받아볼 수 있게 해달라고 개발자에게 메일을 보냈었는데... 나의 요청 때문이었는지 아니면 나와 같은 사람들이 많았던 것인지 감사하게도 이런 기능을 추가해주셨다. 그런데 이제와서 맥 빠지는 소리를 하나 덧붙이자면, CSV 데이터는 직관적인 수입과 지출, 항목, 카테고리 등에 대한 정보만 포함하고 있었고, 사실은 SQLite DB를 보는 것이 더 많은 정보가 담겨있기는 하다... 백업파일이니까...ㅎㅎ





일단은 간단하게 CSV 파일로 가계부 데이터를 받아 간단히 변수 작업을 해주고 몇 가지 전처리 과정을 거친 다음, 워드클라우드로 시각화를 그려보았다.


수입, 지출 내역을 통틀어 택시비로 지출된 건수가 가장 많다. 가계부에 택시비 지출을 기록할 때, 시간과 장소에 특징을 포함하기 애매해서 그냥 기록하였더니 단연 가장 많은 건수를 차지했다. 앞으로는 출발지와 도착지까지 함께 기록을 남겨야겠다는 생각이 든다. 



이번엔 가계부 내역 중 '식비'에 해당하는 지출 데이터만을 가지고 워드클라우드를 만들어 보았다.

사실 맨 처음 워드클라우드에는 '학식'이 가장 크게 시각화되어 나왔다. 어찌나 웃기던지...ㅎㅎ 그래서 학식이나 편의점 등 몇 가지를 제외하고 워드클라우드를 만들어 본 결과, 이번에는 '맥도날드'가 가장 많았다. 내가 많이 먹었던 것, 내가 많이 갔던 곳을 이렇게 다시보니 반가운 느낌이...




가계부 내역의 경우 고유명사가 주를 이루기 때문에, 명사 추출의 단계를 거치다보니 조사로 인식되어 삭제해버려 불완전한 단어들이 많이 보인다. 나중에 보완할 방법을 찾아야겠지만 한국어 자연어 처리는 정말 어렵다... 이것저것 워드클라우드를 다 시도해보았는데, 내 가계부를 분석해보는 게 가장 재미있었다. 다음 포스팅에선 가계부 워드클라우드 소스코드를 공유할 예정이다 :)

BELATED ARTICLES

more