티끌 데이터 모아 정보 태산을 이루다
티끌 데이터 모아 정보 태산을 이루다
  • 임채영 기자
  • 승인 2010.11.27
  • 호수 1333
  • 댓글 0
이 기사를 공유합니다

데이터마이닝, 효율성 확보 위한 거침없는 응용

어린 자녀를 둔 평범한 가장 민하, 아내의 심부름으로 한양마트에 아기의 기저귀를 사러왔다. 기저귀를 카트에 담은 민하는 기왕 옆에 진열된 맥주도 담는다. 판매원은 계산 도중 민하에게 마일리지 카드 만들기를 권유한다. 마일리지가 쌓이며 때에 따라 할인도 해준다고 한다. 왜 마트에선 일부러 멤버십 카드를 만들어 마일리지와 할인 등의 비용을 감수할까.

시대의 부름, 데이터마이닝
정보화 시대의 부름에 데이터마이닝이 등장했다. 정보기술의 대중화는 집적된 데이터 양을 폭발적으로 증가시켰다. 다국적 기업인 비자카드의 경우, 실시간으로 처리되는 임시데이터를 제외한 관리 중인 데이터의 양이 1PB에 이른다. 1PB란 104만8천576GB에 해당하는 양으로 1GB가 약 10억개의 알파벳을 저장할 수 있다는 점을 감안할 때 기하급수적인 수치다. 이에 기존 인간에 의한 데이터를 분석하는 방식은 효율성과 품질의 문제로 쇠퇴하고 컴퓨터 기술을 활용한 데이터마이닝이 등장한다.

데이터마이닝이란 광산에서 광물을 캐내듯이 기업들이 축적한 방대한 데이터베이스에서 사용자가 필요로 하는 정보를 취합해 뽑아내는 기술이다. 정보 추출자는 추출한 다량의 데이터에서 관련 소프트웨어를 통해 의미있는 패턴과 규칙들을 발견한다. 발견된 패턴과 규칙들은 지속적인 가공과 학습을 통해 가치있는 정보로 탄생하고 기업은 각종 효율성 증대를 위해 이를 이용한다.

데이터마이닝은 특히 기업의 마케팅 분야에 주로 사용된다. 기업은 사내 데이터베이스 내에 저장된 고객 데이터를 활용해 고객의 성향과 특성을 분석한다. 분석한 자료를 토대로 고객을 관리하는 것이다. 통신사의 고객이탈방지시스템이 그 예다. 특화된 질문에 따라 고객을 분류ㆍ점수화해 각각에 맞는 효과적인 마케팅을 펼친다. Michael J.A. Berry의 「Data Mining Techniques」에 따르면 미국의 Bellsouth통신은 데이터마이닝의 도입으로 마케팅의 비용과 절차를 대폭 간소화했으며 고객관리를 통해 수익성을 안정화하는데 성공했다.

이외에도 데이터마이닝은 △선거 예측 △환자의 질병 진단 △유전자 패턴 분석 등 다양한 분야에 활용된다. 한국 데이터마이닝 학회의 김종우<경영대ㆍ경영학과> 교수는 “데이터마이닝은 단순히 경영학에 한정된 분야가 아니다”며 “마이닝에 대한 조건이 갖춰졌다는 전제 하에 공학이나 자연과학 등 다양한 분야에 응용이 가능하다”고 말했다.

하나의 정보를 이루기까지
데이터마이닝은 정보 사용자의 의문으로부터 시작한다. 이를테면 대형마트의 ‘물건을 어떻게 배치해야 잘 팔릴까’라는 질문이 그 예다. 정보 추출자는 멤버십 카드를 통해 채워진 사내 데이터베이스로부터 문제해결에 필요한 △구매목록 △성별 △연령대 등의 타겟 데이터를 찾는다.

하지만 데이터들은 결코 깨끗하지 않다. 이에 추출자는 선택한 데이터 표본의 불량한 데이터 형식, 필요 없는 정보 등을 청소하고 통합하는 등 검색에 최적화한 데이터로 만든다.

데이터 정리작업 후 추출자는 정리한 자료를 마이닝 툴에 입력하고 특이한 패턴을 검색한다. 그리고 찾아낸 패턴을 분석해 의미있는 정보를 도출해낸다. 무의미한 패턴일 경우 의미있는 결과가 나올 때 까지 피드백 과정을 포함해 전 과정으로 회귀한다. 처음 사례의 경우 ‘중년 남성들은 기저귀를 사러올 때 맥주를 산다’라는 결론을 도출한다.

도출된 결론은 기업의 경영활동에 반영된다. 사례에서 한양마트는 결론을 토대로 맥주와 기저귀를 가까운 진열대에 진열할 것이다. 이에 다른 잠재적 소비자들은 기저귀 옆에 진열된 맥주를 구입하며 이 기업의 매출은 증대된다.

김 교수는 “데이터마이닝에는 맥주와 기저귀의 예에서 사용된 ‘장바구니 기법’ 이외에도 다양한 기법이 존재한다”며 “분류 방식의 차이가 있을 뿐 기본적인 과정은 3I Modeling Process를 따른다”고 말했다. 3I 프로세스란 Iterative(반복적 분석)ㆍInterative(상호작용적 분석)ㆍIncremental(점진적 분석)을 합친 말로 반복된 작업과 학습을 통해 지속적으로 회귀ㆍ분석하는 데이터마이닝의 특성을 반영한다.

데이터마이닝, 어디로 갈까
최근 데이터마이닝은 다양한 분야와 융합 중이다. 우리학교 한경록<산업과학연구소> 연구원은 「CRM과 SCM의 전략적 통합을 위한 데이터마이닝의 활용」을 통해 “데이터마이닝을 CRM(고객관계관리)뿐만 아니라 SCM(공급사슬관리)에 모두 효과적으로 활용할 수 있다”고 밝혔다.

기존의 공급 관리자들은 유통업자가 분석한 수요 데이터를 근거로 물류를 관리한다. 이를 시스템적으로 연결해 실시간으로 상품의 수요를 파악하고 관리ㆍ생산하는 것이다. 한 연구원은 “두 시스템과 데이터마이닝 기술의 통합은 큰 시너지를 창출할 것”이라며 “이는 기업의 생산성 향상에 기여할 것”이라 말했다. 김 교수는 또 다른 데이터마이닝의 새로운 기술로 ‘SNA(Social Network Analytics)’를 꼽았다. SNA란 기업 등의 조직에서 사람들 간의 관계를 데이터마이닝을 통해 모델링하는 작업이다. 기업은 사전에 동의받은 사원들의 Facebook, Twitter, Blog, E-mail 등의 소셜 네트워크 데이터를 활용해  SNA Prototype이란 지도를 만든다.

최근 MIT에서 개발한 소셜 뱃지도 기업의 SNA를 고려한 기술이다. 소셜 뱃지는 3분에 한 번씩 직원의 △눈 마주침 △위치 △대화 등을 저장한다. 저장된 정보들은 역시 데이터마이닝을 통해 SNA 모델링에 활용된다.  이에 김 교수는 “조직 내 공식적인 사장이 사내 정보 흐름의 중심과 꼭 같지는 않다”며 “기업에선 이들의 관리를 통해 조직의 분위기ㆍ정보 흐름을 관리함으로써 효율적인 경영을 할 수 있다”고 언급했다.

데이터마이닝은 우리 주변의 다양한 분야에 적용돼 시너지효과를 일으키고 있다. 또 최근엔 정보 필터링을 통해 정보수용의 한계가 있는 모바일 기술의 한계를 극복하는데 큰 역량을 발휘중 이다. 김 교수는 이런 데이터마이닝의 미래에 대해 “산업 시대엔 수력이 원동력이었다면 지금은 정보력이 원동력”이라며 “데이터마이닝은 미래 기업에 동력을 제공하는 수차가 될 것”이라 전망했다.      
                
임채영 기자  harvey@hanyang.ac.kr
일러스트 김나래 기자


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.