로그인 회원가입 홈으로 contact us 사이트맵
공지사항
질문과답변
1:1 상담문의
채용정보
제목 [News] (기사)예측 분석의 재발견, 텍스트 분석의 가치 -- 텍스트 마이닝 관련 날짜 2012.06.02 23:46
글쓴이 링크소프트 조회/추천 1203/0
[특별기고]예측 분석의 재발견, 텍스트 분석의 가치
이광열 SAS코리아 이사 "정형 및 비정형화된 데이터 동시 분석, 확산 시간문제"
2010년 09월 13일 (월) 15:12:45 이광열 kwang-youl.lee@sas.com

▲ SAS코리아 이광열 이사
수백, 수천만 통의 통화 기록 중에 특정 범죄 성향이 짙은 통화 기록만 찾아낸다거나, 하루 수천 수만 건씩 올라오는 '고객의 소리' 웹 게시판에서 자동으로 특정 불만을 지닌 고객의 게시물을 찾아낸다던가, 또는 일반인들은 읽을 수조차 어려운 수없이 많은 환자의 처방내역에서 당뇨병에 효과적인 치료 패턴을 자동으로 찾아낸다던가 하는, 과거에는 생각할 수 없었던 기술이 텍스트 마이닝이라는 이름으로 주목 받고 있다.

오늘날 기업 정보는 다양한 채널을 통해 수집이 가능하며, 그 형태 또한 매우 다양하다. 이러한 다양한 정보를 비즈니스 인텔리전스화 하기 위해서는 이전에는 일정한 형식과 조건을 만족해야 하는 정형화된 데이터의 형태로 이루어져야만 했다.

텍스트 기반의 문서 마이닝으로 기업 가치와 기회 발굴
전혀 다른 형태의 데이터를 정형화된 데이터로 처리하는 데 따르는 어려움은 많은 시간과 비용을 필요로 하지만 실제로 지속적인 혁신 및 속도의 이점을 깨달은 기업 등의 조직들이 더욱 더 증가함에 그 노력과 욕구는 지속 되고 있다.

이렇게 수집된 데이터의 증가는 기업 또는 조직의 의사 결정을 내리는 데 아주 중요한 기반이 될 수 있고, 기업이 고품질 분석을 위해 더 많은 노력을 기울인다면, 비즈니스 전략 개발에 필요한 의미 있는 아이디어들이 샘솟듯 솟아날 것이다.

텍스트 마이닝은 비정형 데이터, 즉 일상에 나타날 수 있는 문장 또는 단어들의 조합들을 처리하여 정형화된 데이터로 생성하고 이를 통해 의미 있는 현상 또는 패턴을 발견하기 위해 활용된다.

따라서 텍스트 마이닝은 시간과 비용을 줄이면서 비 정형 데이터로부터 비즈니스 현상을 더 빨리 파악하고 대응하도록 하여 업체간의 경쟁에서 훨씬 앞서 나갈 수 있도록 도와준다.

미국혼다, 호주 국세청, 및 HP는 미래를 먼저 내다보고 첨단 텍스트 마이닝 기술의 가치를 인식한 여러 조직 중 일부이다.

텍스트 마이닝 기법의 원리
데이터 스토리지 시스템의 효율성 증대 및 메모리 가격 하락에 힘입어 대부분의 조직들은 엄청난 양의 데이터를 확보했다.

그렇지만 안타깝게도, 처리 속도 및 분석 기법의 진보에도 불구하고 이러한 데이터는 발견되지 않은 거대한 미지의 대륙처럼 대부분 사장되고 있다. 데이터베이스 중 일부는 고객들의 욕구, 의견 및 관심을 반영한 내용을 담고 있다. 게다가 원유나 금 같은 천연 자원과는 달리, 묻혀진 정보는 추출도 비교적 용이하다.

이렇듯 사장된 정보는 다양한 언어 및 문장의 구조로 되어 있으며 단어 또는 텍스트의 형태로 저장되어 있다. 텍스트 마이닝 기술이 개발되기 전에는 이 같은 정보에 숨겨진 패턴이나 경향을 파악하기 위해 전문적인 교육을 받은 언어학자들을 투입하여 장시간 모든 내용을 파악하고 분류해야만 했다.

즉, 이러한 정보를 사용 가능한 비즈니스 인텔리전스로 전환하는 작업은 매우 어려웠고 때로는 불가능한 경우도 많이 있었다.

고객 정보에 대한 폭 넓은 이해
오늘날, 광범위한 고객 관계 관리 팀을 보유한 대형 제조업체를 비롯해 다국적 조직들은 이메일, 고객 여론조사, 품질 보증 청구 내역 양식, 통화 보고서, 기술 보고서 및 대리점 피드백 등 셀 수 없이 많은 텍스트 홍수 속에 허덕이고 있다.

가령, HP의 콜 센터 데이터베이스에만 30만 건의 기록이 보관되어 있으며, 그 양 역시 하루가 다르게 증가하는 추세다.

과거에는 이렇게 유입되는 데이터를 의미 있는 데이터로 바꿀 수 없었다. 데이터 양을 고려할 때 누군가가 각각의 데이터 기록을 읽고 수동으로 자유 형식으로 된 텍스트의 설명 문자열을 정형화된 필드로 전환하도록 하여 데이터 마이닝 및 통계적 분석 프로젝트를 진행한다는 것은 불가능했다.

현실적으로 어느 누구도 그 일을 할 수가 없었던 것이 사실이다.

그러나 지금은 텍스트 마이닝을 통해 대규모 문서에 담긴 주제 또는 개념과 패턴을 파악하여 비지니스에 활용할 수 있게 되었다.

텍스트 마이닝 알고리즘이 문서를 자동으로 주제 군집으로 묶고 미리 정해진 범주로 분류하기도 한다. 텍스트 데이터와 정형화된 데이터를 결합함으로써 더 이상 경험 많은 직원들의 직감에만 의존하지 않고 예측 모델링 경험과 고객 정보에 기반하여 비즈니스 결정을 내릴 수 있다.

기존의 데이터 마이닝 분석 대상에 텍스트를 추가함으로써 기업들은 데이터 속에 숨어 있는 원인과 관련된 여러 정보를 이용하여 기업의 의사결정을 위한 답을 도출할 수 있다. 또한 현 정보와 대량의 문서 더미 속에 방치된 과거 파일들을 비교하여 문제의 핵심을 파악할 수도 있다.

텍스트 마이닝은 또한 전술적 이점도 제공한다. 예를 들어 HP는 전 세계에 흩어져 있는 소비자, 기업 및 기관들을 대상으로 솔루션을 제공한다. HP의 서비스는 IT 인프라, 국제 서비스, 비즈니스 및 홈 컴퓨팅, 이미징 및 출력 등 매우 다양하다. 고객 계좌의 세부 내용을 담은 정보는 세계 전역의 여러 장소에 다양한 형태로 저장되어 있다.

최근까지만 해도 HP는 고객 데이터 웨어하우스로부터 얻은 수익 및 제품 데이터를 콜 센터를 통해 수신한 텍스트 정보와 결합할 수 없었지만, 이제 텍스트 마이닝 기술을 통해 서로 이질적인 데이터와 정형화 되지 않은 데이터를 이용하여 HP의 고객 관계 관리 서비스를 전혀 새로운 수준으로 끌어올릴 수 있다.

생명 과학 및 의료 서비스 분야에도 활용
텍스트 마이닝은 학문적이고 비영리적인 부문에서도 가치를 지닌다. 다음은 미국 켄터키주 루이스빌 대학(University of Louisville) 연구진들이 텍스트 마이닝을 활용하여 비용 절감이 가능한 영역을 파악하고 새로운 환자 치료 방법을 찾아낸 사례다.

패트리샤(Patricia Cerrito) 박사 및 연구팀은 텍스트 마이닝을 통해 병원 청구서, 약물 처방전 및 차트 기입 사항 등의 텍스트를 정량화하고 분석하여 암, 유전병, 심장 질환 및 환경 보건에 대한 연구 지원에 활용하고 있다.

그 결과, 패트리샤는 의사들이 작성한 수 천명의 환자 차트를 검토하여 성과 기록을 추적함으로써, 특정 약 처방으로 환자의 재원 기간을 연장하거나 단축할 수 있다는 사실 등을 밝혀낼 수 있었다.

텍스트 분석 프로세스를 통해 텍스트를 정량적으로 산출한 다음, 이러한 정보를 선별할 수 있다. 그런 후에는 기존의 데이터 마이닝 기법을 사용해 관련 변수를 환자 차트에서 추출하게 되므로, 패트리샤는 환자 치료 및 치료 결과의 패턴을 파악할 수 있다.

패트리샤는 그녀의 남편이 루이스빌의 유대 병원(Jewish Hospital)에서 개심술을 받을 때 텍스트 마이닝의 이점을 피부로 느낄 수 있었다. 의료 팀은 패트리샤의 연구를 일부 참고하여 약물 처방을 내렸다. 특히, 개심술을 받은 후 항생제 처방을 받은 당뇨병 환자들의 수술 결과에 대한 최근 연구를 참조했다.

패트리샤는 연구 결과 포도당 수치가 높으면 감염의 위험도 높다는 점을 알게 되었다. 텍스트 마이닝을 통해 약물과 수술 후 회복 간의 연관 관계도 밝혀졌다.

패트리샤는 남편의 상태가 호전되고 있다고 느끼며, 텍스트 마이닝 결과에 기반을 둔 결정이 얼마나 이로운지 몸소 확인할 수 있게 된 것이다.

패트리샤와 연구팀은 텍스트 마이닝을 활용한 상태 보고를 통해 환자 치료 및 병원의 신뢰도를 높일 수 있는 방법도 알아냈다. 텍스트로 된 문서를 방대한 양의 병원 데이터베이스와 나란히 검토함으로써 연구진은 숨겨져 있지만 매우 중요한 정보, 즉 의사의 다양한 진료 방식과 환자 상태의 관계를 밝혀낼 수 있었다.

텍스트 마이닝이 생사가 걸린 상황에 활용되지 않더라도 즉각적인 이점을 기대할 수 있다. 텍스트 마이닝을 통해 기존 프로그램의 유효성을 입증하는 것은 물론, 드러나지 않는 어려움을 부각시킬 수 있기 때문이다.

예를 들어, 텍스트 마이닝 기술을 보유한 자동차 제조업체가 뒷문 손잡이 또는 변속기 불량 등의 불만 접수 건수가 갑자기 늘어난 것을 눈치챌 경우, 합리적인 정확성을 바탕으로 고객 기반 전반에 걸쳐 문제가 얼마나 확산되었는지를 예측하고, 이 문제가 공론화되기 전에 적절한 대응책을 신속히 마련할 수 있다.

뿐만 아니라 트위터, 페이스북 등 소셜 미디어의 글을 분석하는 데에 근간이 되는 플랫폼이 되어 이를 통해 출시된 상품에 대한 고객 반응을 즉각적으로 얻어낼 수도 있다.

텍스트 마이닝 확산... 시간문제
텍스트 마이닝의 이점이 속속 드러남에 따라, 정기적으로 정형화 및 비 정형화된 데이터 모두를 분석하려는 조직은 더욱 더 늘어날 것으로 보인다.

비즈니스 인텔리전스 기술을 보유한 조직들은 자체적인 텍스트 마이닝 노하우를 웹 및 보고서의 형태로 공유할 수 있다. 여러 다국적 기업들의 지사에 있는 관리자들은 설문 조사 분석가, 행동 분석 전문가, 심리학자 또는 언어학자의 도움을 얻어 숨은 텍스트의 의미를 해독하지 않고도 텍스트 결과를 즉시 시각화할 수 있다.

데이터 마이닝이 강력한 예측 모델링 기술을 통해 기업들에게 경쟁 우위를 제공한다는 점은 이미 입증된 바 있다.

텍스트 마이닝 애플리케이션의 성공 사례가 늘어남에 따라 기업들은 앞다퉈 이 기술을 활용해 숨은 기회를 포착하고 보다 나은 창의적 정책 수립에 몰두할 것이다. 정형 및 비정형화된 데이터를 동시에 분석하는 텍스트 마이닝 기술이 전 세계 모든 곳에서 건전한 조직의 필수 요소로 자리잡게 되는 것은 시간 문제다.

목록 답변 수정 삭제 쓰기