2007년 5월 29일 화요일

데이터마이닝이란?

1. 데이터마이닝의 정의
1) 대용량의 데이터내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내어 모형화 함으로써 유용한 지식을 추출하는 일련의 과정들
2) 패턴인식 기술이나 통계기법, 수학적 알고리즘을 이용하여 의미있는 새로운 상관 관계, 패턴, 추세 등을 발견하는 과정

2. 데이터마이닝의 활용분야
데이터마이닝은 통계 기법과 인공 지능 기법들을 통합적으로 이용하여 좀 더 깊고, 다양한 분석을 하는 것을 그 기본 개념으로 하고 있다. 따라서 데이터마이닝은 통계와 인공 지능이 적용 가능한 모든 분야에 적용될 수 있다.
1) 데이터베이스 마케팅
2) 신용평가

3. 주요 데이터마이닝 기법
1) 분류(Classification)
- 정의 : 개체의 새로운 특성들을 관찰하고, 이것을 미리 정의된 집단(예 : “예, 아니오”, “남자, 여자” 등의 이산형 결과)으로 설정한다. 데이터마이닝 목적을 위해 분류된 개체들은 일반적으로 데이터베이스의 한 레코드로 표현되고, 특정한 종류의 코드를 각 레코드에 입력함으로써 갱신된다.
- 방법 : 사전에 정의된 집단들과 사전에 분류된 예들로 구성된 학습 집단( training set )으로 특징져 진다. 이 작업은 분류되지 않은 자료를 분류하기 위해 적용할 수 있는 몇 가지 모형을 만드는 것이다.
- 기법 : 의사결정나무(Decision Tree), 연결 분석(Link Analysis)

2) 추정( Estimation )
- 정의 : 연속적인 결과를 다룬다. 자료가 주어지면, 추정을 통하여 수입, 키, 신용잔고와 같은 알려지지 않은 연속적인 값들을 찾는다.
실제로 추정은 종종 분류 작업을 위해서 사용된다. 스키 제조업자들을 상대로 요금 청구서의 광고 지면을 판매하는 신용카드 회사는 자사의 카드 소지자들을 스키를 타는 사람과 그렇지 않은 사람의 두 가지 집단으로 나누는 분류 모형을 만들 수 있다. 다른 방법은 각각의 카드 소지자들을 “스키선호도 점수”에 따라 할당하는 것이다. 이것은 카드 소지자가 스키를 타는 사람일 확률을 0에서 1까지의 값으로 나타낸다. 그러나 여기에는 많은 비용이 들어간다. 분류에서는 이 선호도를 특정 기준을 이용하여 두 개로 구분한다. 이 기준점수보다 높은 점수를 받은 사람은 스키를 타는 사람으로 분류하고, 낮은 사람은 스키를 타지 않는 사람으로 간주한다.
추정에 의한 방법은 개별 레코드가 순차적으로 구성되어 있을 때 많은 이점이 있다. 만일, 스키 제조업자가 500,000통의 우편 발송 예산을 책정하였다고 가정하자. 만일 분류를 통해서 카드 소지자 중 실제로 스키를 타는 사람이 15,000,000명으로 판명되면, 이들 중에서 무작위로 500,000명을 뽑아서 이들에게 광고우편을 발송할 것이다. 반면에 모든 카드 소지자들에 대해 스키선호도 점수를 부여했다면, 이들 중 높은 점수를 받은 순서로 500,000명에게 광고우편을 발송하면 된다.
주요 기법 : 신경망( Neural Network )

3) 예측( Prediction ) : 예측은 미래의 행위나 가치를 다룬다는 것을 제외하면, 분류나 추정과 거의 동일하다. 예측의 정확성을 알 수 있는 방법은 기다린 후 확인하는 것 뿐이다. 측정될 변수를 알고, 이에 대한 과거의 자료가 있다면, 분류와 추정을 위한 모든 기법들이 예측에 사용될 수 있다.
예를 들어, 식료품점에서 어떤 것들이 함께 구매되는지를 알아보는 시장바구니 분석은 현재의 자료를 이용하여 미래의 구매나 행동을 예측할 수 있다.
주요 기법 : 시장바구니 분석( Market Basket Analysis ), 지식 기반 추론( Knowledge Based Reasoning ), 의사결정 나무( Decision Tree ), 신경망( Neural Network )

4) 유사 집단화( Affinity Grouping ) : 유사 집단화는 어떤 것들이 함께 움직이는가를 결정하는 작업이다. 전형적인 예는 시장에서 어떤 상품들이 함께 구매되는지를 결정하는 것이다. 이를 통해 선반이나, 카탈로그에 종종 함께 구매되는 제품들을 가까이 배치하는 전략을 사용한다. 또한 교차 판매나 패키지 상품이나 서비스를 구성하는데 이용되기도 한다.
주요 기법 : 시장바구니 분석( Market Basket Analysis ), 신경망( Neural Network )

5) 군집화( Clustering ) : 군집화는 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업이다. 군집화가 분류와 구분되는 가장 큰 특징은 사전에 정의된 집단을 가지고 있지 않다는 것이다. 군집화에서는 사전에 정의된 집단이 없으며, 자료들을 그 자체의 유사성에 따라 나눈다. 이는 결국 분석가에게 군집의 의미를 부여하는 문제를 던지게 된다.
군집화는 다른 형태의 데이터마이닝이나 모형화의 기초 역할을 한다. 예를 들어, “최선의 반응을 유도하는 촉진방법은 무엇인가?”를 알기 위해서 소비자들을 구매 유형에 따른 군집으로 나누는 것이 선행되어 진다.
주요 기법 : 군집 분석( Cluster Analysis ), 신경망( SOM )

6) 기술( Description ) : 때때로 데이터마이닝은 복잡한 데이터베이스를 통해 사람, 제품, 공정 등에 대한 이해를 돕기 위한 서술을 그 목적으로 할 때도 있다. 충분한 서술은 그 자체만으로도 행동에 대한 설명을 제공하며, 최소한 어디에서부터 설명을 시작할지를 제시한다.

댓글 없음: