기술(IT)

데이터 수집, 채굴의 기술 - 데이터 마이닝(Data Mining)

2019. 9. 28.
728x90

데이터 마이닝이라는 용어는 데이터 자체의 추출에서가 아니라 대량의 데이터로부터 패턴과 지식을 추출하는 것이 목적이기 때문에 잘못된 명칭이다. 데이터 마이닝은 기계 학습, 통계 및 데이터베이스 시스템의 교차점에서 방법을 포함하는 대규모 데이터 세트에서 패턴을 발견하는 과정이다.  데이터 마이닝은 "데이터베이스의 지식 검색" 프로세스 또는 KDD의 분석 단계로서 원시 분석 단계와는 별도로 데이터베이스 및 데이터 관리 측면, 데이터 사전 처리, 모델 및 추론 고려사항, 관심 지표, 복잡성 고려사항, 후처리, 발견된 구조의 시각화, 온라인도 포함한다. 또한 AI(기계학습)나 비즈니스 지능 등의 컴퓨터 의사결정 지원 시스템의 응용뿐만 아니라 대규모 데이터나 정보 처리의 어떠한 형태에도 자주 적용된다. Java를 이용한 실용 기계 학습 도구와 기법은 원래 실용 기계 학습이라고 명명되었으며, 데이터 마이닝이라는 용어는 마케팅 상의 이유로만 추가되었다. 더욱 일반적인 용어 데이터 분석 및 분석 또는 실제 방법을 참조할 때 인공지능과 기계 학습이 더 적합한 경우가 많다. 데이터 마이닝은 컴퓨터 과학과 통계의 학제간 세분화로서, 일련의 데이터로부터 정보를 추출하여 그 정보를 향후의 용도를 이해할 수 있는 구조로 변환하는 전체적인 목표를 하고 있다.

그런 다음 이러한 패턴은 입력 데이터의 일종 요약으로 볼 수 있으며, 추가 분석 또는 예를 들어 기계 학습 및 예측 분석에 사용할 수 있다. 예를 들어 데이터 마이닝 단계는 여러 데이터 그룹을 식별한 다음 의사결정 지원 시스템에서 더 정확한 예측 결과를 얻기 위해 사용할 수 있다. 자료수집, 데이터 준비, 결과 해석 및 보고 등은 모두 데이터 마이닝 단계의 일부가 아니며, 추가 단계로 전체 KDD 프로세스의 일부분이다. 실제 데이터 마이닝 과제는 데이터 레코드 그룹(클러스터 분석), 비정상적인 기록, 의존성 등 이전에는 알려지지 않았던 흥미로운 패턴을 추출하기 위해 반자동 또는 자동으로 대량의 데이터를 분석하는 것이다. 이것은 대개 공간지수와 같은 데이터베이스 기법을 사용하는 것을 포함한다.  데이터 분석과 데이터 마이닝의 차이점은 데이터 분석을 사용하여 데이터 세트의 모델과 가설을 테스트한다는 것이다. 예를 들어, 데이터의 양과 관계없이 마케팅 캠페인의 효과를 분석하는 것과 대조적으로, 데이터 마이닝은 대량의 데이터 e에 숨겨진 패턴을 숨기거나 감추기 위해 기계 학습과 통계 모델을 사용한다.

관련 용어 데이터 준설, 데이터 낚시 및 데이터 스누핑은 발견된 패턴의 유효성에 대한 신뢰할 수 있는 통계적 추론을 만들기에는 너무 작거나 너무 작을 수 있는 대규모 모집단 데이터 세트의 일부를 표본을 뽑기 위해 데이터 마이닝 방법을 사용하는 것을 말한다. 그러나 이러한 방법을 사용하여 대규모 데이터 그룹에 대해 테스트할 수 있는 새로운 가설을 작성할 수 있다. 데이터에서 패턴을 식별하는 초기 방법에는 베이스의 정리 및 회귀 분석이 포함된다. 데이터에서 패턴의 수동 추출은 수 세기 동안 일어났다. 컴퓨터 기술의 확산, 편재성 및 증가한 위력은 자료를 수집, 저장 및 조작하는 능력을 심하게 증가시켰다. 데이터 세트의 크기와 복잡성이 증가함에 따라, 직접 핸즈온 데이터 분석은 신경 네트워크, 군집 분석, 유전 알고리즘, 의사결정 트리 및 의사결정 규칙, 벡터 기계 지원 등 컴퓨터 과학 분야의 다른 발견 때문에 점점 더 간접적이고 자동화된 데이터 처리로 강화되었다. 데이터 마이닝(Data mining)은 대규모 데이터 세트의 숨겨진 패턴을 밝혀내기 위한 목적으로 이 방법을 적용하는 과정이다. 애플리케이션 통계와 인공지능(일반적으로 수학적 배경을 제공)은 데이터를 데이터베이스에 저장하고 인덱싱하는 방법을 사용하여 실제 학습 및 검색 알고리즘을 보다 효율적으로 실행하여 데이터베이스 관리로 이어지는 격차를 해소하고, 이를 더 큰 데이터 세트에 적용할 수 있다.

LIST

댓글

추천 글