본문 바로가기
Hello, World!

데이터 천재들은 어떻게 기획하고 분석할까?

by sun_HY 2024. 3. 10.

 

추천받은 책

어려운 부분도 있지만 잘 읽혔음!

아래는 읽으면서 한 내용 정리 

 

데이터 천재들은 어떻게 기획하고 분석할까? - 10점
조성준 외 지음/21세기북스

 

 

분류와 예측

 

Y변수: 어떠한 결과로 값이 나오는 변수

X변수: Y변수의 원인 

독립-종속, 예측-반응, 입력-출력 

 

Y가 연속형 → 수치예측, Y가 범주형 → 범주예측 (범주예측은 보통 분류라고 부른다)

Y변수가 숫자가 아닌 범주, 그 범주를 예측하는 것이 분류 

X와 Y 사이에 내재한 관계를 찾는 것이 모델링의 첫 단계 (패턴 찾기) 

 

예측 모델링의 목표는 여러 개의 X-Y 관계를 찾는 것 (Y를 표현하기 위한 X변수의 조합 찾기) 

일반적으로 X변수만으로 설명되는 부분과 그렇지 않은 부분으로 나뉨

이때 미지의 부분 →  ε(epsilon)

 

Y = f(x) + ε

ε  = f(x) - Y : 손실함수

비용함수 = 손실함수들의 합(혹은 평균) 

중요한 것은 비용함수를 최소로 하는 파라미터(모수)를 찾는 것 

 

다중선형회귀모델: X변수들의 선형 결합으로 함수식 구성 

선형회귀모델: X와 Y의 평균 간의 관계 설명 

로지스틱회귀모델: Y값이 범주형인 데이터에 사용 (새로운 관측치가 기존 범주 중 어디에 해당하는지 예측)

로지스틱: X들의 선형결합을 한번더 로지스틱함수로 비선형 변환

뉴럴: 선형 > 로지스틱 > 한번 더 로지스틱

모델의 종류가 달라지면 파라미터의 종류와 개수도 달라짐

 

 

군집분석

 

데이터: 개체들의 특징을 모은 것 

군집분석에서는 변수들 간의 역할 구분이 없음 

비지도 학습: 목표변수가 없는 데이터 분석법 

텍스트 데이터의 경우 문서에 나타난 주요 단어들에 대한 출현 횟수, 여부 등으로 데이터가 구성 

 

효율적인 유사도 측정 및 군집분석을 위해서는 데이터 특징에 맞는 거리함수 선택하는 것이 중요 

산포가 큰 변수가 산포가 작은 변수보다 거리에 큰 영향을 준다 > 변수들의 단위가 같지 않을 경우 데이터 표준화 필요 +

 

 

이미지 마이닝

 

지식 기반 방법: 정보를 논리적인 규칙에 입각해 처리

데이터 기반 방법: 데이터를 이용해 귀납적으로 모델링 > 지식 추출 

 

딥러닝: 신경망을 다층으로 만들고 가중치 결정 (구별해야 하는 부분 증폭, 무관한 변이 억제)

 

벡터: 특정한 속성을 가진 값의 한 덩어리 

이미지/동영상 분석은 특정 개체의 유무를 판별하고 그것이 무엇인지를 밝힘 

ex) 얼굴 인식을 하려면 사진들을 분석해서 얼굴과 아닌 영역을 결정할 수 있는 결정경계면을 만들어야 함 

 

기계학습에서의 핵심은 가중치 > 가중치는 데이터로부터 자동으로 결정 

 

몬테카를로 방식: 복잡하거나 구하기 어려운 값을 난수, 확률을 이용하여 근사적으로 계산 가능

 

 

텍스트 데이터

 

수치화: 텍스트를 여러 차원의 벡터로 변환 

텍스트 데이터의 장점: 함축적인 형태로 표현 가능

전처리 종류: 불용어 제거, 어근화 등 (적용하는 솔루션에 따라 결과 차이 큼)

 

 

부록

 

딥러닝은 데이터의 수가 늘어나면 성능이 선형적 증가, 다른 알고리즘은 그렇지 않음

 

자연어 처리: 자연어 자체를 다루는 분석 (대화 생성, 번역, 문법 교정 등)

텍스트 마이닝: 텍스트에서 인사이트를 뽑아내는 분석 (워드 클라우드 등)

728x90