추천받은 책
어려운 부분도 있지만 잘 읽혔음!
아래는 읽으면서 한 내용 정리
![]() |
데이터 천재들은 어떻게 기획하고 분석할까? - ![]() 조성준 외 지음/21세기북스 |
분류와 예측
Y변수: 어떠한 결과로 값이 나오는 변수
X변수: Y변수의 원인
독립-종속, 예측-반응, 입력-출력
Y가 연속형 → 수치예측, Y가 범주형 → 범주예측 (범주예측은 보통 분류라고 부른다)
Y변수가 숫자가 아닌 범주, 그 범주를 예측하는 것이 분류
X와 Y 사이에 내재한 관계를 찾는 것이 모델링의 첫 단계 (패턴 찾기)
예측 모델링의 목표는 여러 개의 X-Y 관계를 찾는 것 (Y를 표현하기 위한 X변수의 조합 찾기)
일반적으로 X변수만으로 설명되는 부분과 그렇지 않은 부분으로 나뉨
이때 미지의 부분 → ε(epsilon)
Y = f(x) + ε
ε = f(x) - Y : 손실함수
비용함수 = 손실함수들의 합(혹은 평균)
중요한 것은 비용함수를 최소로 하는 파라미터(모수)를 찾는 것
다중선형회귀모델: X변수들의 선형 결합으로 함수식 구성
선형회귀모델: X와 Y의 평균 간의 관계 설명
로지스틱회귀모델: Y값이 범주형인 데이터에 사용 (새로운 관측치가 기존 범주 중 어디에 해당하는지 예측)
로지스틱: X들의 선형결합을 한번더 로지스틱함수로 비선형 변환
뉴럴: 선형 > 로지스틱 > 한번 더 로지스틱
모델의 종류가 달라지면 파라미터의 종류와 개수도 달라짐
군집분석
데이터: 개체들의 특징을 모은 것
군집분석에서는 변수들 간의 역할 구분이 없음
비지도 학습: 목표변수가 없는 데이터 분석법
텍스트 데이터의 경우 문서에 나타난 주요 단어들에 대한 출현 횟수, 여부 등으로 데이터가 구성
효율적인 유사도 측정 및 군집분석을 위해서는 데이터 특징에 맞는 거리함수 선택하는 것이 중요
산포가 큰 변수가 산포가 작은 변수보다 거리에 큰 영향을 준다 > 변수들의 단위가 같지 않을 경우 데이터 표준화 필요 +
이미지 마이닝
지식 기반 방법: 정보를 논리적인 규칙에 입각해 처리
데이터 기반 방법: 데이터를 이용해 귀납적으로 모델링 > 지식 추출
딥러닝: 신경망을 다층으로 만들고 가중치 결정 (구별해야 하는 부분 증폭, 무관한 변이 억제)
벡터: 특정한 속성을 가진 값의 한 덩어리
이미지/동영상 분석은 특정 개체의 유무를 판별하고 그것이 무엇인지를 밝힘
ex) 얼굴 인식을 하려면 사진들을 분석해서 얼굴과 아닌 영역을 결정할 수 있는 결정경계면을 만들어야 함
기계학습에서의 핵심은 가중치 > 가중치는 데이터로부터 자동으로 결정
몬테카를로 방식: 복잡하거나 구하기 어려운 값을 난수, 확률을 이용하여 근사적으로 계산 가능
텍스트 데이터
수치화: 텍스트를 여러 차원의 벡터로 변환
텍스트 데이터의 장점: 함축적인 형태로 표현 가능
전처리 종류: 불용어 제거, 어근화 등 (적용하는 솔루션에 따라 결과 차이 큼)
부록
딥러닝은 데이터의 수가 늘어나면 성능이 선형적 증가, 다른 알고리즘은 그렇지 않음
자연어 처리: 자연어 자체를 다루는 분석 (대화 생성, 번역, 문법 교정 등)
텍스트 마이닝: 텍스트에서 인사이트를 뽑아내는 분석 (워드 클라우드 등)
'Hello, World!' 카테고리의 다른 글
웹사이트 tls 적용 버전 확인 방법 (0) | 2024.05.29 |
---|---|
그가 미친 단 하나의 문제, 골드바흐의 추측 (1) | 2024.04.27 |
Login Docker Hub using CLI - github authorization (0) | 2024.01.05 |
dns 변경 cmd 스크립트 (2) | 2024.01.03 |
AICE Associate 합격 후기 (1) | 2023.11.14 |