데이터 천재들은 어떻게 기획하고 분석할까?

추천받은 책

어려운 부분도 있지만 잘 읽혔음!

아래는 읽으면서 한 내용 정리

데이터 천재들은 어떻게 기획하고 분석할까? - 10점

조성준 외 지음/21세기북스

분류와 예측

Y변수: 어떠한 결과로 값이 나오는 변수

X변수: Y변수의 원인

독립-종속, 예측-반응, 입력-출력

Y가 연속형 → 수치예측, Y가 범주형 → 범주예측 (범주예측은 보통 분류라고 부른다)

Y변수가 숫자가 아닌 범주, 그 범주를 예측하는 것이 분류

X와 Y 사이에 내재한 관계를 찾는 것이 모델링의 첫 단계 (패턴 찾기)

예측 모델링의 목표는 여러 개의 X-Y 관계를 찾는 것 (Y를 표현하기 위한 X변수의 조합 찾기)

일반적으로 X변수만으로 설명되는 부분과 그렇지 않은 부분으로 나뉨

이때 미지의 부분 → ε(epsilon)

Y = f(x) + ε

ε = f(x) - Y : 손실함수

비용함수 = 손실함수들의 합(혹은 평균)

중요한 것은 비용함수를 최소로 하는 파라미터(모수)를 찾는 것

다중선형회귀모델: X변수들의 선형 결합으로 함수식 구성

선형회귀모델: X와 Y의 평균 간의 관계 설명

로지스틱회귀모델: Y값이 범주형인 데이터에 사용 (새로운 관측치가 기존 범주 중 어디에 해당하는지 예측)

로지스틱: X들의 선형결합을 한번더 로지스틱함수로 비선형 변환

뉴럴: 선형 > 로지스틱 > 한번 더 로지스틱

모델의 종류가 달라지면 파라미터의 종류와 개수도 달라짐

군집분석

데이터: 개체들의 특징을 모은 것

군집분석에서는 변수들 간의 역할 구분이 없음

비지도 학습: 목표변수가 없는 데이터 분석법

텍스트 데이터의 경우 문서에 나타난 주요 단어들에 대한 출현 횟수, 여부 등으로 데이터가 구성

효율적인 유사도 측정 및 군집분석을 위해서는 데이터 특징에 맞는 거리함수 선택하는 것이 중요

산포가 큰 변수가 산포가 작은 변수보다 거리에 큰 영향을 준다 > 변수들의 단위가 같지 않을 경우 데이터 표준화 필요 +

이미지 마이닝

지식 기반 방법: 정보를 논리적인 규칙에 입각해 처리

데이터 기반 방법: 데이터를 이용해 귀납적으로 모델링 > 지식 추출

딥러닝: 신경망을 다층으로 만들고 가중치 결정 (구별해야 하는 부분 증폭, 무관한 변이 억제)

벡터: 특정한 속성을 가진 값의 한 덩어리

이미지/동영상 분석은 특정 개체의 유무를 판별하고 그것이 무엇인지를 밝힘

ex) 얼굴 인식을 하려면 사진들을 분석해서 얼굴과 아닌 영역을 결정할 수 있는 결정경계면을 만들어야 함

기계학습에서의 핵심은 가중치 > 가중치는 데이터로부터 자동으로 결정

몬테카를로 방식: 복잡하거나 구하기 어려운 값을 난수, 확률을 이용하여 근사적으로 계산 가능

텍스트 데이터

수치화: 텍스트를 여러 차원의 벡터로 변환

텍스트 데이터의 장점: 함축적인 형태로 표현 가능

전처리 종류: 불용어 제거, 어근화 등 (적용하는 솔루션에 따라 결과 차이 큼)

부록

딥러닝은 데이터의 수가 늘어나면 성능이 선형적 증가, 다른 알고리즘은 그렇지 않음

자연어 처리: 자연어 자체를 다루는 분석 (대화 생성, 번역, 문법 교정 등)

텍스트 마이닝: 텍스트에서 인사이트를 뽑아내는 분석 (워드 클라우드 등)

'Hello, World!' 카테고리의 다른 글

웹사이트 tls 적용 버전 확인 방법 (0)	2024.05.29
그가 미친 단 하나의 문제, 골드바흐의 추측 (1)	2024.04.27
Login Docker Hub using CLI - github authorization (0)	2024.01.05
dns 변경 cmd 스크립트 (2)	2024.01.03
AICE Associate 합격 후기 (1)	2023.11.14

dr + (sun)eam = er

데이터 천재들은 어떻게 기획하고 분석할까?

분류와 예측

군집분석

이미지 마이닝

텍스트 데이터

부록

'Hello, World!' 카테고리의 다른 글

티스토리툴바

데이터 천재들은 어떻게 기획하고 분석할까?

분류와 예측

군집분석

이미지 마이닝

텍스트 데이터

부록

'Hello, World!' 카테고리의 다른 글

관련글

티스토리툴바