『기계는 왜 학습하는가』 후기 및 내용 기록

기계는 왜 학습하는가 | 아닐 아난타스와미 - 교보문고

기계는 왜 학습하는가 | 걸작 2024년 노벨 물리학상 수상자 제프리 힌턴 강력 추천 AI가 구현하는 놀라운 세상을 떠받치며 미래를 만들어갈 핵심 수학!2024년 챗GPT의 마법 같은 등장은 빠르게 모두

product.kyobobook.co.kr

인공지능과 관련된 수학의 연대를 설명해 준다고 하여서 읽게 된 책이다.

수포자는 아니었지만, (당당히 얘기할 수 있다!)

교육과정에서 행렬이 빠진 불운한 세대의 문과 졸업생으로서 인공지능 관련 수학을 공부할 때마다 너무 어려웠기 때문에 혹여나 이것은 잘 읽힐까, 하는 기대에서 읽기 시작했다.

결론적으로는 올해 읽은 책들 중 손에 꼽게 완독이 뿌듯한 책으로 남았다.

먼저, 수학의 기초가 없어도 이해하기 쉽냐!

당연히 그것은 아니다. 서문에서도 얘기한 만큼 수학 용어의 의미도 설명해 주어 가며 이해시켜주려 하는 터라 초반의 간단한 벡터 부분은 가볍게 이해할 수 있었다.

점곱을 생각보다 간단히 넘어가길래 그때부터 그냥 넘기는 것이 어려웠고 중반부는 챗GPT에게 물어물어 가며 읽었고, 후반의 수식은 한줄한줄 이해하는 것을 포기하고 문장들에만 집중했다. (위에서 언급했던 것처럼 문과 교육과정에서 딱 행렬이 빠졌을 때 수험 생활을 했는데 이렇게 행렬이 중요한 시기가 올 줄은 몰랐다. 시험 범위가 줄어서 좋다고만 생각했는데! 벡터는 문과라 아예 배울 일도 없었다. 아쉬운 것 같기도 아닌 것 같기도.)

인공지능에 관한 책을 인공지능에게 물어 가며 읽는다는 것이 미묘한 기분이기도 했다. 시간을 길게 잡고 정말 공부한다는 마음으로 수식 한줄한줄 이해할 시간이 있었다면 좋았겠지만 그만큼 큰 마음을 먹고 시작하지는 않았었다. 무엇보다, 도서관의 대여 기간 안에 그만큼을 할 자신도 없었다.

중간에 읽으면서도 생각했던 것인데, 역시 마지막까지 제목이 왜 기계는 "왜" 학습하는가 인지는 완전히 이해하지 못했다. 어째서 굳이 '어떻게'도 아닌 '왜'를 선택했을까?

시간 순서대로 흘러오는 터라 방법론보단 발전 과정을 보여주기 때문에 그랬을 수도 있겠다는 생각이 이제야 문득 든다.

좋았던 점은 무작정 퍼셉트론 모형과 역전파 수식부터 시작하는 이론 공부를 위한 머신러닝 또는 딥러닝 교재와 달리, 흐름에 따라 차근차근 이어져 가 점점 세계가 확장되는 듯한 느낌을 받는 것이 좋았다. 파도가 점점 크게 몰아치는 느낌 같기도 하고. 그건 역시 표지의 파란색이 해낸 일일까?

그럼에도 마지막이 가까워질수록 끝이 보인다는 생각에 좀 더 훌훌 넘겨버려서 완벽히 소화하지 못한 것 같아 아쉽다. 아직 나의 챗GPT와 역전파에 대해 토론하는 중이다…

가장 기억에 남는 부분은 역시 마지막 부분이어서 그런지는 몰라도, LLM이 그저 확률 기반으로 문장을 생성하는 것인지, 실제로 추론 능력을 갖는 것인지 의문을 갖는 부분이었다.

실제로 평소에도 늘 그런 생각을 갖고 있었어서 검색이나 요약, 코딩 등에만 사용하는 편이었기 때문에 더욱 그랬다. 고민 상담을 하기 꺼려졌던 이유도 나는 진심인데 돌아오는 답변은 그저 문자의 나열이라고 생각이 되면 기분이 별로 좋지 않았기 때문이다.

그럼에도 더 이상 다가오는 AI의 홍수를 피할 수 없을 것 같아 공부하기 위해 읽은 책이었는데 더 많은 것을 알고 있을 저자 또한 그런 의문을 갖고 있다니 조금은 기꺼워진 느낌이다.

언젠가 확실히 인공지능이 "지능"을 가졌다는 확신을 갖고 대화할 날이 올까? 내 지능은 어떻게 확신하는 걸까, 여러 생각을 한 걸 보니 괜찮은 책이었다고 얘기할 수 있을 것 같다.

이하는 읽으면서 작성한 본문 내용 기록

1. 패턴을 찾고 말 테다

퍼셉트론: 최초의 쓸 만한 ‘뇌 기반’ 알고리즘. 퍼셉트론은 데이터에 숨겨진 패턴을 유한한 시간 안에 반드시 찾아낸다. 즉, 어김없이 해에 수렴한다.
선형: y가 x1과 x2에 비례해서만 달라질 뿐 x1이나 x2의 거듭제곱수나 x1과 x2의 곱에 비례하여 달라지지 않는다.

헤브 학습: 뇌가 학습하는 이유는 한 신경세포의 출력이 다른 신경세포의 발화와 일관되게 연관될 때는 신경세포 사이의 연결이 강해지고 그렇지 않을 때는 약해지기 때문이다.

2. 여기에선 모두가 숫자에 불과하다

점곱: a.b는 a의 크기에 a에 대한 b의 사영을 곱한 것
사영projection: 한 벡터가 다른 벡터에 드리운 그림자
a에 대한 b의 사영은 b의 크기에 두 벡터가 이루는 각의 코사인을 곱한 것으로 주어진다.
두 벡터 중 하나의 길이가 1이면 점곱은 단위 벡터에 대한 또 다른 벡터의 사영과 같다.
점곱이 0이면 두 벡터는 서로 수직이다.

퍼셉트론이 데이터 점을 두 군집으로 나누는 선형 분리 초평면을 찾으려고 할 때 무슨 일이 일어나는지를 시각화하는 문제는
벡터의 점곱을 이용하여 데이터 점과 초평면의 상대적 거리를 찾는 것과 관계가 있다.

퍼셉트론은 그 중 하나를 찾는 것만 보장될 뿐 반드시 최상의 초평면을 찾는다는 보장은 없다.
퍼셉트론이 가중치와 편향 항을 학습하는 것은 처음 보는 데이터 점을 초평면을 기준으로 분류하기 위해서이다.

벡터는 행이나 열이 한 개인 특수한 형태의 행렬이다.

한 데이터 점에 대해 yw(T)x의 값을 계산한다.
w(T)x가 음수이면 y는 -1이기 때문에 두 곱은 양수.
양수인 경우에 y=1이므로 이때도 두 곱은 양수.
따라서 yw(T)x가 0보다 작거나 같으면 가중치와 편향을 갱신해야 한다.

알고리즘에 따르면 가중치를 갱신하는 방법은 yx를 w에 더하는 것이다.
직관적으로 생각하면 이 갱신은 가중치 벡터의 방향(그에 따라 초평면의 방향)과 크기를 바꿔 초평면의 틀린 쪽에 있는 데이터 점 x가 올바른 쪽에 좀 더 가까워지도록 한다.

퍼셉트론 알고리즘이 반드시 종료된다는 것을 확신할 수 있는 이유

- 중심 가정을 달리 표현해서 - 가중치 벡터 w*에 의해 정해지는 선형 분리 초평면이 있다고 하자. 퍼셉트론은 w*을 찾아야 한다.

- 알고리즘은 맨 처음 0으로 초기화된 가중치 벡터 0을 이용한다.

- 이제 w와 w*의 점곱을 생각한다.

- 가중치 벡터 w를 갱신하여 희망 가중치 벡터 w*의 방향에 점점 가까워지면 w와 w*가 이루는 각은 w*의 선택과 무관하게 0에 가까워진다.

- w와 w*의 점곱 |w||w*| cos(Θ)는 계속 증가한다. cos(Θ)가 0에서 1로 증가하기 때문이다. (벡터의 방향이 같아질수록)

- 그러므로 알고리즘이 학습하는 동안 우리는 w.w*가 계속 증가하기를 바란다.

- 하지만 w.w*는 w의 방향이 달라지지 않고 크기만 증가해서 커지는 것일 수도 있다. 이 경우에는 w.w도 증가할 것이다.

- 그러므로 증명의 핵심은 훈련이 진행되는 동안 w.w가 w.w*보다 덜 빠르게 증가함을 밝히는 것이다.

3. 그릇의 바닥

기울기는 최솟값으로부터 멀어지는 방향을 가리킨다. 그러므로 최솟값 쪽으로 내려가려면 반대 방향으로 작은 걸음을 내디뎌야 한다. 즉, 음의 기울기를 따라가야 한다.

다차(또는 고차) 함수(변수가 여러 개 있는 함수라는 뜻)의 기울기는 벡터에 의해서 주어진다. 벡터의 성분들은 각 변수에 대한 편도함수이다.

신호 처리 분야에서 필터란 입력 신호를 받아 처리하여 우리가 원하는 성질을 가진 출력 신호를 생성하는 장치이다.

적응 필터는 오차가 최소화되도록 스스로를 변화시킨다. '필터'라는 이름의 블랙박스에는 몇 가지 특성, 또는 매개변수가 있는데, 이 매개변수들을 조정하여 필터를 적응시킨다.

알고리즘은 잡음의 통계적 성질을 학습하여 매 단계에서 잡음을 예측하고 실시간으로 xn에서 제거하여 희망 신호를 산출해야 한다. 로젠블랫의 퍼셉트론과 인공신경망에 대한 연결은 필터의 구체적인 내용을 들여다보면서 점점 분명해질 것이다.

MSE(Mean Squared Error): 제곱 평균 오차(오차 항의 제곱을 평균)

cf) MAE(Mean Absolute Error): 절대 평균 오차(오차의 절댓값을 더해 평균)

MSE는 어디서나 미분 가능하고, MAE는 그렇지 않다.

MSE에서는 오차의 평균 기여도가 오차의 제곱에 비례하여 증가하지만 MAE에서는 선형적으로 증가한다.

2차 함수가 최소화되었다는 것은 그릇 모양 함수의 바닥에 도달했다는 뜻이다. 이 지점에서의 기울기는 0

훈련 표본(입력과 그에 대응하는 출력)이 많이 있다고 하면,

모든 입력 표본에 대해 신경세포가 내놓는 오차를 계산하여 제곱 오차의 기댓값을 모든 가중치(또는 계수)의 함수로 작도하면

그릇 모양의 함수를 얻는다. (물론 이 함수의 좌표 공간은 고차원 공간이어서 시각화할 수 없다.)

그러면 최급강하법으로 기댓값을 최소화할 수 있다.

각 단계에서 각 가중치에 대한 함수의 기울기를 계산한 다음 (최솟값을 향해) 반대 방향으로 작은 걸음을 내디뎌 가중치를 변경한다.

LMS: 최급강하법 근사계산을 이용하는 최초의 인공 신경망 훈련 알고리즘

4. 십중팔구

베이스 정리: 불확실한 상황에서 수학적으로 엄밀하게 결론을 도출하는 방법을 제시

P(H | E) = P(H) * P(E | H) / P(E)

몬티 홀 딜레마 - 과정이 직관에 어긋난다고 느껴지더라도, 확률이 반드시 직관적인 것은 아니다.

하지만 기계가 이런 추론을 결정에 반영할 때 우리의 직관이 방해가 되어서는 안 된다.

대부분의 기계 학습은 알고리즘이 명시적으로 그렇게 설계되지 않았더라도 본질적으로 확률론적이다.

분산: X의 값을 각각 취해 X의 기댓값을 빼고 제곱하여 X가 그 값을 가질 확률을 곱한 다음 X의 모든 값에 더한다.

표준편차는 분산의 제곱근

표준편차가 크면 곡선이 넓고 납작하다.

표준정규분포: 평균이 0이고 표준편차가 1

전체 결합 확률 분포를 학습하거나 추정할 수 있으면 모든 데이터, 속성 벡터, 라벨의 모형을 만들 수 있다. 이렇게 하면 막강한 위력을 발휘할 수 있는데, 즉 분포로부터 표집을 통해 훈련 데이터를 닮은 새 데이터를 생성하는 것이다. 생성형 AI라고 불리는 것이 여기에서 탄생한다.

5. 유유상종

알하이삼의 연구: 물체를 인식하기 위해서는 그 물체를 기억 속에 있는 무엇인가와 비교해야 하고, 어떤 유사성 관념에 따라 가장 가까운 것을 찾아보기만 하면 된다. => 그것이 바로 최근린법(NN)

최근린법의 강점: 기저 데이터 분포에 대해 어떤 가정도 하지 않는다.

NN알고리즘의 활동 영역은 베이스 최적 분류자의 반대쪽 극단이다.

가진 것은 데이터뿐이며 알고리즘은 기저 분포에 대해 거의 어떤 가정도 하지 않고 실제 로도 거의 알지 못한다.

베이스 최적 분류자는 0.75와 0.25 중 항상 0.75를 고른다. 틀릴 가능성이 25%가 있더라도.

k-NN 알고리즘의 가장 큰 특징은 이른바 비모수 모형이라는 사실이다.

데이터가 커져도 초평면이 w에 의해 정의되는 퍼셉트론과 다르게, k-NN 알고리즘은 데이터 집합의 크기가 커질수록 연산 능력과 기억 용량을 증가시켜야 한다.

k-NN 알고리즘이 최상의 결과를 낳는 것은 저 차원 데이터에서이다.

+) 차원성의 저주

+) 초차원 입방체의 부피

k-NN 알고리즘은 비선형적인 경계를 얻는다.

6. 행렬에는 마법이 있다.

PCA(주성분 분석): 고차원 데이터를 훨씬 적은 축에 투영하여 데이터가 가장 많이 변이 하는 차원을 찾는 것.

데이터의 차원을 줄여 데이터의 대다수 편차가 하나의 차원에 포괄되도록 하는 것이다.

경계를 찾은 후에는 유형을 모르는 새 데이터 점이 주어졌을 때 하나의 '주성분'축에 투영하여 경계의 오른쪽에 놓이는지, 왼쪽에 놓이는지 확인하여 그에 따라 분류하면 된다.

벡터와 행렬을 곱하면 벡터가 변환되는데, 이것은 크기와 방향뿐 아니라 벡터가 있는 공간의 차원 자체가 달라지기 때문이다.

벡터-행렬 곱셈에서 벡터의 차원을 유지하고 싶으면 행렬의 형태가 정사각형이어야 한다.

7. 커널 밧줄 탈출쇼

분리 초평면: 좌표 공간의 두 구역을 나누는 선형 경계

바프니크-무한한 선택지에서 최적 초평면을 찾아냄

커널 수법: 각 저 차원 벡터를 어마어마하게 큰 벡터로 둔갑시키지 않고서 고차원 공간에서 커널 함수로 점곱을 계산하는 방법

(때로 2차원에서 선형 분리 초평면을 찾기 어려울 때 3차원에 투영하면 가능한 경우가 있다.)

- 6장과는 반대되는 개념 > 차원 축소 vs 차원 확장

RBF, 방사형 기저 함수 - 데이터 집합에 대한 단순한 가정이 주어지면, 저 차원에서의 결정 경계가 아무리 복잡하더라도 문제를 무한 차원에서 선형적으로 분리 가능한 문제로 바꿀 수 있다.

보편 함수 어림자universal function approximator: RBF 커널은 일부 무한 차원 공간에서 선형적으로 분리 가능한 초평면을 알고리즘이 반드시 찾을 수 있도록 해줄 수 있기 때문에 저차원 공간에 대응되면 아무리 복잡한 공간에서도 어떤 결정경계(또는 함수)든 찾을 수 있다.

보조 벡터 기계 SVM(Support Vector Machine): 원래의 비교적 저차원인 공간에서 선형적으로 분리 불가능한 데이터 집합을 취해 최적 선형 분리 초평면을 찾을 만큼 높은 차원에 이 데이터를 투영한다. 하지만 그 초평면을 찾기 위한 계산을 결정하는 것은 연산 측면에서 더 용이한 저차원 공간에 알고리즘을 단단히 묶어 두는 커널 함수이다.

보조 벡터란 중간 지대 가장자리에 놓인 데이터 점을 일컫는다. 이 기법은 고차원에 있는 어떤 옛 초평면도 찾지 않는다. 최적 초평면을 찾는다. 이 초평면을 낮은 차원에 다시 투영하면, 매우 복잡하면서도 최적인 결정 경계와 비슷하게 보일 수 있다.

8. 물리학의 소소한 도움으로

참고 - 홉필드의 1982년 <PNAS> 논문

9. 심층 학습의 발목을 잡은 사람(실은 아님)

시벤코의 증명

- 은닉층이 하나뿐인 신경망에 충분히 많은 신경세포가 주어지면 어떤 함수든 어림할 수 있음을 밝혀냈는데, 이는 입력을 우리가 원하는 출력으로 전환할 수 있다는 뜻이다. - 보편 근사 정리

가중치 행렬이 여러 개인 심층 신경망은 기본적으로 입력 x를 출력 y로 변환하며 여기서 입력과 출력은 둘 다 벡터이다.

그러면 신경망은 원하는 함수를 어림한다. 그러므로 신경망을 훈련한다는 것은 가중치 행렬에 대한 최적값을 찾는다는 뜻이지만 입력과 출력의 상관관계를 가장 훌륭하게 어림하는 함수를 찾는 것과도 비슷하다.

10. 오래된 신화를 깨뜨린 알고리즘

역전파

신경망에 은닉층이 둘 이상이고 은닉층 하나당 신경세포가 둘 이상이면, 기본적으로 각각의 가중치와 편향에 대해서도 기울기를 계산하여 갱신할 수 있다.

역전파 알고리즘의 경이로운 능력 - 입력에서 손실에 이르는 연산의 연쇄를 매 단계마다 미분할 수 있으면 손실 함수의 기울기를 계산할 수 있다. 기울기가 주어지면 각각의 가중치와 편향을 조금씩 갱신하여 손실이 수용 가능할 만큼 최소화될 때까지 경사 하강법을 실시할 수 있다.

역전파의 절차 - 연산이 미분 가능 함수에 해당하는 한 도함수를 역으로 계산하여 어떤 정렬된 연산 표든 만들 수 있게 해 준다.

역전파만으로 최선의 결과를 만드는 건 아니고, 오차의 기울기를 계산하는 과정.

인간의 뇌는 역전파를 수행하고 있을 가능성이 희박하다. 순전파하는 동안 전체 가중치 행렬을 기억으로 저장해야 하기 때문에.

11. 기계의 눈

12. 미지의 땅 - 심층 신경망이 가는 곳은 (거의) 어떤 ML 알고리즘도 가보지 못한 곳이다.

높은 편향(단순한 모형)은 미적합, 높은 훈련 오류 위험, 높은 시험 오류 위험으로 이어지는 반면

높은 분산(복잡한 모형)은 과적합, 낮은 훈련 오류 위험, 높은 시험 오류 위험으로 이어진다.

심층 신경망은 매개변수 개수가 훈련 데이터 인스턴스에 비하여 너무 많다. 그래서 과매개변수화되었다고 말한다. 따라서 과적합해야 마땅하며 처음 보는 시험 데이터를 제대로 일반화하지 못해야 마땅하다. 그런데도 제대로 일반화한다. 표준 ML 이론은 심층 신경망이 왜 이토록 훌륭한 결과를 내놓는지 더는 제대로 설명하지 못한다.

+) 과적합이란, 너무 정확하게 학습해서 기존에 없던 새로운 문제를 만났을 때 제대로 작동하지 못하는 것

에프로스의 추론 - CNN은 이미지넷 데이터 집합에 들어 있는 일반적인 정보에만 굶주렸으며 인간이 공급한 (이미지를 자동차, 개, 고양이 등으로 라벨링한) 주석은 가치가 거의 없었다.

에필로그

LLM은 훈련 데이터에 있는 상관관계를 바탕으로 그저 텍스트를 내놓는 것일까?

아니면 추론하고 있는 것일까?

'Hello, World!' 카테고리의 다른 글

[AZ-900] Microsoft Certified: Azure Fundamentals 취득 후기 (2)	2026.01.11
AZ-900 기출문제 등장 개념 및 선지 정리 (0)	2026.01.10
SPM PL87W 몽돌 키보드 후기 (9)	2025.08.14
[책] 구글 엔지니어는 이렇게 일한다 (3)	2025.07.28
『틀리지 않는 법: 수학적 사고의 힘』 읽는 중 ··· (2)	2025.05.29