ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Lec03) Linear Regression의 cost 최소화 알고리즘의 원리 설명
    Deep Learning 공부자료/모두를 위한 딥러닝 2020. 3. 10. 01:15

    Hypothesis and Cost

    Hypothesis : \(H(x) = Wx + b\)

    Cost Function : \(Cost(W,b)\) = \(1/m \sum_{i = 1}^{m} (H(x_i)-y)^2\) 

     

    linear regression의 목표 : cost를 minimize 시키는 W와 b 찾기

     

    Simplified Hypothesis

    계산의 편의를 위해서 b = 0으로 설정한다.

     

    Hypothsis : \(H(x) = Wx\)

    Cost Function : \(Cost(W,b)\) = \(1/m \sum_{i = 1}^{m} (Wx_i-y)^2\) 

     

    What \(Cost(W)\) looks like?

    해당 예제의 cost function을 컴퓨터로 그려봤더니, 아래와 같은 그래프가 나왔다.

     

    cost function의 값이 최소가 되는 점, 즉 W=1을 찾아 내는 것이 regression의 목적이다.

     

    Gradient Descent Algorithm 적용 방식

    안개 낀 산 꼭대기에서 하산 하기 위해서는 기울기가 완만한 쪽으로 이동해야 한다.

     

    1. 임의의 값에서 시작한다.

    2. W와 b를 각 시행마다 조금씩 변경 하면서 를 줄여 나간다.

    3. 변경 시 가능한 최대로 를 작게 하는 W, b를 선정한다.

    4. local minimum 을 찾을 때 까지, 1~3의 과정을 반복한다.

     

    장점 : 어디에서 시작하던 minimum을 구할 수 있다.

    단점 : 대표적인 local search algorithm. 대부분의 local search algorithm이 갖는 local minimum에 빠져서 global minumum을 찾지 못하는 한계를 갖고 있다. 하지만 random restart local research algorithm을 이용하여 해결할 수 있다.

     

    Formal Definition

    미분을 용이하게 하기 위해서 분모에 2를 곱함

    $$Cost(W,b) = 1/2m \sum_{i=1}^m (Wx_i-y_i)^2$$

     

    미분 과정은 아래와 같다.

     

    $$W := W - α{\partial\over\partial W}Cost(W)$$ (α는 learning rate을 의미. 보편적으로 0.1을 사용)

    $$W := W - α{\partial\over\partial W}{1/2m \sum_{i=1}^m (Wx_i-y_i)^2}$$

    $$W := W - α{\partial\over\partial W}{1/2m \sum_{i=1}^m 2(Wx_i-y_i)x_i}$$

    $$W := W - α{\partial\over\partial W}{1/m \sum_{i=1}^m (Wx_i-y_i)x_i}$$

     

    $$W := W - α{\partial\over\partial W}{1/m \sum_{i=1}^m (Wx_i-y_i)x_i}$$ 가 Gradient Descent Algorithm의 수식이다.

     

    이 수식을 여러번 실행 시키면서 minimize 시키는 W를 찾는다.

    댓글

Written by Geulleun