cs231n(딥러닝) (4) 썸네일형 리스트형 [cs231n] Recurrent Neural Network(RNN) Introduction cs231n 딥러닝 강의 및 자료 : http://cs231n.stanford.edu/schedule.html Recurrent Neural Network(RNN) Vanilla는 아무 것도 가공하지 않은 처음 형태로, 여태까지 배운 일반적인 Neural Network는 input layer - hidden layer - output layer로 형성되있으며, input(이미지)과 output(score에는 어떤 fixed된 형태의 벡터가 들어가고 나오게 될것이다. 이제 배울 RNN은 위와는 달리 output, input 에 sequence가 있는 형태가 된다. 먼저, one to many의 예시로는 Image Captioning이 있다. 이미지를 넣으면 이미지를 묘사하는 단어들의.. [cs231n] CNN Architectures Introduction cs231n 딥러닝 강의 및 자료 : http://cs231n.stanford.edu/schedule.html AlexNet 먼저, CNN 아키텍처중 2012년에 나온 AlexNet이다. CNN의 시초인 LeNet이랑 구조가 비슷하며, Layer가 많아졌고, CONV layer가 5개있고, FC layer가 3개가 있다. CONV층에서는 Max Pooling을 해주며, CONV층을 거친 후 나온 feature map들이 4096개의 뉴런이 있는 FC Layer로 진입하게 된다. FC Layer에서는 ReLU를 사용하였으며, 출력층인 FC8에서는 1000개의 class score를 뱉기 위한 softmax함수를 이용한다. 2개의 NORM 층은 사실 크게 효과가 없다고 한다. 또한, .. [cs231n] Training Neural Networks, Part 2 Introduction cs231n 딥러닝 강의 및 자료 : http://cs231n.stanford.edu/schedule.html Lecture6 추가 설명 왼쪽 처럼 데이터가 normalization도 안되어 있고, zero centered도 안되어 있으면, 선이 조금만 비틀려도 오분류의 위험이 커진다. 즉, W같은 파라미터의 조그만 변화에 Loss function이 민감해진다. 반면, 오른쪽은 파라미터의 변화에 덜 민감하게 반응해서 쉽게 Optimization이 가능해진다. 위는 선형 분류의 상황이지만, 비선형 분류인 Neural Network에서도 똑같이 적용된다. 가중치 W Matrix의 작은 변화에도 해당 Layer의 Output에 큰 영향을 끼칠 수 있다. 따라서, 이러한 이유 때문에 Ba.. [cs231n] Training Neural Networks, Part I Introduction cs231n 딥러닝 강의 및 자료 : http://cs231n.stanford.edu/schedule.html Activation Functions(활성화 함수) Activation 함수는 Nerual Network에서 비선형성을 가해주는 매우 중요한 역할을 한다. 무슨의미냐면 다음과 같이 2개의 층을 쌓았을때 layer에 활성화 함수가 없다면, $$\rm W_2(W_1 x + b)+ b = W_2W_1 x + b_0 = Wx + b$$ $$ ( W_1 W_2 =W)$$ 즉, 위와 같이 새로운 층에 넣어도 여전히 Wx=b가 되므로 선형성에 의해 layer를 쌓는 의미가 없어진다. 따라서, 비선형성을 가해주기 위해 활성화 함수가 사용이 된다. 이제 이러한 활성화 함수들의 각각의 특징.. 이전 1 다음