강의는 갈수록 어렵고 아직 이해하지 못한 부분은 많고..
막히는 부분이 계속 늘어나는 것 같다.
최대한 기본을 충실히 하고 계속 복습해서 익숙해져야겠다.
공부한 내용
1. Optimizer
1-1. 최적화에서 사용하는 용어
: Gradient Descent, Generalization, Overfitting, Underfitting, Cross-validation, Bias, Variance, Bootstrapping, Bagging, Boosting
1-2. Optimizer 종류
: Gradient Descent, Momentum, NAG (Nesterov Accelerated Gradient), Adagrad, Adadelta, RMSprop, Adam
1-3. Regularization
: Early stopping, Parameter norm penalty, Data augmentation, noise robustness, Label smoothing, Dropout, Batch Normalization
2. Momentum은 gradient의 방향과 학습 방향이 일치하는 parameter의 경우에는 더 빠른 속도로 학습하고, 방향이 다른 경우에는 속도를 줄이고 방향을 수정하는 방식이다.(?)
Optimizer에 대한 참고 자료
An overview of gradient descent optimization algorithms
Gradient descent is the preferred way to optimize neural networks and many other machine learning algorithms but is often used as a black box. This post explores how many of the most popular gradient-based optimization algorithms such as Momentum, Adagrad,
3. nn.Linear()에서 bias=True로 설정하는 것은 bias term을 사용하는 것 (bias가 절편항이라는 것을 생각하지 못했다.)
4. Batch Normalization은 dataset의 statistics를 normalize하는 것이 아니라 layer의 parameter를 normalize하는 것이다.
5. 선택과제 (ViT)
5-1. cls_token의 의미를 잘 모르겠다. 하지만 image(patches)마다 하나의 cls_token이 필요하다.
5-2. repeat은 cls_token을 batch사이즈만큼 늘려주는 기능
5-3. 각 patch들은 순서가 있어서 flatten할 때, position에 대한 정보를 추가해야 한다.
6. Visualization 마스터 클래스
7. Domain 특강 (CV and NLP)
내일 할 일
1. github 특강 1
2. DL Basic 4, 5, 6
3. 필수 과제 CNN Assignment
4. 피어세션 회고록 작성
