BoostCamp

2021.08.10 - [Week 2] Day 2. 적응기간(2)

배기니어 2021. 8. 10. 23:00

강의는 갈수록 어렵고 아직 이해하지 못한 부분은 많고..

막히는 부분이 계속 늘어나는 것 같다.

최대한 기본을 충실히 하고 계속 복습해서 익숙해져야겠다.

 


공부한 내용

1. Optimizer

 1-1. 최적화에서 사용하는 용어

  : Gradient Descent, Generalization, Overfitting, Underfitting, Cross-validation, Bias, Variance, Bootstrapping, Bagging, Boosting

 1-2. Optimizer 종류

  : Gradient Descent, Momentum, NAG (Nesterov Accelerated Gradient), Adagrad, Adadelta, RMSprop, Adam

 1-3. Regularization

  : Early stopping, Parameter norm penalty, Data augmentation, noise robustness, Label smoothing, Dropout, Batch Normalization

2. Momentum은 gradient의 방향과 학습 방향이 일치하는 parameter의 경우에는 더 빠른 속도로 학습하고, 방향이 다른 경우에는 속도를 줄이고 방향을 수정하는 방식이다.(?)

 

Optimizer에 대한 참고 자료

https://medium.com/@vinodhb95/momentum-optimizer-6023aa445e18

https://ruder.io/optimizing-gradient-descent/index.html#fn4

 

An overview of gradient descent optimization algorithms

Gradient descent is the preferred way to optimize neural networks and many other machine learning algorithms but is often used as a black box. This post explores how many of the most popular gradient-based optimization algorithms such as Momentum, Adagrad,

ruder.io

 

3. nn.Linear()에서 bias=True로 설정하는 것은 bias term을 사용하는 것 (bias가 절편항이라는 것을 생각하지 못했다.)

4. Batch Normalization은 dataset의 statistics를 normalize하는 것이 아니라 layer의 parameter를 normalize하는 것이다.

5. 선택과제 (ViT)

 5-1. cls_token의 의미를 잘 모르겠다. 하지만 image(patches)마다 하나의 cls_token이 필요하다.

 5-2. repeat은 cls_token을 batch사이즈만큼 늘려주는 기능

 5-3. 각 patch들은 순서가 있어서 flatten할 때, position에 대한 정보를 추가해야 한다.

6. Visualization 마스터 클래스

7. Domain 특강 (CV and NLP)

 

 

내일 할 일

1. github 특강 1

2. DL Basic 4, 5, 6

3. 필수 과제 CNN Assignment

4. 피어세션 회고록 작성