학교 수업/ADL
-
Self-Supervised Learning (3)학교 수업/ADL 2023. 10. 19. 21:50
SimCLR(2020)부터 다시 시작해본다. SimCLR은 strong augmentation을 사용한다. 각각 다르게 augmented된 image $\tilde{x}_i$와 $\tilde{x}_j$를 사용하여 feature를 extract해서 $h_i$와 $h_j$ 라는 representation을 얻고, projection layer인 MLP를 통과시켜서 나온 $z_i$와 $z_j$를 InfoNCE의 input으로 넣는다. loss는 N개의 sample을 다르게 augment한 두장의 이미지를 positive, 나머지 2N-2개의 sample들을 negative로 만들어 $z_i$와 $z_j$의 cosine similarity를 계산하는 함수로 positive/(positive+negative) 를..
-
Self-Supervised Learning (2)학교 수업/ADL 2023. 10. 19. 21:28
마지막 Constrastive Loss을 이용한 SSL 방법이다. similar sample pair는 가깝게 하고 dissimilar pair는 멀게 하도록 representation을 학습한다. 가장 초기 contrastive loss와 triplet loss는 건너뛰고 Noise Contrastive Estimation(NCE)부터 보겠다. NCE는 2010년에 나온 논문으로 매우 오래됐다. observed data $X=(x_1, x_2, .., x_n)$ 이 있고, artifitially generated noise data $Y=(y_1, y_2,..., y_n)$ 이 있을 때, $x \sim p(x;\theta), y \sim p(y)$ 라고 해보자. 그럼 $ x \sim p(x;\theta..
-
Self-Supervised Learning (1)학교 수업/ADL 2023. 10. 12. 17:15
사실 두번째 SSL 수업인데 앞에서는 image transform based methods라 딱히 신기하다거나 끌리지 않아 오늘 내용과 함께 적으려고 한다. CL도 더 알고싶은데 아쉽다. 하지만 새로 배우는 SSL도 매우 흥미롭다. SSL과 Unsupervised Learning의 차이는 무엇일까? 일단 target supervised label은 존재하지 않을 수 있지만, supervisory signal은 존재하기 때문에 unsupervised learning이라고 하기에는 애매하다. 따라서 우리는 이걸 self-supervised learning이라고 부른다. SSL의 evaluation은 어떻게 할까? self-supervised pretrained network를 downstream task에 ..
-
Continual Learning (4)학교 수업/ADL 2023. 10. 6. 21:28
어제 썼어야했는데 못쓰고 오늘 쓴다. 저번 거보다 더 이해가 안갔다. 나중에 생각하련다.. 이번 내용은 Replay-memory based methods이다. Typical regularization methods는 past task의 data를 쓰지 못하는 경우를 가정하는 반면 이번엔 사용할 수 있다고 가정한다. regularization based 방법의 경우 많은 모델 파라미터를 저장하는데 메모리를 많이 사용했고, replay-memory based 방법은 이보다 작은 양의 메모리로 training data를 저장하려 한다. 첫 번째 대표적인 방법은 GEM(Gradient episodic memory)이다. episodic memory를 construct하는 task별 적은 수의 sample을 저장..
-
Continual Learning (3)학교 수업/ADL 2023. 9. 26. 21:19
오늘 수업은 사실 이해가 잘 안가서 일단 들은 내용을 적어보겠다. 이해가 안되는 내용은 따로 논문을 읽고 모르는 것은 교수님께 질문해서 글을 수정할 것이다. 저번 시간에는 EWC까지 했는데, 아직 $p(\theta|\mathcal{D})$가 왜 Prior가 될 수 있는지 모르기도 하고 $p(\theta|\mathcal{D})$를 구한 후 ${\theta}^*_{MAP,1:2} = \arg\min_{\theta}\{-\log p(\mathcal{D}_2|\theta)-\log p({\theta}|\mathcal{D}_1)\}$이 loss function으로 이어지는지 대충 그럴 것 같긴 한데 엄밀하게는 잘 모르겠다. 근데 찾아보면 금방 나올 것 같다. 아무튼 FIM은 regularization 역할을 하고..
-
Continual Learning (2)학교 수업/ADL 2023. 9. 21. 22:03
이전 편에서 continual learning의 개념과 세 가지 접근 방식들에 대해 설명했고, 지금부터는 각 접근 방식의 대표적인 방법들을 소개할 것이다. reference : Kirkpatrick et al., Overcoming catastrophic forgetting in neural networks, PNAS 2017 EWC (Elastic Weight Consolidation) - 어떤 nodes or weights가 중요한지 찾는다. - important nodes or weights에 high regularization을 준다. - stability에 초점이 맞춰져 있다. task A를 수행하는 모델의 parameter를 $\theta_A$라고 했을 때, parameter space of ..
-
Continual Learning (1)학교 수업/ADL 2023. 9. 21. 18:03
Backgrounds Continual Learning(CL)이 나타나게 된 배경은 Supervised Learning의 target task가 continually grow 하는 반면, Batch Learning을 하는 기존 학습 방법은 새로운 데이터를 업데이트하기가 쉽지않다. Batch Learning은 가지고 있는 모든 데이터를 사용해 훈련시키는 방법으로, 오프라인으로 이루어진다. Batch learning에서 새로운 데이터를 업데이트 할 때에는 이전 데이터를 포함해 전체 학습 데이터를 처음부터 다시 학습시키는 방법과 fine-tuning을 이용해 transfer하는 방법이 존재한다. Continual (Lifelong) Learning Scenarios Supervised Learning의 목표는..