전체 글
-
Self-Supervised Learning (1)학교 수업/ADL 2023. 10. 12. 17:15
사실 두번째 SSL 수업인데 앞에서는 image transform based methods라 딱히 신기하다거나 끌리지 않아 오늘 내용과 함께 적으려고 한다. CL도 더 알고싶은데 아쉽다. 하지만 새로 배우는 SSL도 매우 흥미롭다. SSL과 Unsupervised Learning의 차이는 무엇일까? 일단 target supervised label은 존재하지 않을 수 있지만, supervisory signal은 존재하기 때문에 unsupervised learning이라고 하기에는 애매하다. 따라서 우리는 이걸 self-supervised learning이라고 부른다. SSL의 evaluation은 어떻게 할까? self-supervised pretrained network를 downstream task에 ..
-
Continual Learning (4)학교 수업/ADL 2023. 10. 6. 21:28
어제 썼어야했는데 못쓰고 오늘 쓴다. 저번 거보다 더 이해가 안갔다. 나중에 생각하련다.. 이번 내용은 Replay-memory based methods이다. Typical regularization methods는 past task의 data를 쓰지 못하는 경우를 가정하는 반면 이번엔 사용할 수 있다고 가정한다. regularization based 방법의 경우 많은 모델 파라미터를 저장하는데 메모리를 많이 사용했고, replay-memory based 방법은 이보다 작은 양의 메모리로 training data를 저장하려 한다. 첫 번째 대표적인 방법은 GEM(Gradient episodic memory)이다. episodic memory를 construct하는 task별 적은 수의 sample을 저장..
-
[ADHD 환자의 일기] 10월 1일일기 2023. 10. 2. 00:20
사실 10월2일이다. 열두시가 지났다. 오늘은 나의 생일.. 별일 아닌데도 마음이 두근거리는 날이다. 특별한 사람이 된 것 같고 주변 사람들이 오늘의 내 기분을 망치지 않았으면 좋겠다. 마치 누구보다도 오늘 나의 행복을 누구보다 바라는 건 나인 것 마냥. 마냥이 아니라 누구보다도 바란다. 이기적이게도 그렇다. 그냥 오늘만이라도 내가 주인공이길 바란다. 어쩌면 필사적으로.. 나는 내가 생일을 이렇게 생각하는 이유를 안다. 어릴 때 생일마다 양보를 해왔었다. 누군가에게.. 그래서 성인이 된 후 다른 건 몰라도 아끼는 사람의 생일과 나의 생일은 끔찍이도 챙기려 한다. 꼭 기억해놨다가 열두시 땡하면 챙겨주고 싶다. 챙김받고 싶다. 적어도 자기전에 챙겨주고 싶다. 챙김받고 싶다는 뜻이다. 지금 이건 무슨 의미일까..
-
Continual Learning (3)학교 수업/ADL 2023. 9. 26. 21:19
오늘 수업은 사실 이해가 잘 안가서 일단 들은 내용을 적어보겠다. 이해가 안되는 내용은 따로 논문을 읽고 모르는 것은 교수님께 질문해서 글을 수정할 것이다. 저번 시간에는 EWC까지 했는데, 아직 $p(\theta|\mathcal{D})$가 왜 Prior가 될 수 있는지 모르기도 하고 $p(\theta|\mathcal{D})$를 구한 후 ${\theta}^*_{MAP,1:2} = \arg\min_{\theta}\{-\log p(\mathcal{D}_2|\theta)-\log p({\theta}|\mathcal{D}_1)\}$이 loss function으로 이어지는지 대충 그럴 것 같긴 한데 엄밀하게는 잘 모르겠다. 근데 찾아보면 금방 나올 것 같다. 아무튼 FIM은 regularization 역할을 하고..
-
[논문 리뷰] On Layer Normalization in the Transformer Architecture논문 스터디 2023. 9. 24. 17:14
Transformer에서 layernorm을 사용할 때 post-LN을 사용하면 warm up stage에서 hyper-parameter tuning에 시간을 많이 써야하는데 pre-LN을 사용했을 때 그렇지 않다는 내용이다. 사실 내용이 별게 없고 지금은 사용하지 않는 방법인데 여기서는 왜 pre-LN을 사용하고자 하는지, 이론적인 근거가 뒷받침되는지 살펴보자. Summary Abstracts를 읽어보면, 이 논문에서는 첫 번째로 이론적으로 왜 learning rate warm-up stage가 필수적인지와 layer normalization의 위치와의 관계를 보여준다. 구체적으로, post-LN의 initialization에서 mean field theory를 사용해 expected gradients..
-
[ADHD 환자의 일기] 9월 23일일기 2023. 9. 23. 17:41
다시 안정을 찾았다. 생리 일주일 전만 되면 왜 저러는지.. 호르몬이 날뛰나 보다. 약으로도 어떻게 안되는 날이다. 그런 날은 항상 무슨 일이 있던 없던 나의 세상이 흔들리는 날이다. 이성적인 사고는 하기가 힘들다. 내가 지금 가장 두려운 건 그때의 나로 돌아가는 것이다. 그래서 호르몬이 날뛰는 날 그때를 회상하고 슬퍼하게 된다. 이제는 방법을 알고있지만 알고있다고 해결되는 건 아니니까.. 주변 사람들을 힘들게 하고 싶지 않은데, 여전히 힘들게 하고 있다. 이렇게 하면 떠나게 될 걸 알면서도 떼쟁이가 된다. 확신을 받는다고 해서 떠나지 않는 건 아니다. 내가 잘해야 떠나지 않고, 그래야 내가 계속 살아갈 수 있다. 나는 계속 괜찮아지고 있으니 조금만 기다려달라하는 말도 얼마나 통할까. 그저 변명일 뿐이다..
-
Continual Learning (2)학교 수업/ADL 2023. 9. 21. 22:03
이전 편에서 continual learning의 개념과 세 가지 접근 방식들에 대해 설명했고, 지금부터는 각 접근 방식의 대표적인 방법들을 소개할 것이다. reference : Kirkpatrick et al., Overcoming catastrophic forgetting in neural networks, PNAS 2017 EWC (Elastic Weight Consolidation) - 어떤 nodes or weights가 중요한지 찾는다. - important nodes or weights에 high regularization을 준다. - stability에 초점이 맞춰져 있다. task A를 수행하는 모델의 parameter를 $\theta_A$라고 했을 때, parameter space of ..
-
Continual Learning (1)학교 수업/ADL 2023. 9. 21. 18:03
Backgrounds Continual Learning(CL)이 나타나게 된 배경은 Supervised Learning의 target task가 continually grow 하는 반면, Batch Learning을 하는 기존 학습 방법은 새로운 데이터를 업데이트하기가 쉽지않다. Batch Learning은 가지고 있는 모든 데이터를 사용해 훈련시키는 방법으로, 오프라인으로 이루어진다. Batch learning에서 새로운 데이터를 업데이트 할 때에는 이전 데이터를 포함해 전체 학습 데이터를 처음부터 다시 학습시키는 방법과 fine-tuning을 이용해 transfer하는 방법이 존재한다. Continual (Lifelong) Learning Scenarios Supervised Learning의 목표는..