분류 전체보기
-
Continual Learning (3)학교 수업/ADL 2023. 9. 26. 21:19
오늘 수업은 사실 이해가 잘 안가서 일단 들은 내용을 적어보겠다. 이해가 안되는 내용은 따로 논문을 읽고 모르는 것은 교수님께 질문해서 글을 수정할 것이다. 저번 시간에는 EWC까지 했는데, 아직 $p(\theta|\mathcal{D})$가 왜 Prior가 될 수 있는지 모르기도 하고 $p(\theta|\mathcal{D})$를 구한 후 ${\theta}^*_{MAP,1:2} = \arg\min_{\theta}\{-\log p(\mathcal{D}_2|\theta)-\log p({\theta}|\mathcal{D}_1)\}$이 loss function으로 이어지는지 대충 그럴 것 같긴 한데 엄밀하게는 잘 모르겠다. 근데 찾아보면 금방 나올 것 같다. 아무튼 FIM은 regularization 역할을 하고..
-
[논문 리뷰] On Layer Normalization in the Transformer Architecture논문 스터디 2023. 9. 24. 17:14
Transformer에서 layernorm을 사용할 때 post-LN을 사용하면 warm up stage에서 hyper-parameter tuning에 시간을 많이 써야하는데 pre-LN을 사용했을 때 그렇지 않다는 내용이다. 사실 내용이 별게 없고 지금은 사용하지 않는 방법인데 여기서는 왜 pre-LN을 사용하고자 하는지, 이론적인 근거가 뒷받침되는지 살펴보자. Summary Abstracts를 읽어보면, 이 논문에서는 첫 번째로 이론적으로 왜 learning rate warm-up stage가 필수적인지와 layer normalization의 위치와의 관계를 보여준다. 구체적으로, post-LN의 initialization에서 mean field theory를 사용해 expected gradients..
-
[ADHD 환자의 일기] 9월 23일일기 2023. 9. 23. 17:41
다시 안정을 찾았다. 생리 일주일 전만 되면 왜 저러는지.. 호르몬이 날뛰나 보다. 약으로도 어떻게 안되는 날이다. 그런 날은 항상 무슨 일이 있던 없던 나의 세상이 흔들리는 날이다. 이성적인 사고는 하기가 힘들다. 내가 지금 가장 두려운 건 그때의 나로 돌아가는 것이다. 그래서 호르몬이 날뛰는 날 그때를 회상하고 슬퍼하게 된다. 이제는 방법을 알고있지만 알고있다고 해결되는 건 아니니까.. 주변 사람들을 힘들게 하고 싶지 않은데, 여전히 힘들게 하고 있다. 이렇게 하면 떠나게 될 걸 알면서도 떼쟁이가 된다. 확신을 받는다고 해서 떠나지 않는 건 아니다. 내가 잘해야 떠나지 않고, 그래야 내가 계속 살아갈 수 있다. 나는 계속 괜찮아지고 있으니 조금만 기다려달라하는 말도 얼마나 통할까. 그저 변명일 뿐이다..
-
Continual Learning (2)학교 수업/ADL 2023. 9. 21. 22:03
이전 편에서 continual learning의 개념과 세 가지 접근 방식들에 대해 설명했고, 지금부터는 각 접근 방식의 대표적인 방법들을 소개할 것이다. reference : Kirkpatrick et al., Overcoming catastrophic forgetting in neural networks, PNAS 2017 EWC (Elastic Weight Consolidation) - 어떤 nodes or weights가 중요한지 찾는다. - important nodes or weights에 high regularization을 준다. - stability에 초점이 맞춰져 있다. task A를 수행하는 모델의 parameter를 $\theta_A$라고 했을 때, parameter space of ..
-
Continual Learning (1)학교 수업/ADL 2023. 9. 21. 18:03
Backgrounds Continual Learning(CL)이 나타나게 된 배경은 Supervised Learning의 target task가 continually grow 하는 반면, Batch Learning을 하는 기존 학습 방법은 새로운 데이터를 업데이트하기가 쉽지않다. Batch Learning은 가지고 있는 모든 데이터를 사용해 훈련시키는 방법으로, 오프라인으로 이루어진다. Batch learning에서 새로운 데이터를 업데이트 할 때에는 이전 데이터를 포함해 전체 학습 데이터를 처음부터 다시 학습시키는 방법과 fine-tuning을 이용해 transfer하는 방법이 존재한다. Continual (Lifelong) Learning Scenarios Supervised Learning의 목표는..
-
[논문 리뷰] Understanding and Improving Layer Normalization논문 스터디 2023. 9. 21. 17:44
수업에 리뷰하는 과제가 있어서 정리할 겸 올린다. 그리고 개인적으로 수업을 듣고 Layer Normalization이 궁금하기도 했다. 비판적으로 읽어야 하는데 어떻게 읽으면 좋을까? Abstract Layer Normalization은 intermediate layers의 distribution을 normalization하는 technique이다. 이는 smoother gradients, fast training, better generalization accuracy를 가능케 하는데 어디서 나온 말인지는 모르겠다. 이건 좀 알아봐야 할 것 같다. 그러나 Batch Normalization이 그렇듯 왜 그렇게 되는가는 아직 unclear하다. 이전의 연구들에서 Layer Normalization은 fo..
-
[ADHD 환자의 일기] 9월 15일일기 2023. 9. 16. 02:25
오늘은 뭐라도 쓰고싶은데, 들키고 싶지 않은 날이다. 두 개나 잃어버렸다. 하나는 소중했던 것, 하나는 소중한 것이었다. 내가 앞으로 이 두 개가 없이 지금처럼 지낼 수 있는지.. 모르겠다. 어쩌면 다시 시작될지도 모른다. 엄지 손가락이 아프다. 신기한 건 그런 사람들이 많지는 않은 것 같다. 그리고 영원히 나을 수 없을 것이다. 나는 예민한 사람이다. 내가 예민한 사람이었을 줄이야. 그리고 너는 나만큼은 예민하지 않았을 줄이야. 조금 무기력해진다. 상실감이 조금 있다. 그렇게 잃어버리고도 또 잃어버린다. 다시 바다에 빠지게 될까? 두려운데 거기 누구 아무도 없나. 아무도 없다. 나는 사실 꽁꽁 싸매고 다녔다. 아무도 몰랐겠지만. 나는 대체..
-
[논문리뷰] Do Bayesian Neural Networks Need To Be Fully Stochastic?논문 스터디 2023. 9. 15. 12:32
어디까지나 뇌피셜인 블로그 reference : https://arxiv.org/pdf/2211.06291.pdf 논문 스터디 중 친구가 들고온 논문으로, Bayesian Neural Network 논문을 몇 개 읽긴 했지만 아직 코드 레벨로 보진 않았는데 구체적으로 어떻게 구현되는지 궁금해지게 만드는 논문이었다. 그래서 Partially Stochastic Bayesian Neural Network 논문들을 읽기 전에 왜 Fully Stochastic BNN이 필요하지 않은지부터 알아보려 한다. Introduction