분류 전체보기
-
[논문 리뷰] On Layer Normalization in the Transformer Architecture논문 스터디 2023. 9. 24. 17:14
Transformer에서 layernorm을 사용할 때 post-LN을 사용하면 warm up stage에서 hyper-parameter tuning에 시간을 많이 써야하는데 pre-LN을 사용했을 때 그렇지 않다는 내용이다. 사실 내용이 별게 없고 지금은 사용하지 않는 방법인데 여기서는 왜 pre-LN을 사용하고자 하는지, 이론적인 근거가 뒷받침되는지 살펴보자. Summary Abstracts를 읽어보면, 이 논문에서는 첫 번째로 이론적으로 왜 learning rate warm-up stage가 필수적인지와 layer normalization의 위치와의 관계를 보여준다. 구체적으로, post-LN의 initialization에서 mean field theory를 사용해 expected gradients..
-
[ADHD 환자의 일기] 9월 23일일기 2023. 9. 23. 17:41
다시 안정을 찾았다. 생리 일주일 전만 되면 왜 저러는지.. 호르몬이 날뛰나 보다. 약으로도 어떻게 안되는 날이다. 그런 날은 항상 무슨 일이 있던 없던 나의 세상이 흔들리는 날이다. 이성적인 사고는 하기가 힘들다. 내가 지금 가장 두려운 건 그때의 나로 돌아가는 것이다. 그래서 호르몬이 날뛰는 날 그때를 회상하고 슬퍼하게 된다. 이제는 방법을 알고있지만 알고있다고 해결되는 건 아니니까.. 주변 사람들을 힘들게 하고 싶지 않은데, 여전히 힘들게 하고 있다. 이렇게 하면 떠나게 될 걸 알면서도 떼쟁이가 된다. 확신을 받는다고 해서 떠나지 않는 건 아니다. 내가 잘해야 떠나지 않고, 그래야 내가 계속 살아갈 수 있다. 나는 계속 괜찮아지고 있으니 조금만 기다려달라하는 말도 얼마나 통할까. 그저 변명일 뿐이다..
-
Continual Learning (2)학교 수업/ADL 2023. 9. 21. 22:03
이전 편에서 continual learning의 개념과 세 가지 접근 방식들에 대해 설명했고, 지금부터는 각 접근 방식의 대표적인 방법들을 소개할 것이다. reference : Kirkpatrick et al., Overcoming catastrophic forgetting in neural networks, PNAS 2017 EWC (Elastic Weight Consolidation) - 어떤 nodes or weights가 중요한지 찾는다. - important nodes or weights에 high regularization을 준다. - stability에 초점이 맞춰져 있다. task A를 수행하는 모델의 parameter를 $\theta_A$라고 했을 때, parameter space of ..
-
Continual Learning (1)학교 수업/ADL 2023. 9. 21. 18:03
Backgrounds Continual Learning(CL)이 나타나게 된 배경은 Supervised Learning의 target task가 continually grow 하는 반면, Batch Learning을 하는 기존 학습 방법은 새로운 데이터를 업데이트하기가 쉽지않다. Batch Learning은 가지고 있는 모든 데이터를 사용해 훈련시키는 방법으로, 오프라인으로 이루어진다. Batch learning에서 새로운 데이터를 업데이트 할 때에는 이전 데이터를 포함해 전체 학습 데이터를 처음부터 다시 학습시키는 방법과 fine-tuning을 이용해 transfer하는 방법이 존재한다. Continual (Lifelong) Learning Scenarios Supervised Learning의 목표는..
-
[논문 리뷰] Understanding and Improving Layer Normalization논문 스터디 2023. 9. 21. 17:44
수업에 리뷰하는 과제가 있어서 정리할 겸 올린다. 그리고 개인적으로 수업을 듣고 Layer Normalization이 궁금하기도 했다. 비판적으로 읽어야 하는데 어떻게 읽으면 좋을까? Abstract Layer Normalization은 intermediate layers의 distribution을 normalization하는 technique이다. 이는 smoother gradients, fast training, better generalization accuracy를 가능케 하는데 어디서 나온 말인지는 모르겠다. 이건 좀 알아봐야 할 것 같다. 그러나 Batch Normalization이 그렇듯 왜 그렇게 되는가는 아직 unclear하다. 이전의 연구들에서 Layer Normalization은 fo..
-
[ADHD 환자의 일기] 9월 15일일기 2023. 9. 16. 02:25
오늘은 뭐라도 쓰고싶은데, 들키고 싶지 않은 날이다. 두 개나 잃어버렸다. 하나는 소중했던 것, 하나는 소중한 것이었다. 내가 앞으로 이 두 개가 없이 지금처럼 지낼 수 있는지.. 모르겠다. 어쩌면 다시 시작될지도 모른다. 엄지 손가락이 아프다. 신기한 건 그런 사람들이 많지는 않은 것 같다. 그리고 영원히 나을 수 없을 것이다. 나는 예민한 사람이다. 내가 예민한 사람이었을 줄이야. 그리고 너는 나만큼은 예민하지 않았을 줄이야. 조금 무기력해진다. 상실감이 조금 있다. 그렇게 잃어버리고도 또 잃어버린다. 다시 바다에 빠지게 될까? 두려운데 거기 누구 아무도 없나. 아무도 없다. 나는 사실 꽁꽁 싸매고 다녔다. 아무도 몰랐겠지만. 나는 대체..
-
[논문리뷰] Do Bayesian Neural Networks Need To Be Fully Stochastic?논문 스터디 2023. 9. 15. 12:32
어디까지나 뇌피셜인 블로그 reference : https://arxiv.org/pdf/2211.06291.pdf 논문 스터디 중 친구가 들고온 논문으로, Bayesian Neural Network 논문을 몇 개 읽긴 했지만 아직 코드 레벨로 보진 않았는데 구체적으로 어떻게 구현되는지 궁금해지게 만드는 논문이었다. 그래서 Partially Stochastic Bayesian Neural Network 논문들을 읽기 전에 왜 Fully Stochastic BNN이 필요하지 않은지부터 알아보려 한다. Introduction
-
[ADHD 환자의 일기] 9월 13일일기 2023. 9. 13. 22:39
오늘도 끝나간다. 뭘했는지 모르는 뒤죽박죽 하루였다. 할 일들을 정리해야겠다. 어제는 수영에 조금 재미를 붙였다. 내일은 어떨지 모르지만.. 아침에 일찍 일어났다. 며칠전까지만 해도 하루종일 잠만잤었는데. 앞으로도 오늘처럼 일어나고싶다. 연구실에서 사람들이 뒷말을 하고 나에게 살아있었냐고 한다. 왜 그렇게 남일에 관심이 많은지. 물론 그들에겐 그냥 가십거리처럼 느껴지겠지만 그 대상이 된 나에게는 좀 부담스러운 관심일 뿐이다. 여전히 수업 내용은 귀에 들어오지 않는다. 내가 이상한 건가? 그쪽 도메인의 사람들이라면 잘 알 것 같긴하다. 나도 그쪽으로 가고싶다. 여러모로.. 참 다양한 사람들이 열심히도 사는 것 같다. 그걸 보는 나는 반성을 하기도, 안타까워하기도 한다. 좀 놀면 어때서? 하지만 그들이 성취..