ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Continual Learning (3)
    학교 수업/ADL 2023. 9. 26. 21:19

    오늘 수업은 사실 이해가 잘 안가서 일단 들은 내용을 적어보겠다. 이해가 안되는 내용은 따로 논문을 읽고 모르는 것은 교수님께 질문해서 글을 수정할 것이다. 저번 시간에는 EWC까지 했는데, 아직 $p(\theta|\mathcal{D})$가 왜 Prior가 될 수 있는지 모르기도 하고 $p(\theta|\mathcal{D})$를 구한 후 ${\theta}^*_{MAP,1:2} = \arg\min_{\theta}\{-\log p(\mathcal{D}_2|\theta)-\log p({\theta}|\mathcal{D}_1)\}$이 loss function으로 이어지는지 대충 그럴 것 같긴 한데 엄밀하게는 잘 모르겠다. 근데 찾아보면 금방 나올 것 같다. 

     

    아무튼 FIM은 regularization 역할을 하고 backpropagation을 통해 계산될 수 있으며 (?) ${(\theta_j - \theta^*_{1j})}^2$ 때문에 직전의 모델 파라미터 $\theta$가 필요하므로 두배의 메모리가 든다. 그리고 실험 결과로 RL에서 stability를 위해 forward transfer가 좋지 않은 점을 감수해야 한다는 점이 있었다. 

     

    그 다음 Regularization 방법 중 하나인 Synaptic Intelligence (SI)도 EWC와 비슷한 motivation을 가진다. 이번엔 important parameter를 찾는데에 update trajectory를 고려한다. loss shape을 jointly considering하여 two tasks의 small loss를 가지는 point를 발견했다고 하는데 무슨 말인지 모르겠다. 

     

    어쨌든 그 다음을 보면, update를 할 때 loss chage는 the amount each parameter contribute to the loss change의 합으로 볼 수 있고, learning에서 entire loss change를 적분하여 k번째 parameter가 learning task $/mu$에 대해서 loss change에 contribute한 정도를 구할 수 있다. 그리고 이걸 여기서는 importance measure로 사용한다. 

     

    EWC와 비슷하지만 SI는 entire learning trajectory를 고려했다고 하는데 무슨 말인지 모르겠다. 조금 생각해보면 답이 나올 것이다. 그리고 똑같은 점은 twice memory가 필요하다는 점이다. 그 외에 비슷한 Regularization Approaches에는 MAS와 RWalk가 있는데 교수님께 어떤 importance measure가 가장 좋은지 여쭤봤을 때 MAS가 성능이 좋다는 대답을 해주셨다. 

     

    그리고 Regularization approach는 사실 parameter의 importance를 알아야하므로 model compression과 유사한 부분이 있다. 여기서 사용한 방법들을 가지고 Pruning이나 Quantization에 적용할 수 있을까? 근데 그러면 Unstructured 방식이 될 것 같긴하다. 

     

    이번에는 교수님 연구실에서 나온 논문을 소개해주셨는데, 굉장히 재밌었다. 이전에 소개한 방법들은 전형적으로 weight-level regularization methods인데, AGS-CL은 node-level regularization method이다. 이전 방법들의 단점은 weight importance에 대한 regularization하는 term이 많은 메모리를 차지하고 model drift가 존재한다고 하는데 뭔지는 모른다.

     

    그래서 exact freezing과 negative transfer를 막는 node-level regularization이 AGS-CL이다. AGS-CL은 node based importance measure과 regularization을 하고 group sparse norm을 사용한다. 그리고 설명은 안해주셨지만 PGD를 사용한다. 아마 아까 말한 model drift는 task t-1에서는 중요했던 node? weight? 가 task t에서는 interference 때문에 negative transfer가 되는 경우를 말하는 것 같다. 

     

    Group sparsity 개념을 설명해주셨는데, 대충 알겠지만 찾아봐야할 것 같긴하다. L1 regularization은 $\theta$의 some elements를 exactly 0으로 만들고, L2 regularization은 $\theta$의 all elements를 0은 아니지만 0을 향해 줄어든다. 그래서 Group L1 regularization은 아직 잘 모르겠지만 L2 norm의 L1 norm은 group sparsity를 group level로 encourage한다. (??) 뭔소리지.. 어쨌든 L1 regularization을 사용해야 0이 되니까 L2 regularization으로 all elements를 0에 가깝게 만들고 그중 some elements를 exact 0 으로 만드는 걸 말하는 것 같다. 그리고 이 방법은 model compression에서 많이 사용한다. 

     

    subgradient와 PGD는 설명을 안하셨다. 아무튼 $\mathcal{g}^{t-1}_0$이라는 t-1 번째 task까지의 중요하지 않은 node의 group은(?) Group L1 regularization을 사용하여 sparse node로 만들고, adaptive regularization for node importance $\Omega^{t-1}_{n_\mathit{l}}$는 difference의 group norm $||\theta _{n_\mathit{l}} - \hat{ \theta _{n_\mathit{l}} }||$에 곱해지는데 수업때는 이해가 갔는데 지금은 까먹었다. group norm이 곱해진다는건 0으로 만든다는거고 중요한 노드들의 task간의 차이니까!!! 중요한 노드들의 task간의 차이를 0으로 만드는 regularization term인 것이다. 이제 생각났다. 

     

    그래서 결론은 exact freezing(exact freezing은 model drift가 없게 하는 건데 이거랑 무슨 상관이지? 아마 node level로 해서 그런 것 같은데 생각해봐야한다.)과 pruning을 한다. 그리고 중요하지 않은 노드만 저장하므로 weight level보다 메모리가 적게 든다. no additional threshold to tune은 무슨 말인지 모른다. 그리고 앞에 adaptively freeze도 약간 이해가 안가는데 왜 adaptive하지? 

     

    AGS-CL의 algorithm으로 Re-initializations를 소개하는데 이것도 좀더 생각해봐야겠다. 그리고 중요한 노드를 고르는 건 ReLU activation에서 0에 가까운 값들을 중요하지 않은 값들로 선택했다고 하는 것 같다. 근데 나는 이게 좋은 방법인지는 잘 모르겠다. 물론 대부분의 값들이 0인 activation은 크게 중요하진 않겠지만.. 음... 그런 노드가 많은가? 실험 결과에선 Pruning ratio가 50%까지 표시되어 있는데 AOPC가 점점 높아지는데 이게 뭔지 모르겠다. 찾아보면 된다. 그리고 sparsity에 대해 질문했었는데 교수님이 뭐라고 하셨는지 기억이 안난다. 

     

     

     

    '학교 수업 > ADL' 카테고리의 다른 글

    Self-Supervised Learning (2)  (1) 2023.10.19
    Self-Supervised Learning (1)  (0) 2023.10.12
    Continual Learning (4)  (0) 2023.10.06
    Continual Learning (2)  (0) 2023.09.21
    Continual Learning (1)  (0) 2023.09.21
Designed by Tistory.