ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [논문 리뷰] Understanding and Improving Layer Normalization
    논문 스터디 2023. 9. 21. 17:44

    수업에 리뷰하는 과제가 있어서 정리할 겸 올린다. 그리고 개인적으로 수업을 듣고 Layer Normalization이 궁금하기도 했다. 비판적으로 읽어야 하는데 어떻게 읽으면 좋을까?

     

    Abstract

     

    Layer Normalization은 intermediate layers의 distribution을 normalization하는 technique이다. 이는 smoother gradients, fast training, better generalization accuracy를 가능케 하는데 어디서 나온 말인지는 모르겠다. 이건 좀 알아봐야 할 것 같다. 그러나 Batch Normalization이 그렇듯 왜 그렇게 되는가는 아직 unclear하다. 이전의 연구들에서 Layer Normalization은 forward normalization이 공헌하는 바가 크다고 했는데, 직관적으로 내가 생각하기에도 그렇다. 그렇지 않다면 normalize를 할 이유는 없기 때문이다. 하지만 본 논문에서는 backward gradients의 re-centering과 re-scaling에 의해 derivaties of the mean and variance가 forward normalization보다 중요하다고 한다. 더 나아가 LN의 bias와 gain 역시 overfitting의 risk를 증가시킨다고 주장한다. 이제부터 논문을 살펴보자. 

     

    Summary

    neural network training이 deep learning 연구분야에서 주목 받아오면서, normalization methods는 prominent progress를 가져온 방법중 하나이다. Batch Normalization은 layer inputs의 mean and variance를 controlling 하며 distribution을 stabilize하고 training efficiency를 향상시킨다며 주장되었다(사실이 아님. 다음 문단에서 반박됨.). 그러나 sequential한 data를 처리하는 RNN의 경우에는 Batch Norm을 적용하기는 어렵다. 그 이유는 #???# 이다. Layer Norm은 RNN과 self-attention-based models에 adative하여 Transformer에서 faster training을 가능하게 했다. 

     

    하지만 Layer Norm이 왜 effective한지는 unclear하다. 직관적으로나 이때의 widely accepted explanation이나 forward normalization이 distribution stability를 가져온다고 생각되었지만, 이 당시의 다른 연구에서 Batch Norm이 input distribution의 stability와 연관이 없다는 것을 보여주었다. 또한 optimization landscape을 smoothing하는 이유를 제안했다고 한다. 이 논문은 나중에 읽어보겠다. 하지만 일단 이건 Batch Norm 이야기이고 Layer Norm이 왜 효과가 있는지는 여전히 unclear하다. 

     

    이 논문에서는 Layer Norm을 통해 derivates of the mean and variance가 re-centering and re-scaling backward gradients하기 때문에 effective하다고 제안한다. 그러니까 이 논문에서 얘기하고 싶은 건 두 가지이다. (1) forward normalization보다 derivatives of the mean and variance가 더 중요하다는 것과 (2) Layer Norm의 bias와 gain이 오히려 over-fitting의 risk를 향상시킬 수 있고 대부분의 경우 working하지 않는다는 것이다. 

     

    (1) forward normalization보다 derivatives of the mean and variance가 더 중요하다

    본 논문에서 수행한 실험들은 forward normalization은 input distribution을 stable하게 만드는 데에 거의 기여하지 않고, derivates of the mean and variance가 상당한 역할을 한다는 점을 보여준다. 이 주장을 뒷받침하는 실험은 Layer Norm의 mean과 variance를 constants로 만드는 Detach Norm을 통해 Layer Norm이 forward normalization만 수행하게 했을 때 input distribution이 stable한지 이다. 결론은 아니었다. mean and variance가 learning parameter일 때 보다 훨씬 성능이 떨어졌다. 따라서 derivates of means가 gradients를 re-center하고 derivates of gradients가 re-scale한다는 것이 밝혀졌다. 

    (2) Layer Norm의 bias와 gain이 오히려 over-fitting의 risk를 향상시킬 수 있고 대부분의 경우 working하지 않는다

    bias와 gain은 distribution을 re-shaping하여 expressive power를 enhance하기를 기대하면서, normalized vector의 affine transformation에 적용되었다. 이 논문에서는 bias와 gain의 유효성을 의심하면서 bias와 gain을 제거한 LN-simple을 만들어 4개의 데이터셋에서 실험했고, 그 결과 그 당시 En-Vi machine translation에서 SOTA를 달성했다. LN과 LN-simple의 loss curve를 비교해보면, training error는 LN이 더 높은데, validation error는 LN이 더 낮다. 이 실험 결과를 통해 bias와 gain이 오히려 over-fitting을 유발한다는 사실을 알 수 있다. 물론 근소한 차이이며 모든 데이터셋과 task의 실험 결과에서 이렇게 나왔는지는 모르겠다.  

    따라서 저자들이 제안하는 AdaNorm은 fixed값인 bias와 gain 대신 $\phi(y)$로 input에 대해 scaling weights를 adaptively adjust 할 수 있도록 한다. training의 stability를 위해서 $\phi(y)$가 differentiable하고, average scaling weight는 fixed 되도록 한다. 또한 loss를 exploding하지 않기 위해 normalized output인 z의 average는 bounded 된다. AdaNorm과 LayerNorm의 실험 결과 근소한 차이지만 AdaNorm이 좀더 좋은 결과가 있었고 training loss와 validation loss를 비교해봤을 때 AdaNorm이 좀더 lower validation loss를 보여준다. 

    Strengths

    강점이라..  간단한 실험으로 이런 insight를 얻었다는 점이 강점이라고 생각한다. 

    Weaknesses

    forward normalization보다 derivatives of mean and variance가 더 중요하다는 것과 LN의 bias and gain이 over-fitting을 야기할 수도 있다는 주장을 뒷받침하는 근거가 좀 부족하다고 생각한다.LayerNorm-simple과 DetachNorm만 비교할게 아니라 LayerNorm도 Table 2와 Figure 2에 있어야 한다. 아마도 DetachNorm과 더 근소한 차이라서 표기를 안한게 아닐까? 또한 training error가 좀더 높고 validation loss가 좀더 낮다고 해서 over-fitting이라고 할 수 있을까? 그래프로는 그렇게 보이지만 모든 결과에서 그런 것도 아니고 차이가 너무 작아서 신뢰하기 어렵다. 그리고 AdaNorm보다 LayerNorm이 아직도 널리쓰이는 이유는 AdaNorm이 크게 좋은 성과를 내진 않았기 때문인 것 같다. 

    My idea

    모르겠다.. 

     

Designed by Tistory.