논문/리뷰

[ NLP ] The Impact of Debiasing on the Performance of Language Models inDownstream Tasks is Underestimated | Review

쏘오금 2024. 7. 17. 14:21

 

어제 올린게 편향을 직접적으로 마주하고 Downstream tesk에서 어떻게 발현되는지 였는데.

오늘은 편향을 삭제하고 아니고에 따라서 Downstream tesk에서 어떻게 성능 차이가 알아보는 논문입니다.

ACL 2023 shorts paper 부분에 개제된 논문으로 내가 하고 있는 연구에 희망을 봤달까...

이것도 급하게 정리한거라 정리가 영 맘에 안들어서 일단 개제하고 다음으로 미룰예정

이미지를 누르면 사이트로

 

 

논문 "The Impact of Debiasing on the Performance of Language Models in Downstream Tasks is Underestimated"는 편향 제거가 언어 모델의 성능에 미치는 영향을 다룸. 같은 해에 같은 학회에서 편향에 대한 이야기가 두번이나 다뤄졌음. 서치하다 발견했는데 어제 발표랑 이어서 들으면 좋을것 같아서 가져옴.

이 논문은 사회적 편향을 학습한 pretrained LM의 편향을 제거하는 다양한 방법을 제안하고, 이를 평가하기 위한 벤치마크 데이터셋이 실제로 사회적 편향과 관련된 데이터를 포함하는지에 대해 논의함.

1. 서론

사전 학습된 언어 모델(PLM)인 BERT와 RoBERTa는 대규모 데이터에서 학습된 사회적 편향을 포함하고있음.

\이 같은 모델들을 위해 다양한 편향 제거 방법이 제안되었으나, 실제로 유용한 정보가 보존되는지 여부는 다운스트림 작업의 성능을 확인해야함. 기존 연구의 연구들은 벤치마크 데이터셋이 사회적 편향과 관련된 데이터를 포함하는지 여부에 대한 적절성을 충분히 고려하지 않음.

\이 논문은 편향 중에서도 성별 관련 편향을 포함하는 데이터에 얼마나 영향을 받는지에 대해 연구.

  • 표 1: GLUE 벤치마크 개발 데이터에서 여성, 남성, 직업 관련 단어를 포함하는 인스턴스의 총 수

2. 연구 방법

  • 2.1 편향 제거 방법 (Debiasing Methods)
  1. 성별 단어를 교환하는 Counterfactual Data Augmentation (CDA) 방법, 예를 들어, "She is a nurse"를 "He is a nurse"로 바꿔서 훈련 데이터셋에 추가. 이렇게 하면 여성과 남성 단어의 빈도가 동일해지면서 편향이 감소.

r값(편향 제거 비율) Counterfactual Data Augmentation (CDA) 방법을 통해 성별 관련 대명사를 교환하는 비율

  • 데이터셋: , GLUE 벤치마크 데이터셋 중 하나를 사용할 수 있음.
  • 성별 관련 단어 리스트: 성별 관련 단어(예: "she", "he", "woman", "man")를 포함하는 리스트를 준비. 논문에서는 Kaneko와 Bollegala(2021)가 제안한 단어 리스트를 사용함.
    • r값은 0에서 1 사이의 값으로 설정. r = 0.1, 0.2, ..., 1.0과 같이 0.1 단위로 증가시킬 수 있음
    • r값은 데이터셋의 총 인스턴스 수(N) 중에서 성별 관련 대명사를 교환할 인스턴스의 비율을 나타냄
    3. Counterfactual Data Augmentation (CDA) 적용
    • 각 r값에 대해 다음 단계를 수행
      • 데이터셋에서 성별 관련 단어를 포함하는 인스턴스를 식별.
      • r × N 비율만큼의 인스턴스를 무작위로 선택
      • 선택된 인스턴스에서 성별 관련 대명사를 교환. EX, "She is a nurse"를 "He is a nurse"로 교환.
    1. 드롭아웃 정규화를 사용하는 Dropout 방법 편향 완화: 특정 성별 관련 단어나 패턴에 대한 의존성을 줄여 편향을 완화
    2. 토큰 또는 문장 수준에서 성별 관련 편향을 제거하는 Context debiasing 방법Context Debiasing의 기본 원리
      1. 성별 관련 단어 목록 준비: 편향을 제거할 성별 관련 단어 목록을 준비
        .EX, "she", "he", "woman", "man" 등의 단어를 포함
      2. 성별 벡터 추출: 언어 모델에서 성별 관련 단어들의 임베딩 벡터를 추출
      3. 직교화(Orthogonalization): 성별 관련 벡터를 제거하기 위해 임베딩 벡터에서 성별 정보를 직교화
        (직접적으로 연결해 벡터 정보를 독립화 시킨단 말인가?)
      4. 이를 통해 성별 정보가 포함된 벡터가 다른 정보와 독립되도록 만듦.
      5. 재학습(Fine-tuning): 편향이 제거된 벡터를 사용하여 모델을 재학습.
    3. Context debiasing 방법은 다음과 같은 단계로 이루어집니다:
    4. 성별 정보와 관련된 벡터를 직교화하여 제거하는 방식입니다.
  • 2. r값 설정
  • 2.2 실험 설정 (Settings)
  • 주로 BERT(bert-base-cased) 모델을 사용
  • 데이터셋: GLUE 벤치마크의 다양한 데이터셋(CoLA, MNLI, MRPC 등)을 사용
  • 평가: 각 데이터셋에서 여성, 남성, 직업 관련 단어를 포함하는 인스턴스를 추출하여 원본 모델과 편향 제거 모델 간의 성능 차이를 비교
  • 2.3 원본 vs. 편향 제거 모델의 성능 (Performance of Original vs. Debiased Models)
  • 표 2: 각 데이터셋/작업에서 원본 모델과 편향 제거 모델 간의 성능 차이를 보여줌. 편향 제거 모델이 여성, 남성, 직업 관련 데이터에서 원본 모델보다 성능이 더 나쁜 경우가 많음
  • 2.4 편향 제어 방법 (Debias Controlled Method)
  • 그림 1: 원본 모델과 편향 제거 모델의 성능 차이를 r 값(편향 제거 비율)에 따라 나타내봄. r 값(편향 제거 비율)이 증가할수록 성능 차이가 커짐을 보여줌.

3. 실험 결과의 의미

표 1과 2를 통해 각 데이터셋에서 여성, 남성, 직업 관련 단어가 포함된 인스턴스의 수와 편향 제거 전후의 성능 차이를 봄. 편향 제거가 전체 데이터셋에서 평가될 때는 성능 차이가 작게 나타나지만, 성별 및 직업 관련 인스턴스에서는 성능 차이가 크게 나타남

  • 편향 제거와 성능 저하: 편향 제거가 전체 데이터셋에서는 성능 저하를 일으키지 않지만, 성별 및 직업 관련 단어가 포함된 인스턴스에서는 성능 저하가 나타남. 이는 편향 제거가 필요한 경우와 그렇지 않은 경우를 구분하여 평가할 필요성이 있음을 보여줌.
  • 편향 제어 방법의 유효성: r 값(편향 제거 비율)을 조정하여 편향 제거의 정도를 제어할 수 있는 방법을 제안함으로써, 편향 제거와 성능 저하 간의 상관관계를 보다 명확히 평가할 수 있다고?.

4. 결론

기존의 편향 제거 평가 방법은 편향 제거 효과를 과소평가하고 있음을 발견할 수 있었음. (편향이 제거 됨으로 오는 효과가 너무 큼, 좋다는거 아님) 따라서 편향 제거의 영향을 보다 신뢰성 있게 평가하기 위해서는 특정 성별 관련 단어를 별도로 고려하여 평가해야 한다고 제안.(본인들이 실험한게 그거라서 그런거 아님?)

이 연구 방법을 통해 편향 제거가 언어 모델의 성능에 미치는 영향을 보다 체계적으로 평가할 수 있었으며, 편향 제거의 영향을 과소평가하는 기존 평가 방법의 한계를 드러냄.

5. 윤리적 고려사항

이 연구는 새로운 편향 제거 방법이나 데이터셋을 제안하지 않고 기존 방법과 데이터셋을 사용함. 따라서 PLM의 편향을 평가할 때는 StereoSet, Crowds-Pairs, All Unmasked Likelihood 등의 평가 방법을 사용할 필요가 있음. 이진 성별에만 초점을 맞추었으며, 비이진 성별에 대한 편향 제거의 유효성을 추가로 검토할 필요가 있음.

  • 그림 2: Fraction Neutra (FN) 평가 방법을 사용하여 각 편향 제어 모델의 편향 점수를 보여줌. r 값이 증가할수록 편향 점수가 낮아짐을 보임.

FN 평가 방법이 편향 제거의 유효성을 검증하는 데 사용 주어진 문맥에서 성별 관련 편향을 측정

  • 전제와 가설 문장 생성: 전제(premise) 문장과 성별 관련 단어가 포함된 가설(hypothesis) 문장을 생성
    ex, 전제 문장은 "The driver owns a cabinet."이고, 가설 문장은 "The man owns a cabinet.".
  • 편향 측정: 모델이 전제와 가설 쌍을 입력으로 받았을 때, 중립적(Neutral) 레이블을 얼마나 자주 예측하는지를 측정.
    • FN 방법은 모델이 편향되지 않은 중립적인 판단을 얼마나 자주 내리는지를 평가.
      높은 중립 레이블 예측 비율은 편향이 적음을 의미.