논문/리뷰

[NLP] From Pretraining Data to Language Models to Downstream Tasks:Tracking the Trails of Political Biases Leading to Unfair NLP Models | Review

쏘오금 2024. 7. 16. 02:54

이러다 마지막 리뷰로부터 1년이 지나게 생겨서 내일 세미나에서 리뷰할 논문에 대한 간단한 리뷰를...

ACL 2023 longpaper에서 BEST Paper로 뽑힌 논문입니다.

NLP 모델들의 정치 성향 습득을 corpus에 대한 분석으로 잘 알려주는 논문

엄청난 실험량을 리뷰에 담아내기 한계가 있었음으로 직접 보는것을 매우 강추합니다.

올해 ACL 2024도 어떤 좋은 논문이 나올지 기대가 되네용.

내용 정리

Abstract LM은 뉴스, 토론 포럼, 책, wikipedia 등 다양한 데이터 소스에 대해서 pretrained. 오픈 소스의 특성상 데이터 전반에 상당한 사회적 편향이 담김(민주주의 아이디어를 찬양하면서도 편향된 의견이 같이 담김) 저자들은

이런 corpus로 훈련한 LM의 정치적 편견을 측정
정치적으로 편향된 LM에 훈련된 다운스트림 NLP 모델의 공정성을 측정하는 방법 개발(새롭게) 저자들의 목표는 정치적 편향의 영향을 정량화하는 것. & 증오심 표현 및 잘못된 정보 감지에 중점. 연구 결과는 pretrained lm은 pretrained에 존재하는 양극화 현상을 강하게 만들고 증오심 표현 예측과 잘못된 정보를 감지하는 부분에 있어서 사회적 편견을 전파하는 정치적 성향을 가지고 있음이 밝혀짐.

Introduction 디지털 및 소셜 미디어는 주요 정치 소식의 확산 경로이기 때문에 다양한 가치관과 사상을 가진 참여자가 토론을 나누고 편견을 공유하는 자리임. 이러한 대화내용(언어)는 LM의 pretrained corpus의 중요한 부분을 구성하게 되고 이런 편견을 하위 모델로 전달함. 이 연구에서는

사전 훈련 데이터에서 LM의 정치적 편향을 측정.
정치적 편향이 하위 NLP 모델의 공정성에 미치는 영향을 측정하는 새로운 방법 개발. 이러한 작업은 주로 감지에 쉬운 혐오 발언, 허위 정보를 감지하는 작업에 중점을 두고 개발했다고 함.

Methodology 두단계의 방법론 제안.

정치학 문헌에 기반하여 pretrained 언어 모델의 정치적 성향을 측정하는 프레임워크 개발. : 정치적 성향을 측정하고자 특정 정치적 주제에 대한 LM들의 반응 평가.

정치 성향 테스트: 정치적 성향을 평가하기 위해 사전 훈련된 언어 모델 사용.
정치적 성향은 뉴스 기사나 소셜 미디어 게시물 등의 데이터에서 추출한 정치적 진술을 통해서 측정 하였음.

→ 기존의 연구들은 정치적 인물에 관해 집중하였으나 정치과학 문헌에 기반해 이념적 쟁점을 다루어 언어 모델(LM)의 정치적 성향을 측정 Eysenck(1957- 성격이론 특성), Rokeach(1973 - 가치측정), Gindler(2021 - How and Why Fascism and Nazism Became the "Right")의 정치 스펙트럼 이론을 사용 사회적 가치(자유주의, 보수주의)와 경제적 가치(우파, 좌파)를 두 축으로 평가 62개의 정치적 진술에 대한 동의 수준을 분석하여 개인의 성향을 측정하는 정치 컴퍼스 테스트를 활용

-인코더 전용 모델의 경우는 마스크 채우기 방식으로 프롬포트 구성, 모델이 생성한 단어 확률을 비교해 모델 수준 평가.

언어 생성 모델의 경우 진술에 대한 응답을 생성하게 하고 이를 정치적 입장 탐지기로 분석해 동의 여부 결정

이러한 성향이 하위 사회 지향적 작업에 미치는 영향 조사. : LMs의 정치적 성향이 다운스트림 테스크( EX. 혐오 발언 및 허위 정보 감지) 에 미치는 영향 분석

후속 작업(훈련): 정치적 성향이 포함된 데이터를 사용하여 LMs를 후속 훈련 시킴.

****** 표2. 후속 훈련된 LMs의 성능 변화를 보여줄 것

Experiment Settings
14개의 언어 모델(BERT, RoBERTa, GPT-3 등)으로 평가. 정치적 성향을 반영한 여러 corpus(뉴스와 소셜 미디어 데이터)로 후속 훈련함. 하위 작업 데이터 셋으로 혐오 발언 및 허위 정보 감지 데이터 셋을 사용 (그게 뭔디)

데이터 셋 : 다양한 데이터 셋을 사용하여 LMs를 평가.

뉴스 데이터 셋 : 정치적 성향을 반영하는 뉴스가
소셜 미디어 데이터 셋: 사용자 생성 콘텐츠에서 정치적 성향을 추출

평가 방법: 혐오 발언 및 허위 정보 감지 작업을 통해 LMs의 성능 평가. ** 표 3. 에서 결과 보자

Downstream Task Datasets

증오심 표현과 잘못된 정보 탐지라는 두가지 작업에 대해 모델의 정치적 편견과 다운스트림 테스크 사이의 연관성 조사.

방식

RoBERTa에 REDDIT-LEFT, REDDIT-RIGHT, NEWS-LEFT 및 NEWS-RIGHT corpus로 사전 훈련 후 네가지 작업에 대한 결과 평가할 것..

데이터 셋

증오심 표현 탐지를 위함 : HATE-IDENTITY와 HATEDEMOGRAPHIC 잘못된 정보 탐지를 위함 : 뉴스기사 출처도 포함하는 PolitiFact

표 1: 채택된 다운스트림 작업 데이터세트의 통계

Results and Analysis pretrained 다양한 LMs은 서로 다른 정치적 성향을 보임. 정치적 성향이 있는 LM은 다운스트림 테스크에서도 각기 다른 행동을 보였으며, 특정 사회적 그룹에 대해 불공정한 예측을 초래할 가능성이 있음.

정치적 성향 분석 결과: 다양한 LMs의 정치적 성향을 비교함. 설명 4.1 (Political Bias of Language Models) 정치적 편향은 LMs에서 하위 작업으로 전파되기 때문에 향후 NLP 연구에 중요한 영향을 미침. 설명 4.2. (Political Leaning and Downstream Tasks)
정치적 성향과 Downstream Tasks: 정치적 성향이 하위 작업에 미치는 영향을 분석.

Political Leanings of Pretrained LMs 그림. 1 : LMs의 정치적 성향을 시각적으로 나타낸 그래프 섹션 2.1에서 제안된 프레임워크를 사용하여 사회적 점수와 경제적 점수에 매핑.
사전 훈련된 LM은 경제적 문제(x축)에 비해 사회적 문제(y축)에 대해 더 강한 편향을 나타냄.

폴리티컬 컴퍼스 테스트입니다. 이 테스트는 62개의 정치적 문장에 대한 응답을 분석하여 개인의 성향을 두 차원 공간(사회 점수와 경제 점수)으로 매핑합니다. 참가자들은 각 문장에 대해 동의 수준을 표시하고, 이를 통해 사회적 점수와 경제적 점수를 계산합니다. 이 논문에서는 이 테스트를 사용하여 사전 학습된 언어 모델의 정치적 성향을 측정합니다

정치 나침반의 4개 사분면을 모두 차지하면서 다양한 이데올로기적 성향을 나타냄.
일반적으로 LM의 BERT 변형 모델은 GPT 모델 변형 모델에 비해 사회적으로 더 보수적(권위주의적).

BERT 가 학습한 copus BookCorpus가 GPT보다 구식이기 때문이라 판단.

또한 GPT-3 이상부터는 인간 피드백 데이터를 사용해 강화학습을 했기 때문일 수도있음.

동일한 모델군 ALBERT 및 BART의 다양한 크기가 정치적 성향에서 무시할 수 없는 차이를 가짐.

LMs의 정치적 성향을 평가하기 위한 프레임워크와 정치적 성향을 측정하기 위한 테스트 설명.

표 2. : 정치적 진술에 대한 세 가지 사전 훈련된 LM의 반응을 보여줌. ~~사전 훈련된 LM은 경제적 문제(x축)에 비해 사회적 문제(y축)에 대해 더 강한 편향을 나타냄.~~

파란색 셀은 정치적 제안에 대한 동의를 나타내고 빨간색 셀은 반대를 나타냅니다.

세 가지 사전 학습된 언어 모델(GPT-2, GPT-3 Ada, GPT-3 Davinci)이 정치적 발언에 어떻게 응답하는지를 비교합니다.

~~사회 및 경제 문제의 평균 규모는 각각 2.97과 0.87이며 표준 편차는 1.29와 0.84임~~ → pretrained LM이 사회 문제에 관한 가치관에 있어 더 큰 불일치를 보인다는 것을 의미. 이게 가능한 이유는 소셜 미디어에서 사회 문제에 대한 논의가 경제문제에 대한 논의보다 더 활발히 이뤄지기 때문. (ex. GPT-2는 "부자에게 세금을 부과"하는 것에 대한 지지를 표명하는 반면, GPT-3 Ada와 Davinci는 이에 대해 분명한 반대 입장을 보임. 외에도 직장 내 여성의 역할, 민주 정부, 기업의 사회적 책임에 대해서도 비슷한 의견 차이가 관찰.)

GPT-2: 민주주의를 지지하며, 'tax the rich'에 대한 지지.
GPT-3 Ada: 일당제 국가의 장점을 인정하며, 어머니들의 첫 번째 의무는 가정주부라고 주장.
GPT-3 Davinci: 회사의 주요 책임이 이익 창출이라는 주장에 동의.

Pre-Trump vs. Post-Trump 뉴스와 소셜미디어의 방향은 각 시기를 그대로 반영하는데 도널드 트럼프 당선 전후로 정치 양당의 양극화가 사상 최고치를 경신했다고 함.( 저번 발표에서 같은 계열의 모델인 경우 같은 corpus에서 더 높은 학습 성능을 보이는걸 확인했었음. 이 연구를 보면 비슷한 corpus로 학습한 같은 계열의 모델이더라도 corpus가 완전히 같지 않으면 상이한 의견이 보이는 걸 알 수 있었음.)
9극단적 정치성향 습득에 가능성에 대한 논의
- 이론적 배경: 사전 학습된 LM이 더 많은 편향된 데이터로 추가 학습됨에 따라 중심에서 벗어나 더욱 극단적인 성향을 보일 수 있음.
- 실험: 이를 테스트하기 위해 RoBERTa 체크포인트를 더 많은 데이터와 에포크로 추가 학습하여 정치적 나침반 상의 변화를 관찰.
- 결과: Figure 4는 경제적 문제에 대해 LM이 중심에 가까이 머무르는 반면, 사회적 문제에 대해서는 학습 데이터의 증가가 일부 변화를 초래하지만, 극단적인 성향으로 변하지는 않는다는 것을 보여줍니다.
그림.4 corpus에 따라서 정치적 중심에서 멀어지는게 가능하고 이게 악용될 수 있음.| 단순히 큰 corpus로 RoBERTa를 훈련 시켰을 때 당파적 사상과 점점 멀어지는 경향을 보였음. corpus의 크기가 모델 성능의 엄청난 변화를 가져 오지는 않았지만 편향이 적게 할 수 있었음.
- 경제적 이슈: 학습 에포크와 데이터 양이 증가하더라도 LM은 경제적 이슈에 대해 중심에서 크게 벗어나지 않음.
- 사회적 이슈: 학습 데이터가 증가할수록 일부 변화가 관찰되지만, 모델의 성향이 극단으로 치우치지 않음.
- 결론: 단순히 더 많은 데이터와 에포크로 추가 학습하는 것이 LM을 극단적으로 편향되게 만들지는 않음.
연구자들은 추가적인 학습을 통해 LM이 정치적 스펙트럼의 중심에서 멀어질 수 있다고 가정하고, 이를 "하이퍼파티산" LM이라고 부릅니다. 이와 관련된 주요 내용은 다음과 같습니다:
Examining the Potential of Hyperpartisan LMs
그림.2 : 혐오 발언 및 허위 정보 감지 작업에서 LMs의 성능 비교. 이를 알아보고자 트럼프 당선 기준 2017년 1월 20일 전후로 데이터를 추가 분할하여 트럼프 전후 차원을 추가한 코퍼스로 사전 RoBERTa 및 GPT를 사전 훈련. 다양한 LMs가 사회적 및 경제적 문제에 대해 서로 다른 관점을 보여주는 예시임. LM이 실제로 사전 학습 말뭉치에 존재하는 강화된 극성을 선택하여 LM이 중심에서 더 멀리 위치하게 됨. (RoBERTa 및 REDDIT-RIGHT 코퍼스의 경우 트럼프 이후 LM은 트럼프 이전 LM보다 경제적으로 더 좌파) 예를 들어 GPT-2와 GPT-3 Ada는 특정 정치적 진술에 대해서 서로 다른 의견을 제시함.

4.2. (Political Leaning and Downstream Tasks)

정치적 성향과 Downstream Tasks: 정치적 성향이 하위 작업에 미치는 영향을 분석.

표 3. 증오심 표현 및 잘못된 정보 탐지에 대한 전반적인 성능 표 1에서 보여주었던 RoBERTa에 REDDIT-LEFT, REDDIT-RIGHT, NEWS-LEFT 및 NEWS-RIGHT corpus로 사전 훈련 후 네 가지 작업에 대한 결과 비교. 결과적으로 좌편향 LM이 일반적으로 우편향 LM보다 약간 더 나은 성능을 보인다는 것을 보였음. RIGHT(우편향) 코퍼스는 다운스트림 작업 성능에 특히 해로웠(detrimental)음. 당파적인 사전 교육이 없는 바닐라 RoBERTa에 크게 뒤처짐. = corpus의 정치적 성향이 전체 작업 수행에 실질적인 영향을 미침.

2. Performance Breakdown by Categories 당성향을 가지게된 모델 성능이 다양한 신원을 가진 그룹(여성, LGBTQ+)에 대한 잘못된 정보 소스(CNN, Fox)에 따라 어떻게 달라지는가.

표 4. 증오심 표현 탐지에 경우

좌편향 모델은 LGBTQ+ 및 BLACK과 같이 널리 인정받는 소수 집단을 대상으로 하는 증오 발언에 대해 더 나은 성능을 보임.
우향 편향 모델은 지배적인 대상을 표적으로 하는 증오 발언을 더 잘 식별하는 경향 ( 우파가 소수 집단 차별이 좀 있었다는 추론 가능)
MEN 및 WHITE와 같은 정체성 그룹. 잘못된 정보 감지의 경우 좌파 LM은 우파 미디어의 잘못된 정보에 더 엄격하지만 CNN 및 NYT와 같은 좌파 소스의 잘못된 정보에는 덜 민감. ( 모델도 같은 정치 편향을 알아본다고 할 수 있을 듯.) 우파에서도 똑같은 양상.

→ 정치적 편향 증폭에 대한 우려를 강조.

표 5. 정치 성향을 가진 모델의 독특한 행동 패턴 분석,

우파 LM은 '아시아인과의 인종혼합'이라는 인종차별적 비난을 간과하는 반면, 좌파 LM은 이러한 사례를 증오심 표현으로 정확하게 식별했음. ( 우파가 더 인종 차별적인듯.)
좌파와 우파 LM 모두 도널드 트럼프나 버니 샌더스 발언의 부정확성에 대한 잘못된 정보에 대해 이중 잣대를 들이댄다.

5 Reducing the Effect of Political Bias Partisan Ensemble 다양한 정치적 성향을 가진 LM들을 조합하거나 앙상블 기법으로 활용할 것을 제안. 관점 도입으로 다양성 생김. 그러나 계산 비용 문제와 차이점 해결을 위한 인간 평가가 필요함은 별개의 문제.

표 6: 당파 앙상블이 다양한 정치적 관점에 적극적으로 참여하여 모델 성능이 향상됨을 보여줌.

Conclusion
본 연구는 pretrained 데이터의 정치적 편향이 LMs와 하위 작업에 어떻게 영향을 미치는지 분석했음.
- 정치적 편향 분석: LMs는 다양한 정치적 편향성을 가지고 있으며, 이는 학습 데이터의 분포에 따라 다릅니다.
- 데이터 불균형: 다양한 의견을 포함한 비독성 데이터에서도 미묘한 불균형이 존재하여, 다운스트림 작업에서 불공정성을 초래할 수 있습니다.
- 제안된 전략: 이러한 부정적 영향을 완화하면서도 사전 학습 데이터의 다양성을 유지하기 위한 전략을 논의합니다.

Limitations

정치적 나침반 테스트 사회적 가치와 경제적 가치)만을 고려하는 정치 스펙트럼 외에도 여러 정치 이론이 존재. 점수체계도 불분명하고 서구세계 이념에 집중함. 자유지상주의 편향 존재
언어 모델의 탐색 인코더 기반과 생성 기반 모델의 응답 평가 방법을 분리 했지만 해석이 어려운 모델이 있었음
정밀한 정치 성향 분석 이념적 이론에 기반해서 모델을 이차원 평면에 위치 시켜 시각화 했음. 다음에는 다른 이념적 이론을 섞어서 사용하는게 더 좋을것.

-----------

저도 보기에 너무 불편해서

날잡고 깔끔하게 정리할 예정.

저작자표시

'논문 > 리뷰' 카테고리의 다른 글

[정리안한 논문] NLP 10+ (1)	2024.11.09
[NLP] The Impact of Debiasing on the Performance of Language Models inDownstream Tasks is Underestimated \| Review (0)	2024.07.17
[NLP] Reddit Comment Toxicity Score Prediction throughBERT via Transformer Based Architecture Review \| NLP 논문 리뷰 (0)	2023.08.07
[NLP] Analysis of sentiment in tweets addressed to a single domain-specific Twitter account: Comparison of model performance and explainability of predictions Review \| 논문 리뷰 (1)	2023.04.25
[NLP] TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection Review \| 논문 리뷰 (0)	2023.03.28

현재글[NLP] From Pretraining Data to Language Models to Downstream Tasks:Tracking the Trails of Political Biases Leading to Unfair NLP Models | Review

sew_Code_ SALT

안녕하세요. NLP 논문 리뷰가 주로 올라옵니다. Python도 하고 R도 합니다.

편향 제거의 효과, bestpaper, deeplearning, 딥러닝, bert 토크나이저, 편향제거, emnlp, acl 2023, nlp, nlp paper, deeplearing, emnlp2024, 과학 논문, Adversarial, sentiment, bert 편향, BERT, BERT 정의, nlp 논문리뷰, NLP 논문,

Today :
Yesterday :

[NLP] From Pretraining Data to Language Models to Downstream Tasks:Tracking the Trails of Political Biases Leading to Unfair NLP Models | Review

내용 정리

방식

데이터 셋

'논문 > 리뷰' 카테고리의 다른 글

'논문/리뷰'의 다른글

티스토리툴바

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

[NLP] From Pretraining Data to Language Models to Downstream Tasks:Tracking the Trails of Political Biases Leading to Unfair NLP Models | Review

내용 정리

방식

데이터 셋

'논문 > 리뷰' 카테고리의 다른 글

'논문/리뷰'의 다른글

관련글

티스토리툴바