오늘 리뷰할 논문은
EMNLP 2024
"Semantics and Sentiment: Cross-lingual Variations in Emoji Use" 입니다.
요즘 텍스트에서 이모지를 어떻게 처리하는지에 관해 실험중인데,
이 논문이 여러가지 언어를 기반으로 실험을 꼼꼼하게 잘해서 리뷰하게 되었습니다.
1. Introduction
CMC(Computer-Mediated Communication)에 대해 설명하며 시작합니다.
컴퓨터 매개 통신은 텍스트 기반 소통이라는 것인데, 주로 트위터나 각종 메신저 앱, DM과 같이 오로지 텍스트로 소통을 하는 앱을 의미합니다. 이런 소통 방식은 아무래도 억양이나 몸짓과 같은 비언어적 요소가 부족하기 마련인데요.
이런 소통 방식에서 이모지가 대화의 의도나 감정을 효과적으로 전달하기 위한 대안으로 등장해 널리 활용되고 있습니다.
이모지는 현재 전체 트윗의 22%나 차지할 정도로 텍스트 소통에서 굉장히 중요한 부분이라고 하는데요.
유니코드에 3,664개의 이모지가 등록되어 이미 텍스트 분석에 자유롭게 활용되고 있다고 합니다.
Limitations of Existing Research
이모지 연구는 생각보다 오래 지속되어온 분야입니다.
그러나 대부분의 연구는 영어 중심으로 연구를 진행했기 때문에 다른 플랫폼에 적용하는데 한계가 존재했습니다.
그래서 저자들은 이번 연구를 영어, 포르투갈어, 중국어의 세 개 언어로 진행합니다.
이런 실험 조건으로 언어 간 의미적 차이를 탐구하고 문자 그대로 / 비유적으로 사용되는 방식과 감정 간의 관계를 연구합니다.
Research Questions
실험을 하기전에 세가지 연구 질문을 구성해놓고 이를 증명하는 식으로 진행하는데요.
RQ1. 해석에 차이가 있는가.
- 대화의 맥락을 생각하지 않고 해석 했을 때 이모지 해석이 언어 내/간에 얼마나 다른가
RQ2. 문자 그대로 VS 비유적 사용
- 언어 간 이모지 사용 방식에 차이가 존재하는가?
RQ3. 감정과의 상관관계
- 이모지의 비유적 사용이 문맥의 감정과 어떤 관계가 있을까?
위 세가지 질문이 저자들이 증명? 알아보고자 하는 연구 질문입니다.
주로 이모지의 사용 방식과 해석에 관한 통일성을 증명하고 싶어했던것 같습니다.
2. Background
이 연구는 이모지에 담긴 의미를 추적하는데에서 시작했습니다.
저자들이 정리한 과거 연구들의 연구 결론입니다.
문자 그대로의 의미와 비유적 의미
이게 무슨 말이냐면요.
- 문자 그대로의 의미:이모지가 맥락 없이 표현하는 기본적 의미.
- 예: "❤️" → "하트."
- 비유적 의미:이모지가 맥락에 따라 변형된 의미를 전달.
- 예: "❤️" → "열정" 또는 "감탄."
이런 방식인데 저는 아무래도 맥락없이 표현하는 기본적 의미를 더 많이 쓰는 것 같네요.
이모지 해석의 복잡성
- 맥락의 다양성이 이모지 해석을 방해함.
- 이모지는 사용자 의도나 문화적 맥락에 따라 다르게 해석됨.
- 예: "😂" → 웃음, 아이러니, 또는 믿기지 않음.
- 복잡한 이모지 와 간단한 이모지는 사용자에 따라 다양한 해석을 가짐.
- 추상적 이모지 (예: ♀️): 해석이 어려움.
- 구체적 이모지 (예: ❤️): 더 쉽고 일관됨.
아무래도 복잡한 이모지는 대화의 맥락에 따라 적절하게 해석되지 못할 가능성이 더 있겠죠?
이모지와 감정이 어떻게 다른 NLP 연구들에 반영되어 왔는가?
- 이모지와 감정:
- 이모지는 문장에서 감정적 톤을 강화해주는 어떠한 토큰으로 사용됨
- 예: "🔥" → "흥미진진함" 또는 "위험함."
- 예: "😭" → 슬픔에 감정적 깊이를 더함.
- 이모지는 문장에서 감정적 톤을 강화해주는 어떠한 토큰으로 사용됨
- 이런 쓰임으로 다양한 NLP 테스크에서 사용되고 있음 :
- 감정 분석: 텍스트의 감정적 뉘앙스 파악.
- 풍자 감지: 유머나 아이러니 이해.
- 다국어 분석: 언어 간 텍스트 해석 지원. 등의 역할을 하고 있음.
- 저자들은 이 연구의 궁극적인 목표가:
- 이모지 의미에 대한 데이터를 제공하여 NLP 모델 개선할 것이라고 했음.
다양한 문화권에서의 이모지 연구가 필요한 근거가 담겨있는 맥락이었습니다.
3. Emoji Selection and Dataset
연구에 사용된 이모지는 얼굴과 비얼굴 이모지의 균형을 맞추어 사용했습니다.
2021년 유니코드 상위 20개중 10개를 선정해서 사용했는데 이때 의미적 모호성 점수(후술*)를 기준으로 이모지를 선택했습니다.
의미 모호성 점수는 이모지 해석의 다양성을 측정하는 용도로 활용되었는데요.
데이터 셋은 트위터에서 영어, 포르투갈어, 중국어로 각각 4000개의 트윗을 수집했고,
긍정/부정 감정을 균형있게 포함하기 위해 각 언어에 맞는 감정 분석 모델을 사용했습니다.
3.3 Experimental Design
실험 1에서는 참가자들이 각 이모지에 대해 한 단어로 정의를 제공했습니다.
예를 들어 "😂"는 영어로 "laughing", 중국어로 "笑哭"(웃프다)로 정의되었습니다.
실험 2에서는 트윗 에서 이모지가 문자 그대로 사용되었는지 비유적으로 사용되었는지 판단하고, 트윗의 전체 감정을 긍정/부정으로 평가했습니다.
실험 2의
literally(문자 그대로) 표현과 figuratively(비유적인) 표현에 대해 예시를 들어 설명하자면
literally한 표현은 문장내의 주요 단어를 무리 없이 대체할 수 있으나
- Ex) “I ❤️ my family.”, “The fire is 🔥”.
Figuratively한 표현은 문장내에서 감정이나 상황을 대체해서 표현 될 때 사용되는 것을 말합니다.
- Ex) “This party is 🔥!”, “I’m laughing so hard I’m crying 😂.”
3.4 Semantic Variation (SV) Metric
SV(의미 다양성) 메트릭은 이모지가 얼마나 일관되게 해석되는지 측정할 수 있습니다.
공식을 통해서 빈도와 단어 간에 유사성을 기반으로 점수를 계산하며, 값이 낮을 수록 해석이 일관되고, 높을 수록 모호성이 크다는 것을 의미합니다.
저자들은 의미 모호성 점수를 본인들 연구 방향에 맞게 조금 변형해서 사용했습니다.
원본 연구에서 사용된 점수는 하나의 언어만을 사용해서 만들어진것 이기 때문에 저자들처럼 언어 3가지를 사용하는 경우 기존의 메트릭과 조금 다르게 차이를 주어야 했습니다.
이모지와 관련된 단어를 참가자들의 데이터에서 수집하여서
각 단어의 빈도를 계산하여 fv로 표현해주고
각 단어를 벡터 임베딩에서 표현한 형태를 ev라고 할 때
가장 대표적인 단어 v*와 다른 단어들 간의 코사인 거리를 계산하여
코사인 값이 1에 가까울 수록 유사하고, 0에 가까울 수록 차이가 있다고 보았습니다.
이에 직전에 구했던 fv를 가중치로 사용해 유사성 점수의 가중 평균을 계산합니다.
단어가 많이 사용될 수록 가중치가 커진다는 말이겠죠?
계산된 유사성 평균값을 1에서 빼주어서 마무리하는데
이렇게 계산된 모호성 점수의 최종 값이 높을 수록 해당 이모지의 해석이 더 모호한 것입니다.
점수 결과로 예시를 들어보면
- 낮은 SV: 해석이 일관됨. 예: "❤️" → 대부분 "사랑(love)".
- 높은 SV: 해석이 다양함. 예: "😂" → "웃음(laugh)", "울다(cry)", "아이러니(irony)".
3.4 Logistic Regression Models
로지스틱 회귀 모델은 이모지 사용 방식과 감정 간의 관계를 분석합니다.
모델 1은 이모지의 문자 그대로/비유적 사용 방식을 예측하며,
문자 그대로 사용할 경우 0, 비유적으로 사용할 경우 1인 emoji use라는 종속 변수를 사용합니다.
분석에 사용된 회귀 분석 모델들은 언어와 이모지 간의 상호작용을 계산에 포함합니다.
모델 2는 감정이 긍정인지 부정인지를 예측하며 이모지 사용 방식이 문맥의 감정에 미치는 영향을 분석합니다.
부정인 경우 0, 긍정인 경우 1인 sentiment라는 종속 변수를 사용하게 됩니다.
4 Results
결과를 살펴 봅시다.
Table 3에는 SV 메트릭을 계산한 결과가 담겨 있습니다.
"🔥"와 "❤️" 같은 이모지는 일관된 해석을 보인 반면, "😂"는 해석의 다양성이 컸습니다.
Figure 1에는 회귀 분석 결과를 보기 편하게 바차트를 모은 그림으로 표현했습니다.
회귀 분석 결과를 전체적으로 해석해보면 언어와 이모지 유형간의 상호작용 효과가 문맥을 전달함에 있어서 유의미했고, 비유적 사용과 감정 간에 강한 상관관계를 확인할 수 있었습니다.
RQ 1 . 해석 차이
Table 2에는 저자들이 목표로하는 연구 과제 중 첫번째에 대한 답변이 담겨 있습니다.
- RQ 1. 해석 차이:맥락 없는 이모지 해석이 언어 내/간에 해석이 얼마나 다를까?
결과적으로,
대부분의 이모지는 언어간에 일관성 있는 해석을 보였습니다.
그러나 "😂"와 같은 일부 이모지는 언어마다 해석의 차이가 있었고, 특히 중국어에서 해석의 모호성이 높게 드러났습니다.
이는 문화적, 언어적 요인이 영향을 미친것으로 보입니다.
- “😂”
- English → "laughing“
- Portuguese → "rir“
- Chinese → "笑哭" (laugh-cry).
RQ 2. 문자 그대로 vs. 비유적 사용
Table 5에는 연구 목표 두번째에 대한 답변이 담겨 있습니다.
- RQ 2. 문자 그대로 vs. 비유적 사용:언어 간 이모지 사용 방식에 차이가 있을까?
영어와 포르투갈어는 유사한 사용 패턴을 보였으나, 중국어는 이 차이가 컸음.
이 또한 문화권 간의 차이가 비유적 사용에 영향을 미친것으로 보임.
RQ 3. 감정과의 상관관계
RQ 3. 감정과의 상관관계:이모지의 비유적 사용이 문맥의 감정과 어떤 관계가 있나?
앞의 표와 그림들에서 이모지 사용 방식과 감정간에 강한 상관관계를 확인 할 수 있었죠.
- EX) "😂"는 부정적 문맥(아이러니, 풍자)에서 비유적으로 더 자주 사용됨.
Conclusion
저자들이 제안한 연구질문을 의문형 어미에서 종결형으로 바꾸면 이 논문의 결과가 되는데요.
원문을 활용해 정리하면 이렇게 됩니다.
- RQ 1. Literal Emoji Meanings
- Generally consistent across languages. - RQ 2. Cross-Linguistic Differences
- Figurative usage patterns vary significantly across languages.
- Cultural nuances influence emoji interpretation. - RQ 3. Impact of Sentiment
- Sentiment strongly affects emoji usage and interpretation.
이렇게 정리할 수 있죠.
- 문자 그대로의 의미: 대부분의 이모지가 언어 간에 일관성 있는 해석을 보임.
- 언어 간 차이: 비유적 사용 패턴에서 언어와 문화의 차이가 두드러짐.
- 감정의 영향: 감정이 이모지 사용과 해석 방식에 강한 영향을 미침.
Future Work & Limitations
본인들이 제안한 연구 질문을 모두 해결했으니 어떻게 보면 굉장히 성공한 연구 입니다.
그러나 결론적으로 해결된건 딱히 없어 보이는데요?
연구 말미에 여러가지 한계점과 추후 연구 목표를 제안함으로 본인 연구들의 허점을 보완해주었습니다.
미래 연구 방향
- 더 많은 언어와 문화적 맥락을 포함하여 연구 확장해야 한다.
- 비유적 사용을 자동 감지하는 NLP 모델의 개발이 필요하다.
- 소셜 미디어 플랫폼 간 이모지 사용 차이를 탐구할 필요가 있다.
한계
- 연구 언어가 영어, 포르투갈어, 중국어로 제한되었음.
- 10개의 인기 이모지만 분석했음.
- 데이터셋이 트위터에 국한됨.
- 비영어권 감정 모델의 정확도 문제가 있을 수 있음.
이렇게 논문이 마무리 됩니다
개인적으로 평을 하면,
문화권에서 이모지 사용이 많이 갈린다는 생각이 들었습니다.
단순하게 인스타그램이나 유투브 댓글 창에서도 이해할 수 없는 이모지 사용 예시가 많이 존재했는데
어쩌면 다른 문화권 사람은 제 댓글을 보고 그런 생각을 했을 수도 있겠다는 생각이 드네요.
영어권 데이터가 많이 존재하니 영어권 데이터 위주로 분석이 많이 이뤄지는 상황에서
3국의 언어를 적절히 잘 선택해서 한 것 같습니다.
업로드 직전에 갑자기 궁금해서 Analysis와 Analytics의 차이를 구글링 해봤습니다.
다들 아시겠지만 한번 더 알면 좋잖아요~~
- Analysis
- 과거에 일어난 일을 분석하여 그 원인과 과정을 설명하는 것을 의미합니다.
- Analytics
- 미래의 이벤트를 논리적 전산적으로 추론하는 것을 의미합니다. 빅데이터 시대에 함께 회자되는 용어로, 날 것의 데이터를 시각적으로 구현해주는 솔루션을 의미하기도 합니다.
읽어주셔서 감사합니다.