-
[논문 리뷰] PRIDE: Predicting Relationships in ConversationsBIG DATA & AI/NLP 2022. 3. 9. 22:52반응형
Character Relationship Extraction 분야에 관심이 있어서, 관련 논문을 리뷰하려고 한다. PRIDE라는 독일의 Max Planck Institute for Informatics라는 연구소에서 21년 EMNLP 학회에 게재된 논문이다.
Abstract
PRIDE는 BERT와 transformer 기반의 neural multi-label classifier이다. Dataset은 기존의 문어체 위주의 dataset 연구와는 다르게 utterence (발화) dataset인 영화 스크립트와 TV쇼를 이용한 논문이다.
Introduction
해당 논문은 흥미로운 motivation을 제공하고 있는데, social media conversation에서 user간의 관계를 도출해내는 예제이다. Dad said ~, sweetheart, maek sure to finish your homework 등으로 엄마와 딸이라는 관계를 추론해낼 수 있다는 내용이다. 또한 이러한 방식으로 둘의 관계를 도출해낸다면, system은 user에게 "birthday present ideas for my daughter"와 같은 컨텐츠를 추천해 줄 수 있다!
기존의 연구들은 relationship을 긍/부정으로 binary classification하거나, undirected 였고, conversation dataset이 small-scale이었다. 하지만 PRIDE에서는 the largest conversational dataset 기반의 multi fine-grained directed relationship을 도출해낸다.
Related Work
기존의 연구에서는 literary texts 위주의 긍/부정 sentiment 연구가 많았다. Massey et al. (2015) 논문에서는 character embedding 정보를 학습시켜 logistic regression classifier를 만들거나, Wish et al. (1976) 논문에서 Friends 드라마 시리즈 데이터로 bag-of-words를 이용하여 SVM classifier를 만드는 등의 시도가 있었다.
Chen et al. (2020) 논문에서는 중국 TV 시리즈에 24 relationships, 7 emotions로 라벨링 하였고 CNN, BERT 모델을 이용하여 예측하였는데 전체 문맥을 파악하는 정도가 부족했다. 마지막으로 Jia et al. (2021) 논문에서는 DDRel dataset을 이용하여 BERT 기반의 모델로 13 relationship 분석을 하였고 PRIDE는 이 모델을 baseline으로 삼았으며 directed, multiple relationship labels 속성을 추가하였다.
그 외 multi-speaker dialog representations 관련 논문에서는 LSTM, BERT, LSTM+CRF(Conditional Random Field) 등의 모델이 시도되었다.
Methodology
지도 학습으로 이루어졌으며 다음과 같은 모델링을 하였다.
방법론 쪽은 요약 보다는 전체 내용을 읽으면 좋을 것 같아 전문+나의 필기를 첨부하였다.
3.1 ~ 3.3에서는 representation, embedding, classification 내용을 다룬다. 3.4, 3.5에서는 그 정보들로는 약간 아쉬우니 personal attribute로 age와 dimension을 데이터에 더해주는 내용이다.
Dataset
본 논문에는 정말 유용한 conversation dataset 정보가 많이 있다. 몇 개 정리해보면..
- Movie description에 사용된 dataset : https://www.gradesaver.com/
- TV & Movie Transcripts : https://transcripts.foreverdreaming.org/
- Personal name 제거에 사용한 dataset : https://catalog.data.gov/dataset/baby-names-from-social-security-card-applications-national-data
- Movie cast 크롤링에 사용된 website : https://www.imdb.com/
- Movie script를 제공하는 website (너무 유용!) : https://imsdb.com/
Results
많이 시도되지 않았고, 정말 어려운 주제인만큼 생각보다 정확도가 정말정말 낮다.. ㅋㅋㅋ human-annotated result가 80점대 인것을 감안하고 봐도 현저히 낮다.
얘는 confusion matrix인데, friend와 lover 등을 confusion하고 있는 것을 볼 수 있다.
Conclusion
기존의 연구에서 시도되지 않았던 lagest labeled collection을 만들었다는 것, directed (asymmetric) & multi-labeled relationship을 도출했다는 것에 의의가 있는 논문이다.
Reference
https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/pkb#c19084
반응형'BIG DATA & AI > NLP' 카테고리의 다른 글
[논문 리뷰] LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement (0) 2024.04.10 Stanford CS224N: Youtube Link and Materials (0) 2022.03.08 HCLT 2021 논문집 (0) 2021.11.16 BERTopic 이란? (1) 2021.06.24 자연어 처리 엔지니어의 역량 (0) 2021.05.24