HCLT 2021 논문집

BIG DATA & AI/NLP 2021. 11. 16. 18:11

지인에게 NLP 논문 참고할 학회로 HCLT를 추천받았다. 전세계적으로 AI에 불이 붙었었고 지금도 Computer Vision과 NLP는 나아갈 길이 무궁무진하다. 그 시절 살짝 꼈던 거품이 이제는 메타버스, 블록체인으로 옮겨간 것 같지만 내가 관심을 갖고 있는 분야의 NLP! 한국에서는 특히나 (또는 당연하게도) 한국어 정보처리가 핫하다. 그 중에서도 가장 유명한 학회는 HCLT (한글 및 한국어 정보처리 학술대회). 연도별 논문집이 600페이지 가량에 달해 어마어마한 양을 담고 있지만 트렌드 분석과 NLP 연구 ideation에는 꽤 좋은 것 같다.

논문을 읽는다..라고 하면 해당 논문에 대한 개념을 완벽히 이해하고, 나아가 재구현까지 포함-이라고 나 또한 생각하긴 하지만 아직 NLP 새싹으로써 우선은 졸업논문 ideation 중심으로 읽어보려고 한다!

http://hclt.kr/symp/?lnb=conference

한글 및 한국어정보처리 학술대회(HCLT)

한글 및 한국어정보처리 학술대회(HCLT) 행사 마당 1989년부터 2021년 현재까지 출간된 논문 총 2,004편의 논문 제목과 저자를 검색할 수 있습니다. 학술대회 발표논문집은 학술대회명을 클릭하시면

hclt.kr

아주아주 주관적으로 관심이 가는 논문들을 list-up 해봤는데, pick해놓고 보니 언어처리응용 분야가 다수를 차지한다. 뼛속까지 공대생으로서 어떻게 하면 이 말뭉치들을 응용해서 가치를 부여할까 라는 DNA가 있는 것일까..?ㅋㅋㅋ
NLP 연구들을 추려봤을 때 응용분야, 질의분야 논문이 많은 것 같고 생각보다 모델 평가, 임베딩에 관한 연구도 많았다고 느꼈다.

도메인 특화 기계번역 사후교정 모델 검증 연구

최근 기계번역의 성능이 눈에 띄게 좋아지긴 했지만, 도메인 특화 문서의 경우 한계가 있다. 이 논문에서는 도메인 특화 번역 모델 vs 도메인 특화 사후교정 모델 성능을 비교하여 도메인 특화 사후교정 모델의 성능이 미미하게(?) 좋음을 보여줌으로써 해당 분야 연구의 방향성을 제안한다.

사후교정 모델 생성을 위한 dataset : 삼중항(triple) dataset으로 data 생성에 어려움이 존재
- 원본 문장
- 번역한 문장
- 번역한 문장을 전문가가 교정한 교정문
사후교정 모델 : 사전학습된 Transformer 기반의 번역 모델 (BERT와 비슷하다고 생각하면 된다.) + 미세조정 단계에서의 병목 적응층(Bottleneck Adapter Layer) 도입
- 즉 미세 조정시에는 사전학습된 언어모델의 변수 값들은 갱신하지 않고, 적응층의 변수값만 학습됨 -> 효율적인 학습, 뛰어난 성능 개선
- 병목 적응층은 두개의 linear layer와 하나의 activation function으로 이루어져 있음

(추후 정리..)

딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구

개체명 및 사용자 재확산 정보를 이용한 한국어 COVID-19 가짜 뉴스 검출

조기 위험 검출을 위한 점진적 조기 텍스트 분류 시스템

[우수논문] 한국어 문장 임베딩의 언어적 속성 입증 평가

한국어 문장 분류 태스크에서의 효과적 분절 전략

한국어 개체명 인식 과제에서의 의미 모호성 연구

엔터티 위치 정보를 활용한 한국어 관계추출 모델 비교 및 분석

계층적 레이블 임베딩을 이용한 세부 분류 개체명 인식

감정 어휘 사전을 활용한 영화 리뷰 말뭉치 감정 분석

딥러닝 기반의 에세이 자동 평가 방법 제안

Plug and Play Language Model을 활용한 대화 모델의 독성 응답 생성 감소

사전학습 언어모델의 Perplexity에 기반한 Zero-shot 어휘 의미 모델

관계 추출에서 사전학습 언어모델의 방향성 예측 분석

딥러닝 기반 한국어 방언 기계번역 연구

저작자표시 비영리 동일조건 (새창열림)

'BIG DATA & AI > NLP' 카테고리의 다른 글

[논문 리뷰] PRIDE: Predicting Relationships in Conversations (1)	2022.03.09
Stanford CS224N: Youtube Link and Materials (0)	2022.03.08
BERTopic 이란? (1)	2021.06.24
자연어 처리 엔지니어의 역량 (0)	2021.05.24
NLP 라이브러리 소개 - Document Embedding, Word Embedding / BERT, KoBERT, Word2Vec, Glove, FastText, ELMo (0)	2021.04.14

ABOUT ME

Emily's Tistory

도메인 특화 기계번역 사후교정 모델 검증 연구

'BIG DATA & AI > NLP' 카테고리의 다른 글

티스토리툴바

ABOUT ME

도메인 특화 기계번역 사후교정 모델 검증 연구

'BIG DATA & AI > NLP' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바