BIG DATA & AI/NLP
-
[논문 리뷰] LLM2LLM: Boosting LLMs with Novel Iterative Data EnhancementBIG DATA & AI/NLP 2024. 4. 10. 23:32
복학을 하고 (추가등록도 하고) 졸업준비를 하면서 최근에 스터디 2개를 열심히 돌리고 있다. 그 중 하나는 한 스타트업이 진행하는 스터디 방식을 차용한 흥미로운 방식으로 진행하고 있는데, 각자 논문을 준비해서 15분~20분간 읽고 15분간 의견을 공유하면서 퀵하게 진행하는 방식이다. 이번주면 3주차인데, 해 본 결과 15분이라는 시간 자체가 논문 하나를 정독하기에는 버겁고 빠르게 skimming해야 해서 집중력이 장난 아니다. 혼자서 1시간동안 흐린 눈으로 붙잡고 읽는 것보다 훨씬 효율이 좋아서 애정하고 있다. 각설하고, 스터디 중 그냥 최근에 나온 LLM 논문을 무심코 읽어봤는데 (무려 arXiv:2403.15042!) 너무 마음에 들었던 논문이 있어서 휴일에 다시 정독하면서 꼭꼭 씹어 먹어본 결과를 ..
-
[논문 리뷰] PRIDE: Predicting Relationships in ConversationsBIG DATA & AI/NLP 2022. 3. 9. 22:52
Character Relationship Extraction 분야에 관심이 있어서, 관련 논문을 리뷰하려고 한다. PRIDE라는 독일의 Max Planck Institute for Informatics라는 연구소에서 21년 EMNLP 학회에 게재된 논문이다. Abstract PRIDE는 BERT와 transformer 기반의 neural multi-label classifier이다. Dataset은 기존의 문어체 위주의 dataset 연구와는 다르게 utterence (발화) dataset인 영화 스크립트와 TV쇼를 이용한 논문이다. Introduction 해당 논문은 흥미로운 motivation을 제공하고 있는데, social media conversation에서 user간의 관계를 도출해내는 예제이다..
-
Stanford CS224N: Youtube Link and MaterialsBIG DATA & AI/NLP 2022. 3. 8. 22:07
교수님에게 미팅을 신청드리고, 논문 관하여 면담 후에 몇몇 피드백을 받았다. 그 중에서 가장 중요하게 언급하셨던 것은 “기초를 닦아라”라는 메세지였다. 그 방법은 두 가지 정도로 나뉘는데.. NLP 관련하여 기초 지식 쌓기 관련 분야의 논문 많이 읽기 사실 둘 다 너무 기본적이면서도 지키기 어려운 중요한 것들인 것 같다. 그 중에서도 NLP 기초 쌓기에 Stanford CS224N 강의를 추천해 주셔서 최근 공부하게 되었다. 공부한거 정리하는 겸사겸사 무료로 듣기에 너무 좋은 내용들이라 website, youtube 링크를 공유하려고 한다. Standford Website Link: Includes materials, related papers https://web.stanford.edu/class/ar..
-
HCLT 2021 논문집BIG DATA & AI/NLP 2021. 11. 16. 18:11
지인에게 NLP 논문 참고할 학회로 HCLT를 추천받았다. 전세계적으로 AI에 불이 붙었었고 지금도 Computer Vision과 NLP는 나아갈 길이 무궁무진하다. 그 시절 살짝 꼈던 거품이 이제는 메타버스, 블록체인으로 옮겨간 것 같지만 내가 관심을 갖고 있는 분야의 NLP! 한국에서는 특히나 (또는 당연하게도) 한국어 정보처리가 핫하다. 그 중에서도 가장 유명한 학회는 HCLT (한글 및 한국어 정보처리 학술대회). 연도별 논문집이 600페이지 가량에 달해 어마어마한 양을 담고 있지만 트렌드 분석과 NLP 연구 ideation에는 꽤 좋은 것 같다. 논문을 읽는다..라고 하면 해당 논문에 대한 개념을 완벽히 이해하고, 나아가 재구현까지 포함-이라고 나 또한 생각하긴 하지만 아직 NLP 새싹으로써 우..
-
BERTopic 이란?BIG DATA & AI/NLP 2021. 6. 24. 15:18
BERTopic 이란? 공식 홈페이지 설명에 의하면, BERTopic은 transformers와 c-TF-IDF를 활용한 토픽 모델링 기법으로, 쉽게 해석 가능한 주제(topic의 주요 keyword는 유지!)로 이루어진 dense한 cluster를 만들기 위해 사용된다고 한다. 모델과 함께 visualizations도 html로 제공하는데 이는 LDAvis와 유사하다고 한다! 다행히(?) 공식 홈페이지에 concept, tutorial이 잘 기술되어 있다. ヾ(•ω•`)o https://maartengr.github.io/BERTopic/index.html Home - BERTopic BERTopic BERTopic is a topic modeling technique that leverages tra..
-
자연어 처리 엔지니어의 역량BIG DATA & AI/NLP 2021. 5. 24. 20:19
자연어 처리 전문가가 되려면 어떤 역량이 필요할까? 모집 공고 트렌드를 분석해 보았다. [Papago] 파파고 머신러닝(자연어처리) 체험형 인턴 모집 ■ Machine Learning Scientist : 자연어처리 [체험형 인턴] [역할] · Natural Language Processing을 과학적, 심층적으로 연구 · Multilingual NLP의 최신 연구 재구현 및 개선 - Machine translation - Quality estimation - Multilingual sentence representation learning - Inspecting and analyzing NLP models(language models, translation models) - Solving NLP pro..
-
NLP 라이브러리 소개 - Document Embedding, Word Embedding / BERT, KoBERT, Word2Vec, Glove, FastText, ELMoBIG DATA & AI/NLP 2021. 4. 14. 20:48
지난 글(아래 링크 참조)에서, NLP에 대한 전반적인 개념 및 embedding 종류에 관하여 알아보았다. 2021.04.08 - [PROGRAMMING/NLP] - 자연어 처리 개념 (NLP Bible) 자연어 처리 개념 (NLP Bible) 프로젝트 중 자연어 처리 및 얕은 인공지능을 사용할 일이 생겼다. 졸업 프로젝트로 자연어 처리 및 딥러닝을 진행하면서, (심지어 비지도 학습이었다) 다시는 NLP를 건드리지 않겠다고 다짐했었 sysout.tistory.com 개념을 습득하였으니, 어서 실습으로 들어가자! ... 고 하고 싶은데 또 다른 이론을 배워야 한다. Embedding에는 여러 모델과 방법이 있는데, 우선 Document Embedding과 Word Embedding 위주로 어떤 pre-t..
-
자연어 처리 개념 (NLP Bible)BIG DATA & AI/NLP 2021. 4. 8. 15:36
프로젝트 중 자연어 처리 및 얕은 인공지능을 사용할 일이 생겼다. 졸업 프로젝트로 자연어 처리 및 딥러닝을 진행하면서, (심지어 비지도 학습이었다) 다시는 NLP를 건드리지 않겠다고 다짐했었는데, 회사에서 하게되다니!! 다시 국어 공부와 기계 가르치기 공부를 시작한다.. 책도 빌렸다. "밑바닥부터 시작하는 딥러닝(Deep Learning from Scratch)"이라고, Oreilly 출판간이다. 나중에 책 정리도 포스팅 해야겠다. 참고로 졸업 프로젝트 주제는 "소설 텍스트 분석을 통한 등장인물 도출 및 관계 분석" 이었는데, 주제 자체도 흥미로웠고 진행하면서 visualization 하는 부분이 재밌었던 기억이 난다. 정확도가 안 나와서 문제였지만 😂😂 자연어 처리(NLP)란? 일단, 우리가 평소에 쓰..