nlp
-
[논문 리뷰] LLM2LLM: Boosting LLMs with Novel Iterative Data EnhancementBIG DATA & AI/NLP 2024. 4. 10. 23:32
복학을 하고 (추가등록도 하고) 졸업준비를 하면서 최근에 스터디 2개를 열심히 돌리고 있다. 그 중 하나는 한 스타트업이 진행하는 스터디 방식을 차용한 흥미로운 방식으로 진행하고 있는데, 각자 논문을 준비해서 15분~20분간 읽고 15분간 의견을 공유하면서 퀵하게 진행하는 방식이다. 이번주면 3주차인데, 해 본 결과 15분이라는 시간 자체가 논문 하나를 정독하기에는 버겁고 빠르게 skimming해야 해서 집중력이 장난 아니다. 혼자서 1시간동안 흐린 눈으로 붙잡고 읽는 것보다 훨씬 효율이 좋아서 애정하고 있다. 각설하고, 스터디 중 그냥 최근에 나온 LLM 논문을 무심코 읽어봤는데 (무려 arXiv:2403.15042!) 너무 마음에 들었던 논문이 있어서 휴일에 다시 정독하면서 꼭꼭 씹어 먹어본 결과를 ..
-
[책 리뷰] GPT-4를 활용한 인공지능 앱 개발BOOK 2024. 2. 20. 16:22
총평 이 책은 LLM(Large Language Model)에 입문하고자 하는 개발자에게 아주 적합한 책이다-심지어 머신러닝, NLP 백그라운드가 없어도!-. OpenAI에서 제공하는 MaaS(Model as a Service) API를 활용한 간단한 프로젝트부터, 프롬프트 엔지니어링, Few-shot, Fine-Tuning, RAG 등 활용에 대한 전반적인 부분을 다루어 아이디어와 방법론들을 많이 얻어갈 수 있다. 서론에서 기존의 NLP 흐름과 transformer를 간략하면서도 핵심 내용만 전달하고 다양한 활용 사례로 시작하는 부분도 좋았다. 책의 분량 자체는 179 페이지 정도로 짧지만 빠르게 입문하기에 좋은 책이다. 개인적인 요즘의 LLM 흐름에 대한 인사이트를 공유하자면, 최근 대규모 언어 모델..
-
Hugging Face의 따끈따끈한 신기능 Tool, Agent (New Features of Hugging Face: tools and agents)BIG DATA & AI 2023. 5. 13. 15:54
🎈본 포스팅은 Hugging Face의 정말정말 따끈따끈한 신기능인 Tool과 Agent를 담고 있습니다. 무려 일주일도 안 된 23년 5월 10일에 릴리즈했다는 사실! Hugging Face란? 허깅페이스는 자연어 처리(NLP)를 전문으로 하는 회사이며, NLP를 위한 오픈소스 라이브러리와 도구 개발에 많은 기여를 하고 있다. 허깅페이스는 언어 번역, 텍스트 분류, 감성 분석, 질문 답변 등 다양한 NLP 작업에 사용되는 사전 훈련된 모델을 제공하며, 가장 인기 있는 제품은 PyTorch 위에 구축된 Transformers 라이브러리이다. 허깅페이스는 Transformers 라이브러리 외에도 토크나이저, 데이터셋, 파이프라인 등 NLP에 사용되는 다양한 오픈소스 도구를 개발하고 있다. 또한 허깅페이스 ..
-
[논문 리뷰] PRIDE: Predicting Relationships in ConversationsBIG DATA & AI/NLP 2022. 3. 9. 22:52
Character Relationship Extraction 분야에 관심이 있어서, 관련 논문을 리뷰하려고 한다. PRIDE라는 독일의 Max Planck Institute for Informatics라는 연구소에서 21년 EMNLP 학회에 게재된 논문이다. Abstract PRIDE는 BERT와 transformer 기반의 neural multi-label classifier이다. Dataset은 기존의 문어체 위주의 dataset 연구와는 다르게 utterence (발화) dataset인 영화 스크립트와 TV쇼를 이용한 논문이다. Introduction 해당 논문은 흥미로운 motivation을 제공하고 있는데, social media conversation에서 user간의 관계를 도출해내는 예제이다..
-
HCLT 2021 논문집BIG DATA & AI/NLP 2021. 11. 16. 18:11
지인에게 NLP 논문 참고할 학회로 HCLT를 추천받았다. 전세계적으로 AI에 불이 붙었었고 지금도 Computer Vision과 NLP는 나아갈 길이 무궁무진하다. 그 시절 살짝 꼈던 거품이 이제는 메타버스, 블록체인으로 옮겨간 것 같지만 내가 관심을 갖고 있는 분야의 NLP! 한국에서는 특히나 (또는 당연하게도) 한국어 정보처리가 핫하다. 그 중에서도 가장 유명한 학회는 HCLT (한글 및 한국어 정보처리 학술대회). 연도별 논문집이 600페이지 가량에 달해 어마어마한 양을 담고 있지만 트렌드 분석과 NLP 연구 ideation에는 꽤 좋은 것 같다. 논문을 읽는다..라고 하면 해당 논문에 대한 개념을 완벽히 이해하고, 나아가 재구현까지 포함-이라고 나 또한 생각하긴 하지만 아직 NLP 새싹으로써 우..
-
BERTopic 이란?BIG DATA & AI/NLP 2021. 6. 24. 15:18
BERTopic 이란? 공식 홈페이지 설명에 의하면, BERTopic은 transformers와 c-TF-IDF를 활용한 토픽 모델링 기법으로, 쉽게 해석 가능한 주제(topic의 주요 keyword는 유지!)로 이루어진 dense한 cluster를 만들기 위해 사용된다고 한다. 모델과 함께 visualizations도 html로 제공하는데 이는 LDAvis와 유사하다고 한다! 다행히(?) 공식 홈페이지에 concept, tutorial이 잘 기술되어 있다. ヾ(•ω•`)o https://maartengr.github.io/BERTopic/index.html Home - BERTopic BERTopic BERTopic is a topic modeling technique that leverages tra..
-
자연어 처리 엔지니어의 역량BIG DATA & AI/NLP 2021. 5. 24. 20:19
자연어 처리 전문가가 되려면 어떤 역량이 필요할까? 모집 공고 트렌드를 분석해 보았다. [Papago] 파파고 머신러닝(자연어처리) 체험형 인턴 모집 ■ Machine Learning Scientist : 자연어처리 [체험형 인턴] [역할] · Natural Language Processing을 과학적, 심층적으로 연구 · Multilingual NLP의 최신 연구 재구현 및 개선 - Machine translation - Quality estimation - Multilingual sentence representation learning - Inspecting and analyzing NLP models(language models, translation models) - Solving NLP pro..
-
NLP 라이브러리 소개 - Document Embedding, Word Embedding / BERT, KoBERT, Word2Vec, Glove, FastText, ELMoBIG DATA & AI/NLP 2021. 4. 14. 20:48
지난 글(아래 링크 참조)에서, NLP에 대한 전반적인 개념 및 embedding 종류에 관하여 알아보았다. 2021.04.08 - [PROGRAMMING/NLP] - 자연어 처리 개념 (NLP Bible) 자연어 처리 개념 (NLP Bible) 프로젝트 중 자연어 처리 및 얕은 인공지능을 사용할 일이 생겼다. 졸업 프로젝트로 자연어 처리 및 딥러닝을 진행하면서, (심지어 비지도 학습이었다) 다시는 NLP를 건드리지 않겠다고 다짐했었 sysout.tistory.com 개념을 습득하였으니, 어서 실습으로 들어가자! ... 고 하고 싶은데 또 다른 이론을 배워야 한다. Embedding에는 여러 모델과 방법이 있는데, 우선 Document Embedding과 Word Embedding 위주로 어떤 pre-t..