BIG DATA & AI
-
[논문 리뷰] PRIDE: Predicting Relationships in ConversationsBIG DATA & AI/NLP 2022. 3. 9. 22:52
Character Relationship Extraction 분야에 관심이 있어서, 관련 논문을 리뷰하려고 한다. PRIDE라는 독일의 Max Planck Institute for Informatics라는 연구소에서 21년 EMNLP 학회에 게재된 논문이다. Abstract PRIDE는 BERT와 transformer 기반의 neural multi-label classifier이다. Dataset은 기존의 문어체 위주의 dataset 연구와는 다르게 utterence (발화) dataset인 영화 스크립트와 TV쇼를 이용한 논문이다. Introduction 해당 논문은 흥미로운 motivation을 제공하고 있는데, social media conversation에서 user간의 관계를 도출해내는 예제이다..
-
Stanford CS224N: Youtube Link and MaterialsBIG DATA & AI/NLP 2022. 3. 8. 22:07
교수님에게 미팅을 신청드리고, 논문 관하여 면담 후에 몇몇 피드백을 받았다. 그 중에서 가장 중요하게 언급하셨던 것은 “기초를 닦아라”라는 메세지였다. 그 방법은 두 가지 정도로 나뉘는데.. NLP 관련하여 기초 지식 쌓기 관련 분야의 논문 많이 읽기 사실 둘 다 너무 기본적이면서도 지키기 어려운 중요한 것들인 것 같다. 그 중에서도 NLP 기초 쌓기에 Stanford CS224N 강의를 추천해 주셔서 최근 공부하게 되었다. 공부한거 정리하는 겸사겸사 무료로 듣기에 너무 좋은 내용들이라 website, youtube 링크를 공유하려고 한다. Standford Website Link: Includes materials, related papers https://web.stanford.edu/class/ar..
-
GAN (Generative Adversarial Network)BIG DATA & AI 2021. 12. 9. 22:29
딥러닝 전반을 공부하면서 최근 핫한 딥러닝 분야 중 하나인 GAN을 접하게 되었다. 개념이 바로 와닿지 않아 차근차근 정리하면서 공부해보려고 한다. 😀 Generative Model 우선 GAN을 알기 위해서는 generaive model부터 알아야 한다. 이를 직역하면 '생성 모델'로, 주로 주어진 training data에 대해 같은 distribution을 가진 새로운 sample을 만들어 주는 (generate) 모델이다. Machine learning에서는 아주 많은 dataset이 필요한데, 사실 data를 취득하는 것에는 한계가 있다. 예를 들어 한 장소의 사계절 이미지 데이터가 필요하다고 치면, 실제 데이터를 얻기 위해서는 봄, 여름, 가을 그리고 겨울마다 그 장소에 찾아가서 사진을 찍어야..
-
상관관계 분석 (Correlation Analysis)BIG DATA & AI/Mathematics 2021. 11. 22. 21:09
두 feature의 상관관계를 분석하고 싶을 때 사용되는 기법들을 소개하려고 한다. 가령 gender에 따라 fiction과 non-fiction 장르의 선호도를 알기 위해서는 우선 두 feature가 상관관계가 있나? 있다면 얼마나 있는지? 이런 물음들이 필요하다. Nominal data - labeled, named 즉 discrete하고 multi-value로 이름 붙여진 데이터를 의미한다 - 의 경우 카이제곱 검정 (Chi-Square Test)을 많이 사용한다. 또한 correlation 개념 관해서 중요한 점은 결코 Correlation does not imply causality 이다. 상관관계와 인과관계는 같지 않다는 뜻인데, 예를 들어 hospital의 개수와 car-theft의 사건 수..
-
HCLT 2021 논문집BIG DATA & AI/NLP 2021. 11. 16. 18:11
지인에게 NLP 논문 참고할 학회로 HCLT를 추천받았다. 전세계적으로 AI에 불이 붙었었고 지금도 Computer Vision과 NLP는 나아갈 길이 무궁무진하다. 그 시절 살짝 꼈던 거품이 이제는 메타버스, 블록체인으로 옮겨간 것 같지만 내가 관심을 갖고 있는 분야의 NLP! 한국에서는 특히나 (또는 당연하게도) 한국어 정보처리가 핫하다. 그 중에서도 가장 유명한 학회는 HCLT (한글 및 한국어 정보처리 학술대회). 연도별 논문집이 600페이지 가량에 달해 어마어마한 양을 담고 있지만 트렌드 분석과 NLP 연구 ideation에는 꽤 좋은 것 같다. 논문을 읽는다..라고 하면 해당 논문에 대한 개념을 완벽히 이해하고, 나아가 재구현까지 포함-이라고 나 또한 생각하긴 하지만 아직 NLP 새싹으로써 우..
-
K-NN (K-Nearest Neighbor)BIG DATA & AI/Machine Learning 2021. 10. 19. 16:50
K-NN의 개념은 직관적이다. K-NN Regression이란 가까운 K개의 점들의 평균 값을 구하여 값을 도출하는 회귀 방법이고, K-NN Classification은 가까운 K개의 점들이 A라는 classification이 많으면 A로 분류되는 방식이다. K-NN classifier는 지금도 많이 사용하고 있다고 한다. 여기서 K란 근처의 data 중 몇 개를 참조할 것인지를 결정하는 hyperparameter이다. 또한 근처라는 개념을 정의할 수 있는 거리는 일반적으로 점 사이의 거리를 구할 때 사용되는 유클리드 거리(Euclidean Distance)가 사용된다. 그 외에도 격자 무늬로 간 거리를 계산하는 맨해튼 거리(Manhatten Distance) 방식도 있다. K-NN은 query가 들어오..
-
Decision Tree (의사결정 트리)BIG DATA & AI/Machine Learning 2021. 10. 19. 10:29
Decision Tree AI를 이용한 마케팅 중, 백화점 앱에서 성별, 연령, 관심사, 구매 내역 등을 봤을 때 관련 상품을 할인하여 주는 쿠폰을 발송하는 이벤트를 종종 보곤 한다. 이 AI는 어떤 원리를 거쳐서 만들어진 것일까? (물론 다른 방법으로도 가능하지만, decision tree의 대표 예 중 하나를 든 것이다.) Decision tree는 위에서부터 아래로(top-down) data에게 기준을 주어 질문을 한 뒤 원하는 class로 분류될 수 있도록, 또는 원하는 값을 찾을 수 있도록 하는 machine learning의 한 방식이다. 아주 basic한 Iris를 예로 들면, 꽃잎의 길이가 50cm가 넘는가? -> Yes 이면 setosa로 분류되는 것과 같은 방식이다. No라면, 꽃잎의 ..
-
Handling Devices in TensorFlow 2.0 (Colab)BIG DATA & AI/Machine Learning 2021. 9. 24. 23:24
Using CPU: Using GPU: Colab으로 GPU를 이용할 때에는 추가적인 설정이 필요하다. 런타임 ➡ 런타임 유형 변경 선택 하드웨어 가속기가 None으로 되어 있으면, GPU로 변경 세션이 재시작되었으니, tensorflow를 다시 import를 해준다. 아래와 같이 gpu_device_name을 얻어오는 것을 볼 수 있다. 또한, GPU를 사용할 시 GPU 지원 tensorflow library가 설치 되어 있어야 한다. (아래는 notebook 전용 command) !pip install tensorflow-gpu==2.3.0 위 조건이 만족된 상태에서 아래와 같이 GPU를 이용하여 tensorflow library를 사용할 수 있다. +) 추가 - 내가 참고한 예제에서는 tf.test..