전체 글
-
GAN (Generative Adversarial Network)BIG DATA & AI 2021. 12. 9. 22:29
딥러닝 전반을 공부하면서 최근 핫한 딥러닝 분야 중 하나인 GAN을 접하게 되었다. 개념이 바로 와닿지 않아 차근차근 정리하면서 공부해보려고 한다. 😀 Generative Model 우선 GAN을 알기 위해서는 generaive model부터 알아야 한다. 이를 직역하면 '생성 모델'로, 주로 주어진 training data에 대해 같은 distribution을 가진 새로운 sample을 만들어 주는 (generate) 모델이다. Machine learning에서는 아주 많은 dataset이 필요한데, 사실 data를 취득하는 것에는 한계가 있다. 예를 들어 한 장소의 사계절 이미지 데이터가 필요하다고 치면, 실제 데이터를 얻기 위해서는 봄, 여름, 가을 그리고 겨울마다 그 장소에 찾아가서 사진을 찍어야..
-
상관관계 분석 (Correlation Analysis)BIG DATA & AI/Mathematics 2021. 11. 22. 21:09
두 feature의 상관관계를 분석하고 싶을 때 사용되는 기법들을 소개하려고 한다. 가령 gender에 따라 fiction과 non-fiction 장르의 선호도를 알기 위해서는 우선 두 feature가 상관관계가 있나? 있다면 얼마나 있는지? 이런 물음들이 필요하다. Nominal data - labeled, named 즉 discrete하고 multi-value로 이름 붙여진 데이터를 의미한다 - 의 경우 카이제곱 검정 (Chi-Square Test)을 많이 사용한다. 또한 correlation 개념 관해서 중요한 점은 결코 Correlation does not imply causality 이다. 상관관계와 인과관계는 같지 않다는 뜻인데, 예를 들어 hospital의 개수와 car-theft의 사건 수..
-
HCLT 2021 논문집BIG DATA & AI/NLP 2021. 11. 16. 18:11
지인에게 NLP 논문 참고할 학회로 HCLT를 추천받았다. 전세계적으로 AI에 불이 붙었었고 지금도 Computer Vision과 NLP는 나아갈 길이 무궁무진하다. 그 시절 살짝 꼈던 거품이 이제는 메타버스, 블록체인으로 옮겨간 것 같지만 내가 관심을 갖고 있는 분야의 NLP! 한국에서는 특히나 (또는 당연하게도) 한국어 정보처리가 핫하다. 그 중에서도 가장 유명한 학회는 HCLT (한글 및 한국어 정보처리 학술대회). 연도별 논문집이 600페이지 가량에 달해 어마어마한 양을 담고 있지만 트렌드 분석과 NLP 연구 ideation에는 꽤 좋은 것 같다. 논문을 읽는다..라고 하면 해당 논문에 대한 개념을 완벽히 이해하고, 나아가 재구현까지 포함-이라고 나 또한 생각하긴 하지만 아직 NLP 새싹으로써 우..
-
논문 준비GRADUATE SCHOOL 2021. 10. 20. 23:45
대학원 2기생들은 지도 교수, 논문 주제를 선정해서 제출하기 바랍니다. -라고 학과 공지사항에 공지가 되었다. 입학하자마자 한 학기 후에 바로 논문 쓸 준비를 하다니, 너무 빠른 거 아닌가! 라는 생각이 들기도 했지만, 특수대학원생이라서 특수대학원에 프레임을 맞추려는 나의 무의식에서 올라온 생각이라는 결론을 갖게 되었다. 특수대학원이지만 일반대학원에 못지 않은 실력을 키우기 위해서는 내 의지가 가장 중요하고, 연구 프로젝트의 수준도 최대한 그 수준으로 끌어올릴 수 있어야 내 시간과 노력(+돈)이 의미가 있는 것이다. 단톡방에서 학과 전임교수님 상담 후기를 접했는데, 논문에 대해서 너무 급하게 생각할 필요 없고, 구체적인 주제 없이 지도 교수님 컨택을 하기 보다는 일단 과목 추가 이수과정 (논문을 쓰지 않..
-
K-NN (K-Nearest Neighbor)BIG DATA & AI/Machine Learning 2021. 10. 19. 16:50
K-NN의 개념은 직관적이다. K-NN Regression이란 가까운 K개의 점들의 평균 값을 구하여 값을 도출하는 회귀 방법이고, K-NN Classification은 가까운 K개의 점들이 A라는 classification이 많으면 A로 분류되는 방식이다. K-NN classifier는 지금도 많이 사용하고 있다고 한다. 여기서 K란 근처의 data 중 몇 개를 참조할 것인지를 결정하는 hyperparameter이다. 또한 근처라는 개념을 정의할 수 있는 거리는 일반적으로 점 사이의 거리를 구할 때 사용되는 유클리드 거리(Euclidean Distance)가 사용된다. 그 외에도 격자 무늬로 간 거리를 계산하는 맨해튼 거리(Manhatten Distance) 방식도 있다. K-NN은 query가 들어오..
-
Decision Tree (의사결정 트리)BIG DATA & AI/Machine Learning 2021. 10. 19. 10:29
Decision Tree AI를 이용한 마케팅 중, 백화점 앱에서 성별, 연령, 관심사, 구매 내역 등을 봤을 때 관련 상품을 할인하여 주는 쿠폰을 발송하는 이벤트를 종종 보곤 한다. 이 AI는 어떤 원리를 거쳐서 만들어진 것일까? (물론 다른 방법으로도 가능하지만, decision tree의 대표 예 중 하나를 든 것이다.) Decision tree는 위에서부터 아래로(top-down) data에게 기준을 주어 질문을 한 뒤 원하는 class로 분류될 수 있도록, 또는 원하는 값을 찾을 수 있도록 하는 machine learning의 한 방식이다. 아주 basic한 Iris를 예로 들면, 꽃잎의 길이가 50cm가 넘는가? -> Yes 이면 setosa로 분류되는 것과 같은 방식이다. No라면, 꽃잎의 ..
-
Handling Devices in TensorFlow 2.0 (Colab)BIG DATA & AI/Machine Learning 2021. 9. 24. 23:24
Using CPU: Using GPU: Colab으로 GPU를 이용할 때에는 추가적인 설정이 필요하다. 런타임 ➡ 런타임 유형 변경 선택 하드웨어 가속기가 None으로 되어 있으면, GPU로 변경 세션이 재시작되었으니, tensorflow를 다시 import를 해준다. 아래와 같이 gpu_device_name을 얻어오는 것을 볼 수 있다. 또한, GPU를 사용할 시 GPU 지원 tensorflow library가 설치 되어 있어야 한다. (아래는 notebook 전용 command) !pip install tensorflow-gpu==2.3.0 위 조건이 만족된 상태에서 아래와 같이 GPU를 이용하여 tensorflow library를 사용할 수 있다. +) 추가 - 내가 참고한 예제에서는 tf.test..
-
대학원생 1주차 후기 (특수대학원/한양대 인공지능융합대학원)GRADUATE SCHOOL 2021. 9. 6. 20:07
9월 1일 개강을 앞두고, 7~8월 동안 신나게 놀자! 라고 생각하고, 7월부터 열심히 놀았는데... 로나코 4단계가 터지고 상황도 체력도 (?) 여의치 않아서 어영부영 하다 보니 개강일이 되었다. 원래 8월에는 사내 MOOC 시스템을 통해서 keras/tensorflow 수강도 하려 했지만, 의욕만 앞섰고 결국 tensorflow 가상 환경 설치만 하고 (ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ아래 포스팅을 마지막으로..) 더 이상 진도가 나가지 않더라. 개강이 다가올수록 어차피 예습은 내 공부 스타일이 아니었으니, 일단 부딪혀보자! 라는 핑계아닌 핑계로 나를 합리화 시켰더랬다. https://sysout.tistory.com/67 Anaconda에 Tensorflow 2.0 설치하기 (쉬움주의) 회사에서 온라인 강좌를..