ai
-
분류 모델에 대한 성능 측정하기 (Model Evaluation)BIG DATA & AI 2022. 3. 27. 19:26
분류 task에 대해서 열심히 분류 모델을 만들었다고 가정하자. 이 분류기-classifier-가 '잘' 만들어졌는지는 어떻게 판단할까? 본 포스팅에서는 confusion matrix를 이용한 model evaluation 방법만 다루고 있습니다. 그 외 auc-roc curve, logisitc loss 등 다양한 방법이 있습니다. Confusion Matrix Confusion matrix (혼동 행렬) 는 분류 모델의 성능을 측정하는 matrix 중 하나로, 가장 기본적인 형태를 띠고 있다. TP (True-Positive) : 진짜 양성, 즉 positive로 예측했고 실제로 positive (True) 인 경우를 의미한다. FN (False-Negative) : 가짜 음성, 즉 negative로..
-
[책 리뷰] 금융 전략을 위한 머신러닝BOOK 2022. 2. 23. 20:29
Data-powered enterprise가 될 수 있는 가능성이 높은 산업군은 어디일까? IT기반 회사, 유통 회사 등 여러 산업군이 있겠지만 나는 그 중에서도 금융권을 주목하고 싶다. 금융업계는 예전부터 data가 전산화 되어 왔고, 시장 예측이나 이상 거래 탐지 등 data를 기반으로 한 task가 필요하며 숫자/통계 없이 커뮤니케이션 할 수 없는 업계이기 때문이다. 이번 달 부터 한빛미디어 서포터즈를 통해서 1달에 1권 씩 책을 제공받아 리뷰를 쓰게 되었는데, 이 책이 그 첫번째가 되었다! 무튼, 그 전부터 나는 여의도, 월스트리트의 도시적이고 바쁜 분위기를 연상케 하는 금융권에 대한 왠지 모를 경외심과 최근 마이데이터 사업 등과 같이 Big Data/AI를 누구보다 요구하며 기술을 활용할 수 있..
-
NLP 라이브러리 소개 - Document Embedding, Word Embedding / BERT, KoBERT, Word2Vec, Glove, FastText, ELMoBIG DATA & AI/NLP 2021. 4. 14. 20:48
지난 글(아래 링크 참조)에서, NLP에 대한 전반적인 개념 및 embedding 종류에 관하여 알아보았다. 2021.04.08 - [PROGRAMMING/NLP] - 자연어 처리 개념 (NLP Bible) 자연어 처리 개념 (NLP Bible) 프로젝트 중 자연어 처리 및 얕은 인공지능을 사용할 일이 생겼다. 졸업 프로젝트로 자연어 처리 및 딥러닝을 진행하면서, (심지어 비지도 학습이었다) 다시는 NLP를 건드리지 않겠다고 다짐했었 sysout.tistory.com 개념을 습득하였으니, 어서 실습으로 들어가자! ... 고 하고 싶은데 또 다른 이론을 배워야 한다. Embedding에는 여러 모델과 방법이 있는데, 우선 Document Embedding과 Word Embedding 위주로 어떤 pre-t..