BIG DATA & AI
-
Anaconda에 Tensorflow 2.0 설치하기 (쉬움주의)BIG DATA & AI/Machine Learning 2021. 8. 11. 16:36
회사에서 온라인 강좌를 신청할 수 있어서 tensorflow 2.0 강의를 듣게 되었다! 근데 Anaconda에 대한 이해가 부족하여... tensorflow 설치를 한 번에 하지 못하였는데, 이번 김에 정리해보려고 한다. command를 정리하면 다음과 같이 매우 간단하다. Anaconda Commands # conda version conda --version # list up conda's packages conda list Anaconda Environment Commands # make conda env conda create -n [name] python=[python_version] # activate/deactivate conda env conda activate [conda_name] c..
-
유튜브 기초 수학 : 3Blue1Brown의 Essence of linear algebra 수강 후기BIG DATA & AI/Mathematics 2021. 8. 3. 21:33
literally watching all of the ads possible to give this man as much revenue as I can because he deserves it 대학원 수업 선행(?)학습으로 선형대수학을 공부하려는데, 좋은 유튜브 강의가 있어서 공부한 겸 정리 포스팅이다. 애니메이션 + 쉬운 설명 + 좋은 목소리(^^)로 삼위일체 강의이다. 초심자에게 선형대수를 쉽게 설명해 주신다. 특히 쉽게 접할 수 없는 선형대수학에 대한 3D 그래픽을 통한 직관적 이해를 제공한다. 무료로 듣기 송구한 강의라고 감히 평한다. 근데 난 이걸 한 달동안 들었다.. 오늘 겨우 완강했다. 역시 회사 다니면서 공부하기란.. 쉽지 않다 😂😂 Vectors | Chapter 1, Essence of..
-
BERTopic 이란?BIG DATA & AI/NLP 2021. 6. 24. 15:18
BERTopic 이란? 공식 홈페이지 설명에 의하면, BERTopic은 transformers와 c-TF-IDF를 활용한 토픽 모델링 기법으로, 쉽게 해석 가능한 주제(topic의 주요 keyword는 유지!)로 이루어진 dense한 cluster를 만들기 위해 사용된다고 한다. 모델과 함께 visualizations도 html로 제공하는데 이는 LDAvis와 유사하다고 한다! 다행히(?) 공식 홈페이지에 concept, tutorial이 잘 기술되어 있다. ヾ(•ω•`)o https://maartengr.github.io/BERTopic/index.html Home - BERTopic BERTopic BERTopic is a topic modeling technique that leverages tra..
-
자연어 처리 엔지니어의 역량BIG DATA & AI/NLP 2021. 5. 24. 20:19
자연어 처리 전문가가 되려면 어떤 역량이 필요할까? 모집 공고 트렌드를 분석해 보았다. [Papago] 파파고 머신러닝(자연어처리) 체험형 인턴 모집 ■ Machine Learning Scientist : 자연어처리 [체험형 인턴] [역할] · Natural Language Processing을 과학적, 심층적으로 연구 · Multilingual NLP의 최신 연구 재구현 및 개선 - Machine translation - Quality estimation - Multilingual sentence representation learning - Inspecting and analyzing NLP models(language models, translation models) - Solving NLP pro..
-
Web Crawling & Scraping 개념BIG DATA & AI 2021. 5. 3. 18:54
스크래핑 스크래핑(Scraping)이란 웹사이트에 있는 특정 정보를 추출하는 기술을 의미합니다. 스크래핑을 이용하면 웹사이트의 정보를 쉽게 수집할 수 있습니다. 웹에 공개된 정보는 대부분 HTML 형식입니다. 이를 가져와서 데이터베이스에 저장하려면 데이터 가공이 필요합니다. 광고 등의 불필요한 정보를 제거하고, 필요한 정보만 가져오려면 사이트의 구조를 분석해야 합니다. 따라서 스크래핑이라는 기술은 웹에서 데이터를 추출하는 것뿐만 아니라 그러한 구조를 분석하는 것도 포함됩니다. 또한 최근해는 로그인 후 유용한 정보에 접근할 수 있는 사이트도 많습니다. 이 경우 단순히 URL을 알고 있는 것만으로는 유용한 정보에 접근할 수 없습니다. 따라서 제대로 스크래핑하려면 로그인해서 필요한 웹 페이지에 접근하는 기술도..
-
머신러닝과 일반 소프트웨어 비교 (Machine Learning VS General Software)BIG DATA & AI/Machine Learning 2021. 5. 1. 16:09
머신러닝 - Machine Learning! 👾 간단한 머신러닝 알고리즘의 경우 일반 소프트웨어와 비교했을 때 거의 차이가 없는 것처럼 보이지만, 사실은 완전히 다른 구조를 갖고 있다. 우리가 쉽게 접할 수 있는 일반적인 소프트웨어는 언제나 똑같은 과정(알고리즘)을 통해 똑같은 결과를 낸다. 즉 1+1=2라는 일종의 계획된 "계산"을 한다. 하지만 머신러닝 기반 소프트웨어는 데이터와 알고리즘에 따라 다른 결과를 "추론"하는 일을 한다. 즉 이미 알고있는 것으로부터 논리적 결론을 도출한다. 이를 도식화하면 다음과 같다. 우리가 많이 사용하는 스마트폰 잠금 화면을 예로 들어보자. 비밀번호 PIN CODE의 경우 general SW로 적용할 수 있다. 그래서 사용자가 설정한 비밀번호를 저장하여, 이를 입력과 ..
-
Deep Learning 관련 TMI들BIG DATA & AI/Machine Learning 2021. 4. 29. 16:59
그냥, deep learning 공부하기엔 지루하지 않은가? 아니다! 난 아직 열정이 너무 넘쳐서 공부를 계속 할 거다! ... 라면 뒤로 가기를 누르시고, 쉬어가는 차원에서 deep learning 관련하여 정리해 본 TMI들을 공유하겠다. TMI#1. tensorflow 수학에서 1차원 배열은 벡터(vector), 2차원 배열은 행렬(matrix)이라고 부른다. 또 벡터와 행렬을 일반화한 것을 텐서(tensor)라고 한다. Google의 딥러닝 프레임워크 원탑인 tensorflow의 이름이 여기서 유래했으며, 그 뜻은 텐서(tensor)가 신경망을 타고 흐른다(flow)는 뜻이 되겠다. Reference: Deep Learning from Scratch (사이토 고키, Oreilly, 2017)
-
Big Data 분석 알기 쉽게 설명하기 (Easy to Understand Data Analytics with Cooking Recipe)BIG DATA & AI 2021. 4. 14. 21:50
뜬금없지만 어제 카레 요리를 하다가 '빅데이터 분석'을 음식을 만드는 과정에 비유한 어느 글이 생각나 영감을 받아 씁니다. 🍳 Big Data 분석 프로세스는 크게 4가지로 나누어 질 수 있습니다. Data Acquisition Data Preprocessing Deep Learning : Data Modeling & Trainning & Evaluating Data Analytics or Visualization 이를 요리에 비유하면 다음과 같습니다. 0. 재료를 보관하기 위한 냉장고 : 음식을 보관하기 위해 좋은 냉장고가 필요한 것처럼, 데이터를 안전하게 보관하면서 빅 사이즈의 데이터 — 이하 빅데이터 — 를 보관하기 위해서는 좋은 data warehouse 구축이 필요합니다. 물론 냉장고 크기가 클..