-
Web Crawling & Scraping 개념BIG DATA & AI 2021. 5. 3. 18:54반응형
스크래핑
스크래핑(Scraping)이란 웹사이트에 있는 특정 정보를 추출하는 기술을 의미합니다. 스크래핑을 이용하면 웹사이트의 정보를 쉽게 수집할 수 있습니다.
웹에 공개된 정보는 대부분 HTML 형식입니다. 이를 가져와서 데이터베이스에 저장하려면 데이터 가공이 필요합니다. 광고 등의 불필요한 정보를 제거하고, 필요한 정보만 가져오려면 사이트의 구조를 분석해야 합니다. 따라서 스크래핑이라는 기술은 웹에서 데이터를 추출하는 것뿐만 아니라 그러한 구조를 분석하는 것도 포함됩니다.
또한 최근해는 로그인 후 유용한 정보에 접근할 수 있는 사이트도 많습니다. 이 경우 단순히 URL을 알고 있는 것만으로는 유용한 정보에 접근할 수 없습니다. 따라서 제대로 스크래핑하려면 로그인해서 필요한 웹 페이지에 접근하는 기술도 알아야 합니다.
크롤링
크롤링(Crawling)이란 프로그램이 웹사이트를 정기적으로 돌며 정보를 추출하는 기술입니다. 크롤링하는 프로그램을 크롤러(Crawler) 또는 스파이더(Spider)라고 합니다.
예를 들어, 검색 엔진을 구현할 때 사용하는 크롤러는 웹사이트의 링크를 타고 돌며 웹사이트를 돌아 다닙니다. 그리고 웹사이트의 데이터를 긁어 데이터베이스에 저장합니다. 정기적으로 웹사이트를 돌아다니므로 최신 정보를 유지할 수 있습니다.
Reference
파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문 (쿠지라 히코우즈쿠에, 위키북스, 2017)
반응형'BIG DATA & AI' 카테고리의 다른 글
Deep Learning for Graphs: Naïve Approach부터 Graph Encoder, GIN까지 (1) 2022.08.30 GNN Overview 및 검색 엔진에 연결해 보기 (Predict Then Propagate: Graph Neural Networks Meet Personalized PageRank) (0) 2022.06.27 분류 모델에 대한 성능 측정하기 (Model Evaluation) (0) 2022.03.27 GAN (Generative Adversarial Network) (0) 2021.12.09 Big Data 분석 알기 쉽게 설명하기 (Easy to Understand Data Analytics with Cooking Recipe) (0) 2021.04.14