못난명서

고정 헤더 영역

글 제목

메뉴 레이어

못난명서

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 글쓰기
  • 분류 전체보기
    • 프로그래밍
      • 머신러닝 & 딥러닝
      • 서울시 범죄현황 통계자료 분석 및 시각화
      • 웹크롤링 & 텍스트 데이터 분석
      • 알고리즘 문풀 반성시간
      • LG Aimers
    • 수학
      • 선형대수
      • 해석개론
      • 위상수학
      • 수즐 채널 리뷰 및 각종 글 리뷰

검색 레이어

못난명서

검색 영역

컨텐츠 검색

프로그래밍/웹크롤링 & 텍스트 데이터 분석

  • 파이썬을 이용한 네이버 뉴스 스크래핑 (2)

    2023.02.05 by 못난명서

  • 파이썬을 이용한 네이버 뉴스 스크래핑 (1)

    2023.02.05 by 못난명서

  • 텍스트 데이터 분석 기초 복습 4 (Text Analysis)

    2023.01.27 by 못난명서

  • 텍스트 데이터 분석 기초 복습 3 (Text Data Exploration)

    2023.01.26 by 못난명서

  • 텍스트 데이터 분석 기초 복습 2 (TF-IDF, Cosine Similarity, 정규표현식)

    2023.01.25 by 못난명서

  • 텍스트 데이터 분석 기초 복습 1 (Preprocessing Text Data)

    2023.01.24 by 못난명서

  • 파이썬 웹크롤링 기초 복습 (2)

    2023.01.12 by 못난명서

  • 파이썬 웹크롤링 기초 복습 (1)

    2023.01.12 by 못난명서

파이썬을 이용한 네이버 뉴스 스크래핑 (2)

안녕하세요? 오늘은 저번시간에 했던 파이썬을 이용한 네이버 뉴스 스크래핑에 좀 더 심화한 내용을 가져왔습니다. 저번시간까지는 네이버에 '인공지능'을 검색했을 때 나오는 첫페이지에만 해당되는 기사들을 하나 하나씩 스크래핑을 했다면, 오늘은 첫번째 페이지만이 아니라 내가 원하는 페이지까지 넘어가서, 내가 원하는 날짜 안에 작성된 기사들을, 내가 원하는 정렬타입에 맞게 순서대로 스크래핑을 해보려고 합니다. 저번시간 내용까지 이해를 잘 하셨다면 어려운 부분이 전혀 없습니다. 코드의 굵은 뼈대는 저번시간과 동일합니다. 거기에 제가 원하는 페이지나, 날짜나, 정렬타입을 설정하려면 그저 해당 url이 어떤 규칙성을 가지고 바뀌는지만 파악해서 적용해주면 끝납니다. 먼저 네이버에 인공지능을 검색한 후 정렬 기준은 최신순..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 2. 5. 20:48

파이썬을 이용한 네이버 뉴스 스크래핑 (1)

안녕하세요? 오늘은 오랜만에 파이썬 웹스크래핑을 해보려고 합니다. https://audqjawns.tistory.com/7 파이썬 웹크롤링 기초 복습 (1) 안녕하세요? 오늘은 구름 인공지능 교육에서 배운 파이썬 웹크롤링 & 텍스트 데이터 분석 활동을 복습해보는 시간을 갖도록 하겠습니다. 시작하기에 앞서, 먼저 단어의 뜻을 명확히 하고 가겠습 audqjawns.tistory.com 저번시간에 배웠던 기초적인 웹스크래핑 방법들을 적용하여 네이버에 '인공지능'을 검색했을 때 나오는 뉴스들을 스크래핑 해보도록 하겠습니다. 오늘 최종적으로 사용할 코드는 다음과 같습니다. #!pip install beautifulsoup4==4.9.3 import requests from bs4 import BeautifulSo..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 2. 5. 15:42

텍스트 데이터 분석 기초 복습 4 (Text Analysis)

안녕하세요? 오늘은 텍스트 데이터 분석 기초 복습 마지막 시간입니다. 오늘은 영화 리뷰 텍스트 데이터들을 행렬로 변환시켜 TF-IDF 값을 매기고, 데이터들간의 Cosin Similarity를 계산해 두 영화 리뷰들이 비슷한지에 대한 유사도를 알아보는 시간을 가져보도록 하겠습니다. 오늘 사용할 데이터 들입니다. (영화 대부, 인셉션, 쇼생크탈출 리뷰) 오늘 저희가 해 볼 것들에 대한 전체적인 설명을 하자면... 이 리뷰 파일들에 있는 텍스트 데이터들(여러 문장들) 내의 각 단어의 갯수를 세어 행렬로 나타내고, 이 행렬들 간의 코사인 유사도 값을 매겨주는 활동을 할 것입니다. 문장 내의 단어의 개수를 세어 행렬로 나타내주는 것은 sklearn 라이브러리 안에 있는 CounterVectorizer 함수가 해..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 27. 01:47

텍스트 데이터 분석 기초 복습 3 (Text Data Exploration)

안녕하세요? 오늘은 1편(Preprocessing Text Data)에 이은 Text Data Exploration (품사별 토큰 추출, 토큰 빈도 시각화, 유사단어 & 연어) 단계를 복습해보려고 합니다. The process of data analysis for text data 텍스트 데이터를 str 자료형으로 준비 Preprocessing Text Data Tokenizing (토큰화) POS tagging (품사 판별) Stopwords 제거 (불용어 제거) Lemmatize (단어 어근 찾기) Text Data Exploration 품사별 토큰 추출 토큰별 등장횟수 시각화 특정 단어와 유사한 단어 찾기 연달아 등장하는 단어짝 찾기 Text Similarity Analysis TF-IDF Cosi..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 26. 22:09

텍스트 데이터 분석 기초 복습 2 (TF-IDF, Cosine Similarity, 정규표현식)

안녕하세요? 오늘은 원래 텍스트 데이터 분석 기초 활동 중에서 Text Data Exploration을 복습하려고 했으나 이를 하기전에 좀 알고가야할 배경지식들이 좀 있어서 이들을 복습하면서 이해해보는 시간을 가져보려고 합니다. TF-IDF 란? 어떤 특정 단어(문장의 구성요소)가 문서나 말뭉치에서 어떤 중요도를 가지는지를 나타내는 지표 단어를 갯수 그대로 카운트하지 않고, 불용어처럼 많은 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소하는 방법 문서 d(document)와 단어 t에 대해... 예시 문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저는 과일이 좋아요 위 처럼 4개의 문서가 있다고 가정을 할 때 ..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 25. 01:11

텍스트 데이터 분석 기초 복습 1 (Preprocessing Text Data)

안녕하세요? 오늘은 구름 인공지능 교육에서 배운 nltk를 활용한 텍스트 데이터 분석 활동을 복습해 보려고 합니다. (저희가 활용해볼 nltk library는 Natural Language Toolkit으로 주로 영문 텍스트 데이터 분석에 이용되는 파이썬 라이브러리입니다.) 텍스트 데이터 분석의 전체적인 과정은 아래와 같습니다. 오늘은 Preprocessing Text Data 를 중점적으로 복습해보도록 하겠습니다. The process of data analysis for text data 텍스트 데이터를 str 자료형으로 준비 Preprocessing Text Data Tokenizing (토큰화) POS tagging (품사 판별) Stopwords 제거 (불용어 제거) Lemmatize (단어 어..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 24. 23:12

파이썬 웹크롤링 기초 복습 (2)

안녕하세요? 오늘은 저번시간에 배웠던 파이썬 웹크롤링으로 네이버 영화 사이트에서 영화 하나를 골라 그 영화의 제목이나 줄거리, 출연진들을 스크래핑해보았습니다. 매우 간단하지만 전체적인 흐름을 한번 더 익히는데 좋을 것 같아 해보았습니다. (오늘은 저번시간의 복습이므로 자세한 설명은 생략하겠습니다. ) (전체코드) !pip install beautifulsoup4==4.9.3 from bs4 import BeautifulSoup from urllib.request import urlopen # 1.불러오려는 url 입력하기 (네이버영화 -> 스파이더맨 노웨이홈) url = 'https://movie.naver.com/movie/bi/mi/basic.naver?code=208077' # 2.urlopen 함..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 12. 23:41

파이썬 웹크롤링 기초 복습 (1)

안녕하세요? 오늘은 구름 인공지능 교육에서 배운 파이썬 웹크롤링 & 텍스트 데이터 분석 활동을 복습해보는 시간을 갖도록 하겠습니다. 시작하기에 앞서, 먼저 단어의 뜻을 명확히 하고 가겠습니다. 우리가 흔히 사용하는 웹크롤링(Web crawling)에서 crawl이란 1.(엎드려)기다. 2.(곤충이)기어가다. 3.몹시 느리게 가다. 라는 뜻이 있고 본래의 Web Crawling이란 뜻은 Crawler라는 Bot이 거미줄 처럼 엉켜져있는 여러 web상의 link들을 타고다니며 돌아다니는 행위를 말하며 우리가 지금 흔히 webpage에서 원하는 자료를 긁어오는 행위는 web scraping이란 말이 맞습니다. (하지만 지금은 흔히 웹스크래핑을 웹크롤링으로 부르고 있습니다.) 또 한가지 웹스크래핑을 배우기 앞서..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 12. 01:14

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
못난명서 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바