못난명서

고정 헤더 영역

글 제목

메뉴 레이어

못난명서

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 글쓰기
  • 분류 전체보기
    • 프로그래밍
      • 머신러닝 & 딥러닝
      • 서울시 범죄현황 통계자료 분석 및 시각화
      • 웹크롤링 & 텍스트 데이터 분석
      • 알고리즘 문풀 반성시간
      • LG Aimers
    • 수학
      • 선형대수
      • 해석개론
      • 위상수학
      • 수즐 채널 리뷰 및 각종 글 리뷰

검색 레이어

못난명서

검색 영역

컨텐츠 검색

코사인유사도

  • 텍스트 데이터 분석 기초 복습 4 (Text Analysis)

    2023.01.27 by 못난명서

  • 텍스트 데이터 분석 기초 복습 2 (TF-IDF, Cosine Similarity, 정규표현식)

    2023.01.25 by 못난명서

텍스트 데이터 분석 기초 복습 4 (Text Analysis)

안녕하세요? 오늘은 텍스트 데이터 분석 기초 복습 마지막 시간입니다. 오늘은 영화 리뷰 텍스트 데이터들을 행렬로 변환시켜 TF-IDF 값을 매기고, 데이터들간의 Cosin Similarity를 계산해 두 영화 리뷰들이 비슷한지에 대한 유사도를 알아보는 시간을 가져보도록 하겠습니다. 오늘 사용할 데이터 들입니다. (영화 대부, 인셉션, 쇼생크탈출 리뷰) 오늘 저희가 해 볼 것들에 대한 전체적인 설명을 하자면... 이 리뷰 파일들에 있는 텍스트 데이터들(여러 문장들) 내의 각 단어의 갯수를 세어 행렬로 나타내고, 이 행렬들 간의 코사인 유사도 값을 매겨주는 활동을 할 것입니다. 문장 내의 단어의 개수를 세어 행렬로 나타내주는 것은 sklearn 라이브러리 안에 있는 CounterVectorizer 함수가 해..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 27. 01:47

텍스트 데이터 분석 기초 복습 2 (TF-IDF, Cosine Similarity, 정규표현식)

안녕하세요? 오늘은 원래 텍스트 데이터 분석 기초 활동 중에서 Text Data Exploration을 복습하려고 했으나 이를 하기전에 좀 알고가야할 배경지식들이 좀 있어서 이들을 복습하면서 이해해보는 시간을 가져보려고 합니다. TF-IDF 란? 어떤 특정 단어(문장의 구성요소)가 문서나 말뭉치에서 어떤 중요도를 가지는지를 나타내는 지표 단어를 갯수 그대로 카운트하지 않고, 불용어처럼 많은 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소하는 방법 문서 d(document)와 단어 t에 대해... 예시 문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저는 과일이 좋아요 위 처럼 4개의 문서가 있다고 가정을 할 때 ..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 25. 01:11

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
못난명서 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바