못난명서

고정 헤더 영역

글 제목

메뉴 레이어

못난명서

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 글쓰기
  • 분류 전체보기
    • 프로그래밍
      • 머신러닝 & 딥러닝
      • 서울시 범죄현황 통계자료 분석 및 시각화
      • 웹크롤링 & 텍스트 데이터 분석
      • 알고리즘 문풀 반성시간
      • LG Aimers
    • 수학
      • 선형대수
      • 해석개론
      • 위상수학
      • 수즐 채널 리뷰 및 각종 글 리뷰

검색 레이어

못난명서

검색 영역

컨텐츠 검색

싸이킷런

  • 텍스트 데이터 분석 기초 복습 4 (Text Analysis)

    2023.01.27 by 못난명서

텍스트 데이터 분석 기초 복습 4 (Text Analysis)

안녕하세요? 오늘은 텍스트 데이터 분석 기초 복습 마지막 시간입니다. 오늘은 영화 리뷰 텍스트 데이터들을 행렬로 변환시켜 TF-IDF 값을 매기고, 데이터들간의 Cosin Similarity를 계산해 두 영화 리뷰들이 비슷한지에 대한 유사도를 알아보는 시간을 가져보도록 하겠습니다. 오늘 사용할 데이터 들입니다. (영화 대부, 인셉션, 쇼생크탈출 리뷰) 오늘 저희가 해 볼 것들에 대한 전체적인 설명을 하자면... 이 리뷰 파일들에 있는 텍스트 데이터들(여러 문장들) 내의 각 단어의 갯수를 세어 행렬로 나타내고, 이 행렬들 간의 코사인 유사도 값을 매겨주는 활동을 할 것입니다. 문장 내의 단어의 개수를 세어 행렬로 나타내주는 것은 sklearn 라이브러리 안에 있는 CounterVectorizer 함수가 해..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 27. 01:47

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
못난명서 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바