텍스트 데이터 분석 기초 복습 4 (Text Analysis)
안녕하세요? 오늘은 텍스트 데이터 분석 기초 복습 마지막 시간입니다. 오늘은 영화 리뷰 텍스트 데이터들을 행렬로 변환시켜 TF-IDF 값을 매기고, 데이터들간의 Cosin Similarity를 계산해 두 영화 리뷰들이 비슷한지에 대한 유사도를 알아보는 시간을 가져보도록 하겠습니다. 오늘 사용할 데이터 들입니다. (영화 대부, 인셉션, 쇼생크탈출 리뷰) 오늘 저희가 해 볼 것들에 대한 전체적인 설명을 하자면... 이 리뷰 파일들에 있는 텍스트 데이터들(여러 문장들) 내의 각 단어의 갯수를 세어 행렬로 나타내고, 이 행렬들 간의 코사인 유사도 값을 매겨주는 활동을 할 것입니다. 문장 내의 단어의 개수를 세어 행렬로 나타내주는 것은 sklearn 라이브러리 안에 있는 CounterVectorizer 함수가 해..
프로그래밍/웹크롤링 & 텍스트 데이터 분석
2023. 1. 27. 01:47