못난명서

고정 헤더 영역

글 제목

메뉴 레이어

못난명서

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 글쓰기
  • 분류 전체보기
    • 프로그래밍
      • 머신러닝 & 딥러닝
      • 서울시 범죄현황 통계자료 분석 및 시각화
      • 웹크롤링 & 텍스트 데이터 분석
      • 알고리즘 문풀 반성시간
      • LG Aimers
    • 수학
      • 선형대수
      • 해석개론
      • 위상수학
      • 수즐 채널 리뷰 및 각종 글 리뷰

검색 레이어

못난명서

검색 영역

컨텐츠 검색

nltk

  • 텍스트 데이터 분석 기초 복습 4 (Text Analysis)

    2023.01.27 by 못난명서

  • 텍스트 데이터 분석 기초 복습 3 (Text Data Exploration)

    2023.01.26 by 못난명서

  • 텍스트 데이터 분석 기초 복습 1 (Preprocessing Text Data)

    2023.01.24 by 못난명서

텍스트 데이터 분석 기초 복습 4 (Text Analysis)

안녕하세요? 오늘은 텍스트 데이터 분석 기초 복습 마지막 시간입니다. 오늘은 영화 리뷰 텍스트 데이터들을 행렬로 변환시켜 TF-IDF 값을 매기고, 데이터들간의 Cosin Similarity를 계산해 두 영화 리뷰들이 비슷한지에 대한 유사도를 알아보는 시간을 가져보도록 하겠습니다. 오늘 사용할 데이터 들입니다. (영화 대부, 인셉션, 쇼생크탈출 리뷰) 오늘 저희가 해 볼 것들에 대한 전체적인 설명을 하자면... 이 리뷰 파일들에 있는 텍스트 데이터들(여러 문장들) 내의 각 단어의 갯수를 세어 행렬로 나타내고, 이 행렬들 간의 코사인 유사도 값을 매겨주는 활동을 할 것입니다. 문장 내의 단어의 개수를 세어 행렬로 나타내주는 것은 sklearn 라이브러리 안에 있는 CounterVectorizer 함수가 해..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 27. 01:47

텍스트 데이터 분석 기초 복습 3 (Text Data Exploration)

안녕하세요? 오늘은 1편(Preprocessing Text Data)에 이은 Text Data Exploration (품사별 토큰 추출, 토큰 빈도 시각화, 유사단어 & 연어) 단계를 복습해보려고 합니다. The process of data analysis for text data 텍스트 데이터를 str 자료형으로 준비 Preprocessing Text Data Tokenizing (토큰화) POS tagging (품사 판별) Stopwords 제거 (불용어 제거) Lemmatize (단어 어근 찾기) Text Data Exploration 품사별 토큰 추출 토큰별 등장횟수 시각화 특정 단어와 유사한 단어 찾기 연달아 등장하는 단어짝 찾기 Text Similarity Analysis TF-IDF Cosi..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 26. 22:09

텍스트 데이터 분석 기초 복습 1 (Preprocessing Text Data)

안녕하세요? 오늘은 구름 인공지능 교육에서 배운 nltk를 활용한 텍스트 데이터 분석 활동을 복습해 보려고 합니다. (저희가 활용해볼 nltk library는 Natural Language Toolkit으로 주로 영문 텍스트 데이터 분석에 이용되는 파이썬 라이브러리입니다.) 텍스트 데이터 분석의 전체적인 과정은 아래와 같습니다. 오늘은 Preprocessing Text Data 를 중점적으로 복습해보도록 하겠습니다. The process of data analysis for text data 텍스트 데이터를 str 자료형으로 준비 Preprocessing Text Data Tokenizing (토큰화) POS tagging (품사 판별) Stopwords 제거 (불용어 제거) Lemmatize (단어 어..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 24. 23:12

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
못난명서 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바