못난명서

고정 헤더 영역

글 제목

메뉴 레이어

못난명서

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 글쓰기
  • 분류 전체보기
    • 프로그래밍
      • 머신러닝 & 딥러닝
      • 서울시 범죄현황 통계자료 분석 및 시각화
      • 웹크롤링 & 텍스트 데이터 분석
      • 알고리즘 문풀 반성시간
      • LG Aimers
    • 수학
      • 선형대수
      • 해석개론
      • 위상수학
      • 수즐 채널 리뷰 및 각종 글 리뷰

검색 레이어

못난명서

검색 영역

컨텐츠 검색

정규표현식

  • 텍스트 데이터 분석 기초 복습 3 (Text Data Exploration)

    2023.01.26 by 못난명서

  • 텍스트 데이터 분석 기초 복습 2 (TF-IDF, Cosine Similarity, 정규표현식)

    2023.01.25 by 못난명서

텍스트 데이터 분석 기초 복습 3 (Text Data Exploration)

안녕하세요? 오늘은 1편(Preprocessing Text Data)에 이은 Text Data Exploration (품사별 토큰 추출, 토큰 빈도 시각화, 유사단어 & 연어) 단계를 복습해보려고 합니다. The process of data analysis for text data 텍스트 데이터를 str 자료형으로 준비 Preprocessing Text Data Tokenizing (토큰화) POS tagging (품사 판별) Stopwords 제거 (불용어 제거) Lemmatize (단어 어근 찾기) Text Data Exploration 품사별 토큰 추출 토큰별 등장횟수 시각화 특정 단어와 유사한 단어 찾기 연달아 등장하는 단어짝 찾기 Text Similarity Analysis TF-IDF Cosi..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 26. 22:09

텍스트 데이터 분석 기초 복습 2 (TF-IDF, Cosine Similarity, 정규표현식)

안녕하세요? 오늘은 원래 텍스트 데이터 분석 기초 활동 중에서 Text Data Exploration을 복습하려고 했으나 이를 하기전에 좀 알고가야할 배경지식들이 좀 있어서 이들을 복습하면서 이해해보는 시간을 가져보려고 합니다. TF-IDF 란? 어떤 특정 단어(문장의 구성요소)가 문서나 말뭉치에서 어떤 중요도를 가지는지를 나타내는 지표 단어를 갯수 그대로 카운트하지 않고, 불용어처럼 많은 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소하는 방법 문서 d(document)와 단어 t에 대해... 예시 문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저는 과일이 좋아요 위 처럼 4개의 문서가 있다고 가정을 할 때 ..

프로그래밍/웹크롤링 & 텍스트 데이터 분석 2023. 1. 25. 01:11

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
못난명서 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바