안녕하세요?
오늘은 원래 텍스트 데이터 분석 기초 활동 중에서 Text Data Exploration을 복습하려고 했으나 이를 하기전에 좀 알고가야할 배경지식들이 좀 있어서 이들을 복습하면서 이해해보는 시간을 가져보려고 합니다.
위 처럼 4개의 문서가 있다고 가정을 할 때 우리는 각 문서들을 벡터 공간으로 바꾸어 표현할 수 있습니다.(단어의 빈도수 tf값)
위 4개의 문서에 대한 idf값을 계산하게 되면 아래와 같을 것입니다.
이 idf값을 볼 때 한번 중요하게 생각해볼 것들은 다음과 같습니다.
정규표현식 (Regex) 정리
정규표현식은 아주 가끔 쓰기때문에 항상 다시 볼때마다 헷갈리곤 하기에 주요 사용예를 내가 나중에 다시 봤을 때 편하도록 정리하여 보았다. 정규 표현식의 용어들정규 표현식에서 사용되는
hamait.tistory.com
import re #정규표현식
# re.match('^[a-zA-Z]+', 'airplane')
print(type(re.match('^[a-zA-Z]+', 'airplane')))
print(re.match('^[a-zA-Z]+', 'airplane'))
print(bool(re.match('^[a-zA-Z]+', 'airplane')))
print()
print(re.match('^[a-zA-Z]+', 'NewJeans'))
print(re.match('^[a-zA-Z]+', '???lessrafim'))
print(re.match('^[ㄱ-ㅎ]+', 'ㅋㅋㅋㅋㅋㅋ'))
print(re.match('^[가-힣]+', 'ㅋㅋㅋㅋㅋㅋ'))
print(re.match('^[가-힣]+', '명서준'))
print()
# 꺽쇠지우고 findall
re.findall('[a-zA-Z]+', 'Temperature is 32, air is clean and ware')
텍스트 데이터 분석 기초 복습 4 (Text Analysis) (0) | 2023.01.27 |
---|---|
텍스트 데이터 분석 기초 복습 3 (Text Data Exploration) (1) | 2023.01.26 |
텍스트 데이터 분석 기초 복습 1 (Preprocessing Text Data) (0) | 2023.01.24 |
파이썬 웹크롤링 기초 복습 (2) (0) | 2023.01.12 |
파이썬 웹크롤링 기초 복습 (1) (0) | 2023.01.12 |