반응형
자연어 : 우리가 평소에 말하는 음성이나 텍스트를 의미한다.
자연어 처리(Natural Language Processing, NLP) : 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것이다.
자연어 처리를 위한 텍스트 전처리 과정
1. 텍스트의 토큰화
토큰(token) : 입력할 텍스트를 단어별, 문장별, 형태소별로 나눌 수 있는데, 이렇게 작게 나누어진 하나의 단위
토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정
▪ text_to_word_sequence()
: 단어 단위로 쉽게 나눌 수 있다.
from tensorflow.keras.preprocessing.text import text_to_word_sequence
"해보지 않으면 해낼 수 없다" 라는 텍스트를 전처리하겠다.
▪ Bag-of-Words
: 단어의 가방, 같은 단어끼리 따로따로 가방에 담은 후 각 가방에 몇 개의 단어가 들어 있는지 세는 기법
반복되는 단어가 중요한 역할을 하는 단어임을 짐작할 수 있다.
▪ Tokenizer()
: 단어의 빈도수를 쉽게 계산할 수 있다.
케라스에서 제공하는 텍스트 전처리 함수 중에 하나이다.
from tensorflow.keras.preprocessing.text import Tokenizer
▪ word_counts
: 단어의 빈도수를 계산해 주는 함수
1. 단어 카운트
=> 각 단어의 빈도수가 순서를 기억하는 OrderedDict 클래스에 담겨 있는 형태로 출력된다.
2. 문장 카운트
=> 문장 개수 출력
3. 각 단어들이 몇 개의 문장에 포함되어 있는지
▪ word_docs()
4. 각 단어에 매겨진 인덱스 값을 출력
▪ word_index()
반응형
'AI > DeepLearning' 카테고리의 다른 글
자연어 처리를 위한 텍스트 전처리 - 3. 단어 임베딩 (0) | 2023.04.02 |
---|---|
자연어 처리를 위한 텍스트 전처리 - 2. 원-핫 인코딩 (0) | 2023.04.02 |
이미지들을 배열 데이터셋으로 만들기 (0) | 2023.03.31 |
CNN을 이용한 MNIST 데이터셋 모델링 과정 (0) | 2023.03.17 |
Conv2D, max pooling, Dropout, Flatten (0) | 2023.03.17 |