AI/DeepLearning

자연어 처리를 위한 텍스트 전처리 - 1. 텍스트의 토큰화

oaho 2023. 4. 1. 21:36
반응형

자연어 : 우리가 평소에 말하는 음성이나 텍스트를 의미한다.

자연어 처리(Natural Language Processing, NLP) : 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것이다.

 

 

자연어 처리를 위한 텍스트 전처리 과정

 

1. 텍스트의 토큰화

 

토큰(token) : 입력할 텍스트를 단어별, 문장별, 형태소별로 나눌 수 있는데, 이렇게 작게 나누어진 하나의 단위

토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정

 

 

▪ text_to_word_sequence()

: 단어 단위로 쉽게 나눌 수 있다.

from tensorflow.keras.preprocessing.text import text_to_word_sequence

 

"해보지 않으면 해낼 수 없다"  라는 텍스트를 전처리하겠다.

 

Bag-of-Words

: 단어의 가방, 같은 단어끼리 따로따로 가방에 담은 후 각 가방에 몇 개의 단어가 들어 있는지 세는 기법

 반복되는 단어가 중요한 역할을 하는 단어임을 짐작할 수 있다.

 

 

▪ Tokenizer()

: 단어의 빈도수를 쉽게 계산할 수 있다.

케라스에서 제공하는 텍스트 전처리 함수 중에 하나이다.

from tensorflow.keras.preprocessing.text import Tokenizer

 

▪ word_counts

: 단어의 빈도수를 계산해 주는 함수

 

1. 단어 카운트

=> 각 단어의 빈도수가 순서를 기억하는 OrderedDict 클래스에 담겨 있는 형태로 출력된다.

 

 

2.  문장 카운트

 

=> 문장 개수 출력

 

 

3. 각 단어들이 몇 개의 문장에 포함되어 있는지

 

▪ word_docs()

 

4. 각 단어에 매겨진 인덱스 값을 출력

 

▪ word_index()

 

반응형