AI/DeepLearning

자연어 처리를 위한 텍스트 전처리 - 2. 원-핫 인코딩

oaho 2023. 4. 2. 00:06
반응형

단어의 문장의 다른 요소와 어떤 관계를 가지고 있는지 알아보는 방법이 필요하다.

 

2. 원-핫 인코딩 

: 각 단어를 모두 0으로 바꾸어 주고 원하는 단어만 1로 바꾸어 주는 것

 

 

1. 토큰화 함수를 불러와 단어 단위로 토큰화, 각 단어의 인덱스 값을 출력

 

2. 토큰의 인덱스로만 채워진 새로운 배열 만들기

▪ texts_to_sequences()

 

3. 원-핫 인코딩

▪ to_categorical()

: 0과 1로만 이루어진 배열로 바꾸기

※ 배열 맨 앞에 0이 추가되므로 단어 수보다 1이 더 많게 인덱스 숫자를 잡아 줘야함 !

 

 

결과 :

 

 

 

<1. 텍스트 토큰화>

 

자연어 처리를 위한 텍스트 전처리 - 1. 텍스트의 토큰화

자연어 : 우리가 평소에 말하는 음성이나 텍스트를 의미한다. 자연어 처리(Natural Language Processing, NLP) : 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것이다. 자연어 처리를 위한 텍스트 전처

oaho.tistory.com

 

반응형