반응형
단어의 문장의 다른 요소와 어떤 관계를 가지고 있는지 알아보는 방법이 필요하다.
2. 원-핫 인코딩
: 각 단어를 모두 0으로 바꾸어 주고 원하는 단어만 1로 바꾸어 주는 것
1. 토큰화 함수를 불러와 단어 단위로 토큰화, 각 단어의 인덱스 값을 출력
2. 토큰의 인덱스로만 채워진 새로운 배열 만들기
▪ texts_to_sequences()
3. 원-핫 인코딩
▪ to_categorical()
: 0과 1로만 이루어진 배열로 바꾸기
※ 배열 맨 앞에 0이 추가되므로 단어 수보다 1이 더 많게 인덱스 숫자를 잡아 줘야함 !
결과 :
<1. 텍스트 토큰화>
자연어 처리를 위한 텍스트 전처리 - 1. 텍스트의 토큰화
자연어 : 우리가 평소에 말하는 음성이나 텍스트를 의미한다. 자연어 처리(Natural Language Processing, NLP) : 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것이다. 자연어 처리를 위한 텍스트 전처
oaho.tistory.com
반응형
'AI > DeepLearning' 카테고리의 다른 글
딥러닝_다중 분류 , 선형 회귀, 로지스틱 회귀에 따른 activation, loss 설정 (0) | 2023.04.11 |
---|---|
자연어 처리를 위한 텍스트 전처리 - 3. 단어 임베딩 (0) | 2023.04.02 |
자연어 처리를 위한 텍스트 전처리 - 1. 텍스트의 토큰화 (0) | 2023.04.01 |
이미지들을 배열 데이터셋으로 만들기 (0) | 2023.03.31 |
CNN을 이용한 MNIST 데이터셋 모델링 과정 (0) | 2023.03.17 |