원핫 인코딩을 그대로 사용하면 벡터의 길이가 너무 길어진다. ex) 1만 개의 단어 토큰으로 이루어진 말뭉치를 다룬다고 할 때, 이 데이터를 원핫인코딩으로 벡터화하면 9,999의 0과 하나의 1로 이루어진 단어 벡터를 1만 개나 만들어야 한다. 공간적 낭비를 해결하기 위한 방법을 알아보자 3. 단어 임베딩 단어 임베딩(word embedding) : 주어진 배열을 정해진 길이로 압축시킨다. 각 단어 간의 유사도를 계산한다. ex) tiger, dolphin / sad, bad / cat, dog / good, happy => 각 배열을 새로운 수치로 바꾸어줌 from tensorflow.keras.layers import Embedding model = Sequential() model.add(Embed..