'텍스트전처리' 태그의 글 목록

텍스트전처리 2

원핫 인코딩을 그대로 사용하면 벡터의 길이가 너무 길어진다. ex) 1만 개의 단어 토큰으로 이루어진 말뭉치를 다룬다고 할 때, 이 데이터를 원핫인코딩으로 벡터화하면 9,999의 0과 하나의 1로 이루어진 단어 벡터를 1만 개나 만들어야 한다. 공간적 낭비를 해결하기 위한 방법을 알아보자 3. 단어 임베딩 단어 임베딩(word embedding) : 주어진 배열을 정해진 길이로 압축시킨다. 각 단어 간의 유사도를 계산한다. ex) tiger, dolphin / sad, bad / cat, dog / good, happy => 각 배열을 새로운 수치로 바꾸어줌 from tensorflow.keras.layers import Embedding model = Sequential() model.add(Embed..

AI/DeepLearning 2023.04.02

자연어 처리를 위한 텍스트 전처리 - 2. 원-핫 인코딩

단어의 문장의 다른 요소와 어떤 관계를 가지고 있는지 알아보는 방법이 필요하다. 2. 원-핫 인코딩 : 각 단어를 모두 0으로 바꾸어 주고 원하는 단어만 1로 바꾸어 주는 것 1. 토큰화 함수를 불러와 단어 단위로 토큰화, 각 단어의 인덱스 값을 출력 2. 토큰의 인덱스로만 채워진 새로운 배열 만들기 ▪ texts_to_sequences() 3. 원-핫 인코딩 ▪ to_categorical() : 0과 1로만 이루어진 배열로 바꾸기 ※ 배열 맨 앞에 0이 추가되므로 단어 수보다 1이 더 많게 인덱스 숫자를 잡아 줘야함 ! 결과 : 자연어 처리를 위한 텍스트 전처리 - 1. 텍스트의 토큰화 자연어 : 우리가 평소에 말하는 음성이나 텍스트를 의미한다. 자연어 처리(Natural Language Process..

AI/DeepLearning 2023.04.02

공부기록 👩🏻‍💻📒✏️📚📝📙

원핫인코딩, 지도학습과 비지도학습, 프로그래머스, BAEKJOON, 백준, 제조데이터, CNN, 선형회귀, 텍스트전처리, 쿠버네티스, 제조ai, 데이터분석, 회귀모델성능평가, sigmoid, HTML모달창, 코딩테스트, 머신러닝 전처리, 회귀모델, 머신러닝, 딥러닝,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

코딩하는 짱구

텍스트전처리 2

티스토리툴바