자연어 처리를 위한 텍스트 전처리

AI/DeepLearning

자연어 처리를 위한 텍스트 전처리 - 1. 텍스트의 토큰화

oaho 2023. 4. 1. 21:36

자연어 : 우리가 평소에 말하는 음성이나 텍스트를 의미한다.

자연어 처리(Natural Language Processing, NLP) : 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것이다.

자연어 처리를 위한 텍스트 전처리 과정

1. 텍스트의 토큰화

토큰(token) : 입력할 텍스트를 단어별, 문장별, 형태소별로 나눌 수 있는데, 이렇게 작게 나누어진 하나의 단위

토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정

▪ text_to_word_sequence()

: 단어 단위로 쉽게 나눌 수 있다.

from tensorflow.keras.preprocessing.text import text_to_word_sequence

"해보지 않으면 해낼 수 없다" 라는 텍스트를 전처리하겠다.

▪ Bag-of-Words

: 단어의 가방, 같은 단어끼리 따로따로 가방에 담은 후 각 가방에 몇 개의 단어가 들어 있는지 세는 기법

반복되는 단어가 중요한 역할을 하는 단어임을 짐작할 수 있다.

▪ Tokenizer()

: 단어의 빈도수를 쉽게 계산할 수 있다.

케라스에서 제공하는 텍스트 전처리 함수 중에 하나이다.

from tensorflow.keras.preprocessing.text import Tokenizer

▪ word_counts

: 단어의 빈도수를 계산해 주는 함수

1. 단어 카운트

=> 각 단어의 빈도수가 순서를 기억하는 OrderedDict 클래스에 담겨 있는 형태로 출력된다.

2. 문장 카운트

=> 문장 개수 출력

3. 각 단어들이 몇 개의 문장에 포함되어 있는지

▪ word_docs()

4. 각 단어에 매겨진 인덱스 값을 출력

▪ word_index()

자연어 처리를 위한 텍스트 전처리 - 3. 단어 임베딩 (0)	2023.04.02
자연어 처리를 위한 텍스트 전처리 - 2. 원-핫 인코딩 (0)	2023.04.02
이미지들을 배열 데이터셋으로 만들기 (0)	2023.03.31
CNN을 이용한 MNIST 데이터셋 모델링 과정 (0)	2023.03.17
Conv2D, max pooling, Dropout, Flatten (0)	2023.03.17

공부기록 👩🏻‍💻📒✏️📚📝📙

BAEKJOON, 쿠버네티스, 선형회귀, 코딩테스트, 제조ai, sigmoid, 데이터분석, 백준, 텍스트전처리, 제조데이터, 머신러닝 전처리, 회귀모델성능평가, 프로그래머스, 지도학습과 비지도학습, CNN, 머신러닝, HTML모달창, 회귀모델, 원핫인코딩, 딥러닝,