반응형

AI/Preprocessing 6

데이터 정규분포화, 표준화

데이터의 정규분포화와 표준화는 모델 성능을 개선하고, 변수 간 상관관계와 이상치를 제거할 수 있으며, 머신 러닝 알고리즘에 맞는 입력 데이터를 생성할 수 있도록 도와줍니다. # 라이브러리 임포트 from sklearn.preprocessing import StandardScaler # StandardScaler 적용 sc = StandardScaler() X_train = sc.fit_transform(X_train) X_test = sc.transform(X_test) train dataset을 정규 분포화(fit_transform) 했던 걸로 test dataset에 표준화(transform) 해야 합니다.

AI/Preprocessing 2023.04.11

라벨 인코딩 vs 원핫 인코딩

📌 Label Encoding : 범주형 변수를 0부터 N-1까지의 숫자로 변환합니다. 문제점 : 예를 들어, 변수 간의 관계가 없는 경우, 인코딩 된 숫자가 변수 간의 관계를 표현하며, 모델이 이러한 쓸모없는 관계를 이해하려고 시도할 수 있습니다. 그리고 변수의 값이 크거나 작은 경우, 변수의 중요도가 부작용을 일으킬 수 있습니다. 예제 코드: from sklearn.preprocessing import LabelEncoder le = LabelEncoder() encoded_labels = le.fit_transform(['good', 'good', 'bad', 'average']) 📌 One-hot Encoding 범주형 변수를 이진 벡터로 변환합니다. 이진 벡터는 한 가지 확실한 답을 가지며, 모..

AI/Preprocessing 2023.04.11

text preprecessing_numpy.argmax()

numpy.argmax() 함수는 배열에서 가장 큰 값의 인덱스를 반환하는 함수이다. import numpy as np arr = np.array([3, 7, 1, 9, 2])이 배열의 경우, 가장 큰 값은 9이며 이 값의 인덱스는 3이다. 이때 np.argmax() 함수를 사용하면 다음과 같이 가장 큰 값의 인덱스를 반환할 수 있다. index_of_max_value = np.argmax(arr) print(index_of_max_value) # Output: 3출력값은 3 이다. 다차원 배열에서도 사용할 수 있다. arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]이 배열의 경우, 가장 큰 값은 9이며 이 값의 인덱스는 (2, 2)이다. 이때 np.argmax() ..

AI/Preprocessing 2023.04.03

이미지들을 배열 데이터셋으로 만들기

이미지 형태의 데이터를 배열로 불러와서 이미지를 쌓아 올리는 작업을 할거다. 우선, 함수들에 대해 알아보자. ▪ np.expand_dims차원을 확장해준다. 예시는 아래와 같다.import numpy as np # 2차원 배열 생성 arr = np.zeros((280, 280)) # 3차원으로 변경 arr = np.expand_dims(arr, axis=-1) # 마지막 차원에 1차원 추가 arr = np.repeat(arr, 3, axis=-1) # 마지막 차원을 3차원으로 확장 print(arr.shape) # (280, 280, 3)입력 : import numpy as np x = np.array([1, 2, 3]) print("Original shape of x:", x.shape) y = np...

AI/Preprocessing 2023.03.22

python_폴더(파일) 복사하기 (copytree, copy_tree)

shutil.copytree shutil.copytree(복사할 파일 위치 , 복사위치 + 파일명) : 두번째 인자에서 복사하는 동시에 파일을 생성한다. ▪ trainset 폴더생성 ▪ testset폴더생성 ▪ validset폴더생성 결과 : ※ 폴더가 존재할 경우는 에러가 발생한다. 존재하는 폴더에 파일을 복사하고 싶다면 어떻게 할까❓ copy_tree 이미 존재하는 폴더에 복사하고 싶을 때 모듈을 불러와야한다. from distutils.dir_util import copy_tree from distutils.dir_util import copy_tree #train copy_tree("/content/drive/MyDrive/Datasets/Car_Images_train/normal","/conte..

AI/Preprocessing 2023.03.20
반응형