반응형

AI/DataAnalysis 7

데이터프레임의 데이터 결측치 처리

"df"DataFrame의 데이터 결측치 처리 컬럼 column1, column2, column3, column4, column5 ,,, 있다고 가정 ▪ 컬럼(column) 1개 삭제 .drop() df.drop("column", axis=1, inplace=True) df.drop(['column'], axis=1) df.drop(columns=['column'], inplace=True) ▪ 컬럼 여러개 삭제 df = df.drop(columns=['column1', 'column2', 'column3' ]) df = df.drop(['column1', 'column2','column3'], axis=1) ▪ "df"DataFrame의 "column1" 컬럼에 "_"값이 있는지 확인 df["colum..

AI/DataAnalysis 2023.04.11

데이터프레임의 데이터의 구성 확인하기

"df" DataFrame의 데이터의 구성 확인 ■ 앞부분 5줄 출력 df.head() ■ 뒷부분 5줄 출력 df.tail() ■ 데이터프레임 정보(컬럼정보, Null 여부, 타입)출력 df.info() ■ 데이터프레임의 계산 가능한 값들에 대한 통계치 확인 df.describe() ■ df1 데이터프레임 컬럼들의 데이터타입을 확인 df.dtypes ■ 컬럼 항목에 Null 존재하는지 확인 df.isnull().sum() ■ 지정 컬럼(column)에 대한 데이터 확인 df['column'] ■ 지정 컬럼(column) 데이터 별 건수를 나열 df['column'].value_counts() ■ 지정 컬럼(column) 데이터 별 건수 비율 df['column'].value_counts(normalize..

AI/DataAnalysis 2023.04.11

결측치 처리

1. 불필요한 변수 지우기 drop_cols = ['Cabin', 'PassengerId', 'Name', 'Ticket'] titanic.drop(drop_cols, axis=1, inplace=True) 2. NaN삭제 ( .dropna ) titanic.dropna(axis=0, inplace=True) 3. 일부 행 지우기 (subset=['열']) titanic.dropna(subset=['Age'], axis=0, inplace=True) 4. NaN채우기 ( fillna ) 1) 평균값으로 채우기 mean_age = titanic['Age'].mean() titanic['Age'].fillna(mean_age, inplace=True) 2) 최빈값으로 채우기 titanic['Embarked'..

AI/DataAnalysis 2023.02.20

Python_웹 크롤링

웹페이지 종류 & 파싱 방법 정적 페이지 크롤링할 때 -> html 문자열로 받아서 파싱 동적 페이지 크롤링할 때 -> json 문자열로 받아서 파싱 동적 페이지 크롤링 실습) 네이버 증권 -> 코스피 -> 일별시세 데이터 수집 1. ctrl + shift + i => 개발자 도구 2. 페이지 분석하기 page, pagesize => 변경할 수 있음 (변수로 사용) GET방식으로 데이터 가져와야함 3. 1페이지 중에 10개 데이터 가져오기 url은 headers부분에 있는 url 가져오기 4. 서버에 데이터 요청 request.get(url) response에 데이터의 status code가 200이 나오는지 확인 403이나 500 나오면 request가 잘못되거나 웹 서버에서 수집이 안되도록 설정 된 ..

AI/DataAnalysis 2023.02.20

Python_이변량분석

숫자 -> 숫자 시각화 :산점도 강한정도 -> 직선에 모인 정도 문법 plt.scatter ('X변수', 'Y변수', data=df) sns.scatterplot( 'X변수', 'Y변수', data=df) pairplot으로 한꺼번에 시각화 할 수 있다. 숫자형 변수들에 대한 산점도를 한꺼번에 그려줌 그러나 시간이 많이걸림 눈으로 그래프를 살펴보며 관계를 파악하는 것은 쉽지 않다. -> 관계를 숫자로 계산해서 비교 관계를 수치화 -> 상관계수 상관계수가 유의미한 지르 검정(test) -> 상관분석 수치화: 상관계수, 상관분석 'r'로 표현됨 (correlation) -1~1사이의 값 상관계수끼리 비교 가능 -1, 1에 가까울 수록 강한 상관관계를 나타냄. 상관계수의 유의성 검정 상관계수의 크기로 판단할 ..

AI/DataAnalysis 2023.02.15

Python_시계열 데이터, 시각화라이브러리

시계열 데이터 처리 시계열 데이터 행과 행에 시간의 순서(흐름)가 있고 행과 행의 시간간격이 동일한 데이터 날짜 추출 csv파일에서 날짜는 object타입이기 때문에 날짜 타입으로 변환해줘야함 날짜로 변환 data['Date'] = pd.to_datetime(data['Date']) pd.to_datetime(date, format = '%d-%m-%Y') 날짜 요소 뽑기 메서드 내용 df['date'].dt.date YYYY-MM-DD(문자) df['date'].dt.year 연(4자리숫자) df['date'].dt.month 월(숫자) df['date'].dt.month_name() 월(문자) df['date'].dt.day 일(숫자) df['date'].dt.time HH:MM:SS(문자) df['..

AI/DataAnalysis 2023.02.09

Python_데이터 처리

데이터프레임 변경 열 이름 변경 columns 속성 변경 : 모든 열 이름 변경 tip.columns = [ '이름1', '이름2', '이름3'] 2. rename()메소드 사용: 지정한 열 이름 변경 tip.rename(columns={'이름1' : '변경할 이름1', '이름2': '변경할 이름2'}, inplace=True) 열 추가 맨 뒤에 열 추가 tip['추가할 열'] = tip['기존에 있는열1'] + tip['기존에 있는열2'] 2. 지정한 위치에 열 추가 tip.insert(1, '추가할 열', tip['기존 열'] / tip['기존 열']) -> 두번째 열에 삽입 열 삭제 drop()메소드를 사용해 열 삭제 - axis = 0: 행 삭제(기본 값!) - axis = 1: 열 삭제 - in..

AI/DataAnalysis 2023.02.08
반응형