20일차 - 지도학습 3 그래디언트 부스팅 회귀 트리 여러 개의 결정 트리를 묶어 강력한 모델을 만드는 앙상블 기법 중 하나. 이름은 회귀지만 회귀와 분류에 모두 사용 가능 장점 지도학습에서 가장 강력함. 가장 널리 사용하는 모델 중의 하나 특성의 스케일 조정이 불필요 -> 정규화 불필요. 단점 매개변수를 잘 조정해야 한다는 것. 긴 훈련 시간. 트리 기반 모델을 사용. -> 희소한 고차원 데이터는 부적합. (특성이 많고 값이 별로 없는 데이터셋) 매개변수 n_estmators: 트리의 개수 지정 너무 클 경우 모델이 복잡해지고 과대적합 가능성 learning_rate: 이전 트리의 오차 보정 강도 조절. 메모리 한도에서 n_estimators 부터 설정. 이후 적절한 learning_rate 설정. 학습률이 크면 트리를 강하게.. 18일차 - 지도학습 1 주피터 한글 폰트 # 사용자 운영체제 확인 import platform platform.system() # 운영체제별 한글 폰트 설정 if platform.system() == 'Darwin': # Mac 환경 폰트 설정 plt.rc('font', family='AppleGothic') elif platform.system() == 'Windows': # Windows 환경 폰트 설정 plt.rc('font', family='Malgun Gothic') plt.rc('axes', unicode_minus=False) # 마이너스 폰트 설정 # 글씨 선명하게 출력하는 설정 %config InlineBackend.figure_format = 'retina' k-최근접 이웃 회귀 회귀: 끊어지지 않는 애매한 .. 17일차 - 머신러닝(ML) 머신러닝 (ML) 미래에 관한 예측분석이 목표. ex.) 영화 추천, 음식 주문 지도 학습 이미 알려진 사례를 바탕으로 일반화된 모델을 만들어 의사 결정 프로세스를 자동화 하는 것. 지도 학습 알고리즘 입력과 출력으로부터 학습하는 머신러닝 알고리즘 분석하기도 좋고 성능을 측정하기도 좋다. 비지도 학습 알고리즘 입력을 주어지지만 출력은 제공되지 않음. ex). 블로그 글의 주체 구분, 고객들의 취향이 비슷한 그룹으로 묶기. 지도 학습과 비지도 학습 컴퓨터가 인식할 수 있는 형태로 데이터 준비 열 (속성) -> 특성(Feature) 행 (데이터) -> 샘플(Sample), 데이터 포인트(Data point) 오픈소스 싸이킷런(scikit-learn) https://scikit-learn.org/stable/.. 10일차 - Matplotlib, Seaborn matplotlib 차트나(chart)나 플롯(plot)로 데이터 시각화 - 라인 플롯(line plot) - 스캐터 플롯(scatter plot) - 컨투어 플롯(contour plot) - 서피스 플롯(surface plot) - 바 차트(bar chart) - 히스토그램(histogram) - 박스 플롯(box plot) import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inline 라인 플롯 그래프 그래프 스타일 지정 그래프를 여러 스타일로 지정할 수 있음. 그래프의 색 데이터의 위치를 표시하는 기호 선 스타일 ... 색 색 이름 기호 blue b green g red r cyan c magenta m yellow y bla.. 9일차 - Pandas 2 데이터 프레임의 데이터 조작 데이터 세기 ( count, value_counts ) count ( ) : 데이터 개수 세기. value_counts ( ) : 각 종류별로 몇 개의 데이터가 있는지 세어주는 것. df.value_counts(subset = None, normalize = False, sort=True, ascending=False, dropna=True) 속성 내용 subset 기준으로 삼을 열 입니다. list형태로도 입력이 가능.. normalize 갯수가 아니라 비율로 출력. sort 빈도 순서로 정렬할지 여부.기본값은 True입니다. ascending 오름차순으로 정렬할지 여부. dropna 결측치를 제외할지 여부. 데이터프레임 정렬 sort_index ( ) 인덱스를 기준으로 레.. 8일차 - Pandas 1 Pandas 표 형식의 데이터나 다양한 형태의 데이터를 다룸 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공 Series 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조. 1치원 배열과 달리 값뿐만 아니라 각 값에 연결된 인덱스 값도 동시에 저장. 시리즈 객체는 라벨 값에 의해 인덱싱 가능하므로 인덱스 라벨 값을 키로 갖는 딕셔너리 자료형과 같다고 볼 수 있음.(in, items, key와 value 접근) pandas.Series( data, index, dtype, copy) data series를 구성할 데이터 index index 지정. dtype 각 항목에 적용될 타입. Series.values : Series 값 추출. Series.index : index .. 이전 1 다음