수치형 데이터 다루기 - 지도학습(분류)

Orange3

수치형 데이터 다루기 - 지도학습(분류)

Bordercolli 2023. 8. 1. 15:41

728x90

지도학습(분류): 붓꽃데이터 분석

지도학습(분류): 붓꽃데이터 분석

target 값이 이산적인 값이거나 범주형 데이터일때 수행할 수 있다. 즉 이 데이터가 A에 속하느냐 또는 B에 속하느냐를 판별하는 것이다.

Orange에서 제공하고 있는 tab data set

우리가 앞전에 사용했던 housing data는 tab데이터로 구별되어 있다.

여기에는 이 속성의 이름을 나타내는 행이 가장 먼저 있고, 그 다음 속성의 타임, 종류를 나타내는 행이 있다. 그리고 나머지는 데이터들이다.

속성에서 c는 연속적인 숫자, d는 이산적/ 범주형 데이터, s는 string(문자열)을 의미한다.

우리가 앞 전에 target값은 mdev 중앙값으로, 이런 경우에 regression을 수행한다.

그리고 kinds(종류)에는 class 또는 meta를 기입할 수 있다. 우리들이 tab형식의 데이터 셋을 만들때에도 이런 형식으로 작성을 해주면 된다. class는 우리가 목표로 하는 target값이 mdev, 즉 주택가격의 중간값을 나타낸다.

meta는 실제 학습에 참여하지는 않지만, 우리가 값을 참고하기 위해서 남겨놓는 속성들을 말한다.

이번에 사용할 데이터는 'iris (붓꽃) 데이터'이다.

orange에서 추출한 파일의 확장자는 ".tab "

붓꽃 이름 항목이 바로 class이다. 그리고 그 옆에 데이터들이 연속형 변수들 continous

세 가지 붓꽃 종류에 대해서 살펴보자.

꽃잎의 길이와 너비, 꽃받침 길이 너비를 가지고 이 세가지 중에서 어디에 속하는지 분류한다.

Setosa:

Versicolor:

Virqinica:

4개의 feature가 있고 한 개의 target이 있다.

target은 3개의 값을 가지고 있고, 4개의 feature, 150개의 instances

meta data는 없음.

* meta data : 설명 데이터 ex) 변수의 저장 위치 등

산점도를 살펴보면 가로축은 꽃잎의 길이이고, 세로축은 꽃잎의 너비이다. 꽃잎이 더 꽃의 종류와 관련이 있을지 꽃받침이 더 꽃의 종류와 관련이 있을지 예측해볼 수 있다.

Axis x: 는 가로 축, Axis y:는 세로축으로 여기서는 꽃잎의 너비를 x, 꽃잎의 높이를 y축으로 설정하였다.

color는 iris로 타겟값에 따라서 구별이 되어 있고, 모양도 다르게 선택할 수 있다.

label을 변경하면 안에 점들의 사이즈도 값에 따라 다르게 만들 수 있다.

이런 식으로 label도 붙힐 수 있다.

dataset위젯에서 제공하는 오렌지에서 제공하는 tab형식의 데이터를 읽어왔지만, 우리들은 파일위젯을 통해서 다른 곳에서 다운로드 받은 csv형식이나 excel파일 형식의 데이터를 읽어올 수 있다. 그리고 여기서 role도 지정해줄 수 있다. iris데이터는 굉장히 흔한 데이터라서 우리들이 쉽게 구할 수 있다.

이제는 모델을 구성해본다.