'#비지도학습'에 해당되는 글 1건

  1. 2019.03.20 :: 빅데이터(Big Data) 4회차 공부 - 머신러닝
빅데이터 2019. 3. 20. 11:38

• Supervised learning(지도학습)

-Classification and Categorization

-Regression

ex) 남자와 여자의 구별


지도학습 구조(이미 알고있는 데이터들)

1. 들어오는 데이터의 종류들: training text documents, images, sounds

2. 들어온 데이터의 특징을 잡는다. features vectors

3. 라벨링을 한 데이터(이런 특징을 가지면 남자이다, 이런 특징을 가지면 여자다 라벨링)


1,2를 통해 들어온 특징 지어진 데이터를 3으로 머신러닝 알고리즘을통해 data set(training set)을 만든다.


4. 새로운 데이터들이 들어온다.

5. 새로운 데이터의 특징을 잡는다.

6. 머신러닝 알고리즘으로 예측되는 모델을 만든다.

7. 예측되는 라벨이 생긴다.


Supervised application

• Face recognition: Pose, lighting, occlusion (glasses, beard), make-up, hair style 

• Character recognition: Different handwriting styles.

• Speech recognition: Temporal dependency.

• Use of a dictionary or the syntax of the language. 

• Sensor fusion: Combine multiple modalities; eg, visual (lip image) and acoustic for speech 

• Medical diagnosis: From symptoms to illnesses 

• Web Advertizing: Predict if a user clicks on an ad on the Internet.



• Unsupervised learning(비지도학습)

-Clustering

-Dimensionality reduction

데이터를 쪼갠다.

ex) 점에 대한 데이터가 있을 때, 점에 RGB값을 가진다. Red에 가까운 점 Green에 가까운 점, Blue에 가까운 점으로 나눈다.

만일 R,G,B 정중앙에 위치한점에 대한 처리는?

-> 먼저 잡혀가는 루프에 포함된다. (루프: Red에 가까운 점을 모을때 돌리는 루프)


비지도학습 구조

1. 들어오는 데이터의 종류들: training text documents, images, sounds

2. 들어온 데이터의 특징을 잡는다. features vectors

(지도학습처럼 라벨이 존재하지 않는다) 


1,2를 통해 들어온 특징지어진 데이터를 머신러닝 알고리즘을통해 data set(training set)을 만든다.


4. 새로운 데이터들이 들어온다.

5. 새로운 데이터의 특징을 잡는다.

6. 머신러닝 알고리즘으로 모델을 만든다.

8. 클러스터링 알고리즘이 라벨을 정한다.


Unsupervised application

• Learning “what normally happens”  데이터의 형태가 어떻게 구분되는지

• No output  결과물이 없을 수도 있고 있을 수도 있다.

• Clustering: Grouping similar instances  목적에 따라 같은 인스턴스들을 그룹화한다. 

• Other applications: Summarization, Association Analysis  데이터들의 상관관계를 확인한다, 연관 분석

• Example applications 

• Customer segmentation in CRM 

• Image compression: Color quantization 

• Bioinformatics: Learning motifs



• Semi-supervised learning(지도학습과 비지도학습을 혼합)




• Reinforcement learning 

-Decision making (robot, chess machine)



테스트 결과 확인

머신러닝의 결과가 얼마나 잘 됐고, 결과가 좋지 않은지 확인해야 한다.

-데이터의 결과를 이미 알고있지만, 모른다고 가정하고 데이터가 잘 분류되는지 확인해야한다.

                            <교차 검증>



MANY CLASSIFIERS TO CHOOSE FROM 다양한 알고리즘들

• SVM 

• Neural networks

• Naïve Bayes 

• Bayesian network 

• Logistic regression 

• Randomized Forests 

• Boosted Decision Trees

• K-nearest neighbor

• RBMs 

• Etc



posted by 마스터박 MasterPark

댓글을 달아 주세요