kmeans 함수를 통해 R에서 k-means를 계산할 수 있습니다. 여기서는 데이터를 두 개의 클러스터(중심 = 2)로 그룹화합니다. kmeans 함수에는 여러 초기 구성및 최상의 구성에 대한 보고서를 시도하는 nstart 옵션도 있습니다. 예를 들어 nstart = 25를 추가하면 25개의 초기 구성이 생성됩니다. 이 방법을 사용하면 권장됩니다. 클러스터링은 크게 두 개의 하위 그룹으로 나눌 수 있습니다. 그런 다음 내부와 사이를 비교할 수 있습니다. 이렇게 하면 최상의 K를 선택하는 데 도움이 됩니다. 예를 들어 이 데이터 집합을 사용하면 K를 2에서 20까지 실행하고 총점을 제곱 합계 내에서 플로팅하면 어떻게 됩니까? “팔꿈치” 지점을 찾아야 합니다. 그래프가 구부러지고 내에서 이익을 내는 것을 멈추면 K. # 모델 기반 클러스터링 라이브러리 (mclust)가 <- Mclust (mydata) 플롯 (fit) # 플롯 결과 요약 (fit) # 최고의 모델을 표시하면 응집력의 예를 보여 드리겠습니다. 계층적 클러스터링이 실행됩니다! 어떤 도시의 교통 흐름에 저장된 많은 정보가있습니다.
이 데이터는 위치를 통해 채굴 할 때 도시의 주요 관광 명소에 대한 정보를 제공 할 수 있습니다, 그것은 우리가 주거 지역, 사무실 / 학교 구역, 고속도로 등과 같은 도시의 다양한 영역을 이해하는 데 도움이 될 수 있습니다. 이를 통해 정부와 기타 기관이 도시를 더 잘 계획하고 그에 따라 적절한 규칙과 규정을 시행하는 데 도움이 될 수 있습니다. 예를 들어, 학교와 주거 지역의 속도 제한이 고속도로 구역과 비교하여 다른 속도 입니다. 클러스터링은 주관적인 작업이며 두 개 이상의 올바른 클러스터링 알고리즘이 있을 수 있습니다. 모든 알고리즘은 데이터 포인트 간의 `유사성`을 정의하기 위한 서로 다른 규칙 집합을 따릅니다. 특정 문제에 가장 적합한 클러스터링 알고리즘은 수학적 인 이유가 없는 한 실험적으로 선택해야 합니다. 알고리즘은 특정 데이터 집합에서 잘 작동하지만 다른 종류의 데이터 집합에 대해 실패할 수 있습니다. 왼쪽의 값은 원래 데이터 집합의 행 번호를 참조합니다(아래쪽의 값은 거리 측정을 참조함[3]). 왼쪽에서 오른쪽으로 읽으면서 클러스터가 병합되어 더 큰 클러스터를 만드는 순서를 볼 수 있습니다. 이 알고리즘을 k-means 클러스터링과 비교하면 결과가 비슷하다는 것을 알 수 있습니다.
예를 들어 dendrogram, 19, 22, 21, 20 및 27의 맨 아래에 있는 값이 함께 그룹화되어 있습니다. 이제 데이터를 교육 및 테스트 집합으로 나눌 수 있는 좋은 시기가 될 것입니다. 이것은 모든 데이터 과학 프로젝트에서 중요한 단계이며, 학습 세트에서 모델을 학습하고, 필요한 매개 변수의 값을 결정하고, 최종적으로 테스트 세트에서 모델을 테스트하기 위해 수행됩니다. 예를 들어 클러스터링 알고리즘으로 작업할 때 이 분할은 k-평균 클러스터링의 클러스터 수인 k와 같은 매개 변수를 식별할 수 있도록 수행됩니다. 그러나,이 사례 연구의 경우, 당신은 이미 5 입니다 예상 클러스터의 수를 알고 – 뉴욕시의 자치구의 수. 따라서, 당신은 전통적인 방식으로 작동하지 않고 오히려, k-평균 클러스터링에 대해 학습에 대해 주로 유지한다. 클러스터링은 데이터 집합 내에서 관측값의 하위 그룹을 찾기 위한 광범위한 기술 집합입니다. 관측을 클러스터화할 때 동일한 그룹의 관측값과 유사하고 다른 그룹의 관측값은 서로 유사하기를 원합니다.