검색결과 리스트
글
Gower's distance(가워 거리)
인간의 경험에 있어서 거리의 개념은 직관적으로 예상할 수 있습니다. 측정기준이라는 용어는 종종 측정을 위한 표준으로 사용되는 반면, 일상 생활에서는 일반적으로 두 지점의 물리적인 가까움 또는 아이디어 사이가 어느 정도 되는지의 근접성을 의미합니다. 관측치 사이의 거리 또는 정량적 또는 정성적 변수 사이의 거리를 고려할 수도 있습니다.
데이터를 클러스터링하는 동안 가장 중요한 작업 중 하나는 각 데이터 포인트 사이의 거리를 계산하는 데 사용할 방법을 결정하는 것입니다. 생물학, 사회과학 또는 마케팅 조사와 같이 클러스터 분석이 일반적으로 사용되는 다양한 실제 분야에서는 수치 변수와 카테고리 변수를 모두 갖는 데이터셋이 적용되는 경우가 많습니다. 이러한 유형의 데이터를 혼합 데이터(Mixed data)라고 합니다. 많은 거리 측정방법이 존재하며, 그 중 여기서 소개해드리고자 하는 것은 데이터가 혼합 데이터일 때 사용되는 가워 거리(Gower's distance - 1971)입니다.
가워 거리(Gower's distance)란 무엇인가?
가워 거리(Gower's Distance)는 가워 차이 계수(Gower's dissimilarity coefficient)라고도 하며 사용하여 두 데이터의 차이를 측정할 수 있습니다. 기록에는 논리, 카테고리, 수치 또는 텍스트 데이터의 조합이 포함될 수 있습니다. 거리는 항상 0(동일함)에서 1(가장 큰 차이) 사이의 숫자입니다.
q개의 차원을 가지고 있는 벡터 \(\textbf{x}\)가 있다고 하였을 때 \(\textbf{x}\)가 p개의 카테고리형 변수를 갖고 있다 하였을 때
$$\LARGE{\textbf{x} = (x_1, x_2, ... , x_p, x_{p+1}, ..., x_q)}$$
위 벡터에서 p개의 카테고리형 변수의 q-p개의 수치형 변수가 있다고 하였을 때 해당 식을 아래와 같이 다시 쓸 수 있습니다.
$$\LARGE{\textbf{x} = (z_1, ..., z_p, c_1, ..., c_{q-p})^\top=(\textbf{z}^\top,\textbf{c}^\top)}$$
여기서 벡터 \(\textbf{z}^\top\)와 \(\textbf{c}^\top\)는 벡터 \(\textbf{x}\)의 부분집합입니다. 이 때 두 데이터 포인트 \(\textbf{x}_i=(\textbf{z}_i^\top,\textbf{c}_i^\top)\) 와 \(\textbf{x}_j=(\textbf{z}_j^\top,\textbf{c}_j^\top)\)의 가워 거리 \(D_{x_ix_j}\)를 구하는 식은 다음과 같이 나타낼 수 있습니다.
$$\LARGE{D_{x_{i}x_{j}}=\dfrac{\sum^{p}_{r=1}W_{x_{i}x_{j}z_{r}}D_{x_{i}x_{j}z_{r}}}{\sum^{p}_{r=1}W_{x_{i}x_{j}z_{r}}}+\dfrac{\sum^{q-p}_{r=1}W_{x_{i}x_{j}c_{r}}D_{x_{i}x_{j}c_{r}}}{\sum^{q-p}_{r=1}W_{x_{i}x_{j}c_{r}}}}$$
여기서 \(W_{x_{i}x_{j}z_{r}}\) 와 \(W_{x_{i}x_{j}c_{r}}\) 는 각각 카테고리형 변수 \(z_r\)과 수치형 변수 \(c_r\)에 해당되는 가중치값을 나타냅니다.
\(D_{x_{i}x_{j}z_{r}}\) 카테고리형 변수의 \(z_r\)의 거리를 나타낸 것으로 다음과 같은 식으로 나타냅니다.
$$\LARGE{D_{x_{i}x_{j}z_{r}}=\begin{cases}0,\quad z_{r}^{i}=z_{r}^{j}\\1,\quad otherwize\end{cases}}$$
만약 두 카테고리형 변수가 같은 값일 경우 0, 다른 값일 경우 1이 된다고 이해하면 쉬울 것입니다.
\(D_{x_{i}x_{j}c_{r}}\)은 실수인 수치형 변수로서 우리가 흔히 아는 맨허튼 거리(\(L_1\) norm) 방식으로 값을 구합니다.
$$\LARGE{D_{x_ix_jc_r}=\dfrac{|c_r^i-c_r^j|}{\max(c_r)-\min(c_r)}}$$
위 식을 보았을 때, 각 변수의 차의 절대값에 실수 \(c\)의 범위(최대값 - 최소값)을 나눔으로서 변수의 거리를 알 수 있습니다. 여기서는 맨허튼 거리를 예제로 하였지만 좀 더 좋은 공식이 있다면 그것을 사용해도 무방합니다.
예제
다음과 같은 데이터가 있다고 합시다.
위 데이터를 보았을 때 [age, perTestScore, postTestScore, available_credit] 4개의 변수는 수치형 변수이고 [gender] 1개의 변수는 카테고리형 변수임을 알 수 있습니다. 즉 이를 벡터로 나타내면 다음과 같습니다.
$$\LARGE{\textbf{x} = (c_1, c_2, c_3, c_4, z_1)}$$
이 때 weight를 1이라고 하였을 때 가워 거리는 다음과 같이 나타낼 수 있습니다.
$${D_{x_ix_j}=\dfrac{|c_1^i-c_1^j|}{\max(c_1)-\min(c_1)}+\dfrac{|c_2^i-c_2^j|}{\max(c_2)-\min(c_2)}+\dfrac{|c_3^i-c_3^j|}{\max(c_3)-\min(c_3)}+\dfrac{|c_4^i-c_4^j|}{\max(c_4)-\min(c_4)}+D_{x_{i}x_{j}z_{1}}}$$
주어진 벡터에서 \(x_0\)을 기준으로 각 row별로 가워 거리를 구하면 다음과 같습니다.
$$D_{x_{0}x_{1}}=\dfrac{\left|14-19\right|}{35-10}+\dfrac{\left|4-24\right|}{31-3}+\dfrac{\left|25-94\right|}{95-25}+\dfrac{\left|2200-1000\right|}{22000-1000}+0 \\ = 1.9572$$
$$D_{x_{0}x_{2}}=\dfrac{\left|14-10\right|}{35-10}+\dfrac{\left|4-31\right|}{31-3}+\dfrac{\left|25-57\right|}{95-25}+\dfrac{\left|2200-22000\right|}{22000-1000}+0 \\ = 0.2529$$
$$D_{x_{0}x_{3}}=\dfrac{\left|14-14\right|}{35-10}+\dfrac{\left|4-3\right|}{31-3}+\dfrac{\left|25-30\right|}{95-25}+\dfrac{\left|2200-2100\right|}{22000-1000}+0 \\ = 0.1120$$
$$D_{x_{0}x_{4}}=\dfrac{\left|14-21\right|}{35-10}+\dfrac{\left|4-3\right|}{31-3}+\dfrac{\left|25-70\right|}{95-25}+\dfrac{\left|2200-2000\right|}{22000-1000}+1 \\ = 1.9681$$
$$D_{x_{0}x_{5}}=\dfrac{\left|14-19\right|}{35-10}+\dfrac{\left|4-4\right|}{31-3}+\dfrac{\left|25-25\right|}{95-25}+\dfrac{\left|2200-1000\right|}{22000-1000}+1 \\ = 1.2571$$
$$D_{x_{0}x_{6}}=\dfrac{\left|14-30\right|}{35-10}+\dfrac{\left|4-31\right|}{31-3}+\dfrac{\left|25-69\right|}{95-25}+\dfrac{\left|2200-6000\right|}{22000-1000}+1 \\ = 3.4138$$
$$D_{x_{0}x_{7}}=\dfrac{\left|14-35\right|}{35-10}+\dfrac{\left|4-9\right|}{31-3}+\dfrac{\left|25-95\right|}{95-25}+\dfrac{\left|2200-2200\right|}{22000-1000}+1 \\ = 3.0186$$
위 계산을 보았을 때 \(x_0\)에서 Gower's distance가 가장 가까운 것은 \(x_3\)이고 가장 먼 것은 \(x_6\)임을 알 수 있습니다.
- 참고자료
https://medium.com/analytics-vidhya/gowers-distance-899f9c4bd553
Gower’s Distance
One of the most important task while clustering the data is to decide what metric to be used for calculating distance between each data ….
medium.com
https://jamesmccaffrey.wordpress.com/2020/04/21/example-of-calculating-the-gower-distance/
Example of Calculating the Gower Distance
The Gower distance is a metric that measures the dissimilarity of two items with mixed numeric and non-numeric data. Gower distance is also called Gower dissimilarity. One possible use of Gower dis…
jamesmccaffrey.wordpress.com
Gower Distance
Tuerhong, G., & Kim, S. B. (2014). Gower distance-based multivariate control charts for a ...
blog.naver.com
'공대생의 팁' 카테고리의 다른 글
python에서 pip install 과정에서 SSL 오류 해결방법 (0) | 2021.03.16 |
---|---|
USB없이 GRUB2를 통해 ISO파일 부팅하기(DVD 없이 우분투 설치) (0) | 2021.03.11 |
2021년 이후 어도비 플래시 플레이어를 사용하는 방법 (4) | 2021.01.16 |
MobaXterm에서 X server 사용시 전체화면 모드 화면이 안나올때 해결방법 (1) | 2020.10.25 |
여분기여도(Marginal Contribution) (0) | 2020.09.13 |
설정
트랙백
댓글
글
2021년 이후 어도비 플래시 플레이어를 사용하는 방법
1996년 11월 처음으로 등장한 Flash는 매크로미디어가 만들어 2005년 Adobe에 인수된 후 2020년 12월까지 서비스가 제공되었습니다.
처음 등장했던 당시에는 가벼운 용량으로 컴퓨터의 성능이 지금보다 뛰어나지 못했던 그 당시의 시점으로는 매우 훌륭한 그래픽과 영상을 제작할 수 있었던 인터넷 애플리케이션으로 취급되었습니다. 그 덕분에 졸라맨, 마시마로와 같은 플래시 애니메이션이 사람들에게 인기를 끌 수 있었던 시절이 있었지요.
그러나 세월이 흐르면서 플래시가 랜섬웨어에 취약하여 컴퓨터 보안에 매우 치명적인 문제가 발생하였습니다. 또한 크롬을 필두로한 브라우저 경쟁을 거치면서 웹표준이 만들어지면서 플래시는 천덕꾸러기 신세가 되어버리면서 최신 웹브라우저들에서 비활성화 설정되어 점점 사용을 자제하는 분위기가 조성되었고 지원이 종료되는 2020년 12월까지는 보안 패치만 적용되며 연명하고 있었습니다.
그렇게 2021년 1월 12일을 기점으로 모든 웹브라우저에서 플래시가 더이상 작동되지 않도록 설정되어 이제는 영원히 역사속으로 사라졌습니다.
위에서 보시는 바와 같이 플래시가 적용되어 있는 웹페이지는 위와 같은 모습으로 더이상 플래시를 사용할 수 없음을 사람들에게 알리게 되었습니다. 이렇게 플래시는 인터넷 역사의 한 장을 마감하게 되었지요.
그러나 몇몇 사이트들의 경우 플래시를 여전히 사용하고 있고 이를 사용해야만 하는 경우 매우 곤란한 상황이 벌어지게 되었지요. 사전에 플래시가 없는 환경을 구축하였어야 하지만 부득이하게 이러한 플래시 환경에서 작업을 하셔야 하는 분들께 2021년 이후 플래시를 사용할 수 있는 방법에 대해 알려드리고자 합니다.
※현재 Flash Player가 종료되어 보안 관련 문제 위험을 최소화하고자 이 글에서는 가상머신을 통한 사용 방법을 설명드리고 있습니다. 만약 가상머신을 사용하지 않고 자신의 컴퓨터에 직접 Flash Player를 사용하고자 하시는 분은 아래의 글을 참조해주시기 바랍니다.
Windows 11에서 어도비 플래시 플레이어를 사용하는 방법
지난 1월 12일, 어도비의 플래시 플레이어 서비스가 종료되면서 최신 버전의 플래시 플레이어가 설치되었던 컴퓨터에서 더이상 플래시를 사용할 수 없게 되었습니다. 이를 극복하기 위해 가상
elecs.tistory.com
※Windows 10 최신 버전에서는 업데이트 자체에서 Flash player의 설치를 더이상 허용하고 있지 않습니다. 구버전 설치를 시도할 경우 아래와 같이 설치가 더이상 진행되지 않고 있습니다. Windows 10에서의 Internet Explorer 내에는 Flash Player가 내장되어 있어 설치를 별도로 할 수 없는 것입니다.
이를 해결하기 위해 저는 Windows 7을 다시 설치하여 진행하였음을 알립니다. 혹시 Windows 7을 설치하고자 하시는 분은 아래의 사이트를 통해 Windows 7 설치 ISO를 받으신 다음 설치를 진행해주세요.
https://extrememanual.net/7885
윈도우7 포함 모든 버전 순정 ISO 파일 다운로드 방법 - 익스트림 매뉴얼
윈도우7 순정 이미지를 다운로드 받으려고 검색을 해보면 대부분 토렌트 같은 P2P 프로그램이나 웹하드같은 사이트에서 다운로드 받아야 하는데 토렌트로 배포되는 윈도우7 ISO 이미지 같은 경우
extrememanual.net
ISO 설치 파일을 받으신 다음 자신이 원하는 PC에 Windows 7을 설치해 보도록 합니다.
https://extrememanual.net/11423
윈도우7 클린 설치 방법 USB 부팅부터 설치까지 - 익스트림 매뉴얼
컴퓨터를 새로 구매하거나 기존에 사용하던 윈도우가 정상 작동을 하지 않는 경우, 설치한지 오래된 경우 프로그램을 자주 깔고 삭제하면 불필요한 레지스트리가 남게 되는데 이럴때는 문제점
extrememanual.net
만약 자신의 컴퓨터에 Windows 7을 직접 설치하고 싶으신 경우 멀티부팅 혹은 가상머신을 활용하여 설치하여 사용할 수 있습니다. 멀티부팅 설정법과 가상머신 사용법은 아래의 링크를 참조해 주시기 바랍니다.
자신의 컴퓨터에 멀티부팅으로 Windows 7 설치방법
https://stainpopper.tistory.com/97
윈도우 10과 7을 동시에 사용할 수 있도록 듀얼 부팅 만드는방법
한대의 컴퓨터에 윈도우 7과 윈도우 10을 동시에 설치 하여 윈도우 10과 7을 동시에 사용할 수 있도록 윈도우10 윈도우7 듀얼 부팅 만드는방법 입니다. 먼저 컴퓨터에 윈도우10이 설치되어 있어
stainpopper.tistory.com
가상머신을 활용하여 Windows 7을 활용하는 방법
[VMware] Windows 7 64Bit 설치하기
[VMware] Windows 7 64Bit 설치하기 실습 환경 VMware Workstation 15 Player (FREE 버전) Windows 7 64Bit 저희 블로그에서는 Windows 7 ISO 파일을 제공하지 않습니다. VMware Workstation 15 Player를 실행합니..
nan491.tistory.com
https://blog.naver.com/PostView.nhn?blogId=hong0303&logNo=221258116325
버추얼박스 윈도우7 설치 따라해봐요
버추얼박스에 윈도우7을 설치 해보겠습니다. 윈도우는 7, 8 또는 이전XP라도 설치가 가능합니다. 그외에 ...
blog.naver.com
위의 방법으로 Windows 7 설치 환경을 구성하셨다면 절대로 업데이트를 하여서는 안됩니다. 최신버전으로 업데이트하게 될 경우 Adobe Flash Player의 구버전 설치가 막히게 됩니다.
여기까지 진행하셨다면 다음으로 Flash Player 32.0.0.363 이전의 구버전을 설치합니다. 해당 버전은 구글 검색을 통해 쉽게 구하실 수 있습니다.
https://kbench.com/software/?q=node/77021
Adobe Flash Player v32.0.363 정식버전 (인터넷 익스플로러) | 케이벤치
Adobe Flash Player 플러그인은 웹 브라우저에서 웹 사이트에서 제공되는 플래쉬 무비, 게임 등 플래쉬 컨텐츠를 재생 할 수 있도록 해주는 기능을 가지고 있습니다. 이 프로그램은 인터넷 익스플로
kbench.com
https://drive.google.com/file/d/15ret5DZLTLaFzNPOmNY7NbEINcFKdsEa/view?usp=sharing
install_flash_player_ax_32.0.0.363.exe
drive.google.com
여기까지 진행하셨으면 다음으로 Windows 7에 플래시 플레이어 32.0.0.363 설치해 보도록 하겠습니다.
만약 업무 용도가 아닌 플래시 플레이어 사용이 목적이실 경우 러플(Ruffle)을 설치하여 Chrome, Firefox 등에서 사용하실 수 있습니다. 다만 Flash player를 완벽하게 지원된다고 장담 드리기 어렵습니다. 아래의 사이트를 통해 사용 방법을 확인해주시기 바랍니다.
https://flashgameheaven.com/370?category=947922
2020년 플래시 중단 후 플래시게임하는 방법
어도비 플래시 플레이어(Adobe Flash Player) 플러그인의 지원이 2020년 12월 31일에 종료되었습니다. 어도비 플래시 지원 종료 이후에는 각종 플래시로 제작된 것들은 웹 브라우저에서 재생할 수 없게
flashgameheaven.com
'공대생의 팁' 카테고리의 다른 글
USB없이 GRUB2를 통해 ISO파일 부팅하기(DVD 없이 우분투 설치) (0) | 2021.03.11 |
---|---|
Gower's distance(가워 거리) (2) | 2021.02.01 |
MobaXterm에서 X server 사용시 전체화면 모드 화면이 안나올때 해결방법 (1) | 2020.10.25 |
여분기여도(Marginal Contribution) (0) | 2020.09.13 |
Chernoff bound(체르노프 유계) (0) | 2020.09.12 |
설정
트랙백
댓글
글
마지막으로 아침을 맞이하며 - 중앙선 단성역과 희방사역[2020.12.12]
이전 포스팅을 통해 폐역 직전의 죽령역을 남았던 바 있었습니다. 이번 포스팅에서는 죽령역을 다녀온 후 돌아오는 과정에서 보았던 단성역과 희방사역을 카메라에 담아보았습니다.
앞으로 우리는 어떠한 새로운 모습을 볼 수 있을까요? KTX-이음이 다니고 있을 이 철길이 과연 많은 변화를 보여주리라 생각합니다.
'좌충우돌 여행기 > 국내여행' 카테고리의 다른 글
맞이방 디자인이 매력적인곳 - 수도권 1호선 탕정역 [2021.10.30] (0) | 2021.11.02 |
---|---|
촬영 명소가 있던 논두렁 위 철길을 달리던 기차가 있던 곳- 장항선 웅천역[2020.12.19] (0) | 2021.07.15 |
야간열차를 타고 아침을 맞이하다 - 중앙선 단양역과 죽령역[2020.12.12] (0) | 2021.01.10 |
군산선, 108년만에 격변하다(4) - 오산리역 (0) | 2020.12.30 |
군산선, 108년만에 격변하다(3) - 임피역 (0) | 2020.12.25 |