SlideShare ist ein Scribd-Unternehmen logo
1 von 58
Downloaden Sie, um offline zu lesen
자전거 도시 개발 사업
팀 두부와 숲이
2
EDA
MODELING
EVALUATION
1. 자전거 스테이션 입지 및 이용 현황
2. 불만 상황 파악
3. 분석 방향 및 기대효과
1. 모델링 개요
2. 데이터셋 설명 및 전처리
3. 학습용 데이터와 예측용 데이터 구축
4. 모델 학습
5. 스테이션 배치
1. 배치 결과와 수요 충족도
2. 한계점 및 의의
“현황 및 불만 파악” “최종 결과 및 평가”
“자전거 스테이션/거치대 수량 배치”
※ 문서화 기간을 제외하고 과제 분석에 소요된 기간은 약 1일 4시간씩 20일입니다.
현황 및 불만 파악
1. 자전거 스테이션 입지 및 이용 현황
1.1. 스테이션 입지 현황
1.2. 이용 현황
1.3. 분석 목적
2. 불만 상황 파악
2.1. 설문조사 참고
2.2. 불만 상황 파악
3. 분석 방향 및 기대효과
3.1. 불만 파악을 통한 분석 방향 수립
3.2. 기대효과
4
1
2 3
4
1 2
3 4
공원
학교
3호선
경의중앙선
스테이션
먼저 현재 자전거 스테이션은 주요 4개의 지역에 집중적으로 설치되어 있는 것을 확인할 수 있었습니다.
해당 지역들은 공원, 학교, 지하철역에 접근성이 매우 높다는 점에서,
고양시의 현재 인구가 집중되어 있는 지역들이라는 것을 짐작할 수 있었습니다.
자전거 스테이션 입지 및 이용 현황
스테이션 입지 현황1.
5지하철/버스 위치 및 승하차 정보인구분포도
버스 정류장
3호선
경의중앙선
(원의 크기는
승하차 정보 반영)
실제로, 인구분포도를 확인한 결과, 앞서 본 네 지역이 현재 고양시의 대부분의 인구 분포를 차지하고 있는 것으로 보였고,
버스와 지하철 승하차 정보에 의하면, 유동인구 역시 많을 것으로 판단되었습니다.
인구, 학교, 공원, 교통 등의 주요 변수들을 통해서 볼 때, 해당 지역에 자전거 스테이션들이 집중되어 있는 것이 합리적으로 보였습니다.
이제 자전거의 이용 현황을 살펴보았습니다.
자전거 스테이션 입지 및 이용 현황
스테이션 입지 현황1.
6
대여 건수와 반납 제대로 안 된 건수의 추이
2017
2018
2019
9.1%
12.4%
17.3%
반납 제대로 안 된 비율의 추이
그런데, 자전거 이용 현황을 살펴본 결과,
자전거 이용 건수는 2017년에 비해 2018과 2019년에 약 20만 건이 감소하였고, 그에 반해 반납을 제대로 안 한 건수는 꾸준히 증가하였습니다.
반납을 제대로 안하는 비중이 계속 커지면서, 2019년에는 그 비율이 17.3%에 해당했습니다.
자전거 스테이션 입지 및 이용 현황
이용 현황1.
7
자전거 스테이션 입지 및 이용 현황
분석 목적1.
즉, 자전거의 3년 간 이용 현황을 살펴본 결과, 다음의 문제점들이 존재했습니다.
① 자전거 이용 실적의 감소
② 자전거 비정상 반납의 증가
따라서, 분석 목적은 이러한 문제점들을 해결 및 완화하는 것으로, 한 줄로 정리하면,
고양시 공공 자전거 이용의 활성화 및 비정상 반납의 감소 입니다.
분석 목적 달성을 위한 분석 방향을 수립하기 위해서는,
먼저 해당 문제점들이 왜 발생했는지,
사람들이 어떠한 이유로 불만을 느끼는지 파악할 필요가 있었습니다.
81) 백주현·김준우·차윤철, 고양시 공공자전거 정책방향 수립을 위한 연구, 2019년 10월 31일
자전거의 잦은 고장
시스템 노후화
공공 자전거 부족
설치 및 반납 장소 부족
자전거 도로 부족
어려운 요금 결제방식
비싼 요금
대중교통 연계 불편
분실/도난 등 관리 부실
자전거 안장이 불편
정기권 운영 관련
고객센터 응대 관련
73%
71.2%
64.8%
46.4%
17.2%
13.3%
12%
6%
(n=233)
공공 자전거 불만족 이유 (중복응답)
먼저 고양시 공공 자전거 연구 보고서1)의
공공 자전거 이용 불만족 이유에 대한 설문조사를 참고한 결과,
가장 비율이 높은 이유들은 다음의 두가지로 정리할 수 있었습니다.
• 자전거 노후화 및 고장, 관리의 미흡
• 스테이션 및 자전거 수의 부족
이 외에도, 데이터를 탐색하여 불만의 근원이 무엇인지,
대여건수는 감소하고, 반납을 제대로 하지 않는 건수는 증가하는 이유가 무엇인지
더욱 파악하고자 하였습니다.
불만 상황 파악
설문조사 참고2.
9
먼저, 고양시의 행정동별 총인구 수와 자전거 대여 건수가 2017년 대비 2019년에 어떻게 변화했는지 확인했습니다.
앞서 대부분의 인구가 몰려있던 1,2번 지역들에 해당하는 행정동들의 경우, 인구 수와 대여 건수 모두 2017년에 비해 감소했습니다.
반면, 그 외의 지역들에서 2019년에 인구가 더욱 증가한 모습을 보였는데, 이는 창릉 신도시 건설, 덕양구의 각종 택지개발사업의 영향으로 판단됩니다.
한편, 전체 자전거 대여건수는 2017년에 비해 크게 감소하였지만, 창릉동, 행주동, 중산동 등 일부 동은 2017년보다 증가 또는 그 이상을 유지했습니다.
1.54
1.12
0.82
0.95
1.24
1.06
1.04
1.14
3.27
1.35
2.09
각 동의 2017년 대비 2019년의 총인구수
1.23
0.82
0.91
1.031.02
0.77
0.92
0.99
0.9
각 동의 2017년 대비 2019년의 대여 건수
불만 상황 파악
불만 상황① : 떠오르는 지역들에는 스테이션이 없다2.
10
총인구수와 대여 건수의 추이, 그리고 기존 스테이션 개수의 관계를 더욱 비교해보았습니다. 고양시의 전체 총인구수는 증가 추세였습니다.
그런데, 3년간의 인구 추이를 계층적 군집화(Hierarchical Clustering)한 결과, 인구가 감소 추세에 해당하는 동은 약 23개, 증가 추세는 16개에 해당했습니다.
현재 자전거 스테이션이1𝐤𝒎 𝟐
당 하나 이상 설치되어 있는 동들 중에서 86%가 인구가 감소하는 추세에 해당했고,
1𝐤𝒎 𝟐
당 하나 미만 설치되어 있거나 아예 설치되어 있지 않는 동들 중에서 72%가 인구가 증가하는 추세에 해당했습니다.
또 한, 2019년의 대여건수가 2017년보다 적은 동들 중에서는, 31%가 인구가 증가하는 추세에 해당했다면,
2017년보다 많은 동들 중에서는, 40%가 인구 증가 추세였고, 기존에 스테이션이 없던 동들 중에는 무려 75%가 인구 증가 추세에 해당했습니다.
즉, 고양시에서 많은 도시계획적, 인구통계적 변화가 일어나고 있었습니다.
불만 상황 파악
2. 불만 상황① : 떠오르는 지역들에는 스테이션이 없다
11
자전거길
인도
하천
한편, 고양시청 홈페이지1)와 블로그2)에 따르면, 주요 하천을 따라 자전거 코스를 조성하고, 계획 중인 것을 확인할 수 있었습니다.
특히, 공릉천의 경우 자전거 도로 및 코스가 마련되어 있음에도, 근처에 자전거 스테이션이 아예 존재하지 않았습니다.
이 근처에서 자전거에 대한 수요가 있다면, 이에 대한 불만이 어느정도 제기되는 상황으로 보입니다.
1) http://www.goyang.go.kr/www/www03/www03_5/www03_5_4/www03_5_4_tab5.jsp
2) https://m.blog.naver.com/letsgoyang/221595129333
불만 상황 파악
2. 불만 상황① : 떠오르는 지역들에는 스테이션이 없다
12
신도시, 택지개발 등 도시계획 사업들이 진행되면서, 각 행정동들의 인구, 자전거 대여 추이가 상반되고 있습니다.
특히, 기존에 스테이션과 운영 이력이 집중 분포되어 있던 행정동의 경우, 인구와 대여 건수 모두 감소 추세에 해당했습니다.
현재 자전거 스테이션과 이용 건수의 압도적인 비중을 차지하고 있는 지역들이기 때문에,
해당 지역에서 자전거 수요와 관련한 모수가 감소하고 있다는 사실이 전체 대여 건수 감소에 큰 영향을 미친 것으로 판단됩니다.
한편, 인구가 증가하고 있는 행정동의 경우에는, 과반수가 스테이션이 거의 설치되어 있지 않았습니다.
하천 및 공원 근처에 자전거 코스가 조성되어 있음에도 불구하고, 스테이션이 근처에 존재하지 않는 경우도 존재했습니다.
현재 스테이션이 적거나 아예 없는 지역들 중, 자전거 스테이션에 대한 수요가 있는 곳들이 있어 보입니다.
반납이 제대로 되지 않는 건수가 증가하는 이유 중 하나로, 자전거를 대여하고 다른 곳으로 이동하였는데,
근처에 반납할 스테이션이 없기 때문이 아닐까 생각합니다.
정리하면 다음과 같습니다.
따라서, 인구 변화 또는 자전거 코스 등
새로운/잠재적인 수요를 반영하는 변수들도 포함하여,
각 지역의 수요를 새롭게 예측할 필요가 있습니다.
불만 상황① : 떠오르는 지역들에는 스테이션이 없다
불만 상황 파악
2.
13
공원
3호선
불만 상황② : 같은 시간에 같은 목적으로 탄다
불만 상황 파악
2.
한편, 운영 이력 데이터를 탐색한 결과, 사람들이 공공 자전거를 타고 대부분 단거리 이동을 한다는 것을 알 수 있었습니다.
대체로, 아래 왼쪽 그림에서 파악할 수 있듯이, 매우 가까운 근처로 이동하거나,
오른쪽 그림을 보면, 적어도 동일 구역으로 묶이는 범위 안에서 이동하는 것을 볼 수 있었습니다.
근처에서 이동 특정 범위 안에서 이동
14
그렇다면, 사람들이 공공 자전거를 타는 주요 목적들이
무엇인지 더욱 파악하고자 했습니다. 이 때,
자전거를 타는 시간대가, 자전거를 타는 주요 이유를
대체로 설명하고 있었습니다.
행정동별로 각 시간대의 대여건수 – 반납건수를 구하고,
이들의 하루 추이에 대하여 계층적 군집화를 진행했습니다.
그 결과, 오른쪽 그림과 같이, 크게 세가지의 패턴이 존재했습니다.
① 출근 시간(오전 8시)에 대여가 반납보다 훨씬 많은 경우
② 퇴근 시간(오후 6~7시)에 대여가 반납보다 훨씬 많은 경우
③ 저녁~밤에 대여가 반납보다 훨씬 많은 경우
스테이션이 존재했던 32개의 행정동 중에서,
①의 경우가 14개로 약 44%, ②의 경우가 8개로 25%,
③의 경우가 7개로 약 22%를 차지하고 있었습니다.
불만 상황② : 같은 시간에 같은 목적으로 탄다
불만 상황 파악
2.
15
① 출근 시간에 대여가 많은 경우
대체로 행정동들의 위치를 볼 때,
출근 시간에 집 근처에서 자전거를 대여한 뒤,
지하철(3호선) 역 근처에서 반납하고 지하철을 타는 경우로 판단됩니다.
② 퇴근 시간에 대여가 많은 경우
대체로 지하철 역이 존재하는 행정동으로서,
퇴근 시간에 근처에서 자전거 대여를 하고,
집 근처에서 반납하는 경우로 판단됩니다.
③ 저녁 이후에 대여가 많은 경우
근처에 공원들이 존재하고, 자전거를 타는 평균 시간과 최대 시간이
세 경우에서 모두 최대인 것을 볼 때,
운동 또는 취미 목적으로 자전거를 타는 경우로 판단됩니다.
자전거를 이용하는 대부분의 목적이 세가지로 설명되면서,
특정 시간대에 대여 및 반납이 몰리는 것으로 보입니다.
공원
3호선
불만 상황② : 같은 시간에 같은 목적으로 탄다
불만 상황 파악
2.
16
현재 고양시에 대한 다방면 데이터 탐색을 통해, 공공 자전거를 이용하는 데 있어서 불만이 제기될 2가지 상황을 파악했고,
이를 통해 분석 방향에 대한 아이디어를 다음과 같이 얻을 수 있었습니다.
불만 파악을 통한 분석 방향 수립
분석 방향 및 기대효과
3.
현재는 주요 4지역에 스테이션이 집중 설치되어 있지만, 점차 도시 개발로 인해 급부상하는 지역,
하천 옆 자전거길 마련 등으로 인해 자전거 수요가 존재할 것으로 보이는 지역들이 존재했습니다.
따라서, 인구 변화, 자전거 코스 등 새로운 수요를 반영할 수 있는 변수들도 포함하여
각 지역의 자전거 수요를 새롭게 예측할 필요가 있었습니다.
수요가 있는 지역이지만, 스테이션이 거의 없는 경우
그런데, 사람들의 공공 자전거 이용 목적이 대체로 세가지로 설명되면서,
자전거 대여와 반납이 특정 시간에 몰리는 현상을 파악했습니다.
즉, 자전거의 필요성은 특정 시간에 급증합니다.
따라서, 스테이션이 필요한 주요 지역들을 선정한 뒤에는,
해당 지역에는 스테이션을 확실하게 공급하여, 최대한 많은 사람들의 수요를 충족시킬 필요가 있습니다.
특정 시간대에 대여 및 반납이 몰리는 경우
17
아이디어를 종합하여, 분석 방향을 한 줄로 정리하면 다음과 같습니다.
기대효과
분석 방향 및 기대효과
3.
실질적으로 자전거 수요가 존재할 지역들을 최대한 추리고, 추린 지역들에는 자전거 스테이션 간 네트워크가 구축될 수 있을 정도로,
스테이션을 촘촘히 배치하고자 합니다. 이러한 분석 방향의 기대효과는 다음과 같습니다.
1. 비정상 반납의 감소
반납할 곳이 근처에 없거나, 해당 스테이션에 거치대가 모두 차 있을 때, 반납을 제대로 하지 않는 경우가 많을 것입니다. 데이터에서도 파악했듯이,
이동 목적으로 공공 자전거를 이용할 때, 장거리 이동을 하지는 않기 때문에, 특정 지역 안에 자전거 스테이션이 촘촘히 배치되어 있다면,
반납 스테이션이 없어서 반납을 안하는 경우는 감소할 것입니다.
또 한, 모든 거치대가 찼다 해도, 근처에 다른 스테이션이 존재하기 때문에 이 경우 역시 보완할 수 있게 됩니다.
2. 자전거 이용의 장려
해당 지역에서만큼은 어디를 가도 대여할 수 있고 반납할 수 있다는 확신이 들게 되면, 자전거 이용을 망설일 이유의 일부도 사라질 것입니다.
즉, 자전거 네트워크가 구축된 지역에서는, 스테이션 접근성도 높고, 공급도 넉넉하기 때문에, 자전거 이용의 활성화를 기대할 수 있게 됩니다.
3. 관리의 효율화
작동이 안 되는 자전거가 있는지 검사하는 일, 스테이션을 채워주는 일 등 자전거 관리와 관련된 일도 고려를 해야합니다. (자전거 관리가 부족한 것
도 설문조사 참고에서 파악한 불만 중 하나였습니다.) 이 때, 스테이션을 외딴 곳에 하나씩 설치하는 것보다 관리의 효율이 높아질 것입니다.
4. 확장 가능성
금전적 요인을 포함하여 여러가지 요인으로 인해, 설치할 수 있는 스테이션의 개수는 한정적입니다. 따라서, 수요가 시급하거나 많은 지역부터 우선
적으로 설치하는 것이 효율적이지만, 점차 자전거 이용이 활성화되어 수익도 생기고 다른 지역에도 수요가 크게 증가했다면, 다른 지역에도 자전거
네트워크를 구축하여, 공공 자전거 시스템을 확장할 수 있게 됩니다.
자전거 수요가 존재하는 지역들을 엄밀하게 선정하고, 해당 지역들은 자전거 네트워크를 확실하게 구축한다!
자전거 스테이션과
거치대 수량 배치
1. 모델링 개요
2. 데이터셋 설명 및 전처리
3. 학습용 데이터와 예측용 데이터 구축
3.1. 학습용 데이터
3.2. 예측용 데이터
3.3. 변수 생성
4. 모델 학습
4.1. 모델 선택 이유
4.2. 모델 학습
4.3. 예측값과 한계점
5. 스테이션 배치
5.1. 실질적 수요 존재 지역 선정
5.2. 자전거 스테이션 배치
5.3. 거치대 수량 결정
19
고양시의 50Mx50M에 해당하는 인구분포도를 이용하여 후보군 생성
주어진 데이터를 이용하여 후보군 주변 정보를 변수화
기존에 설치된 스테이션 정보를 통해 모델 구축 및 후보군의 수요 예측
고양시 도시화 계획 구간의 예측값 및 인구분포도를 기준으로 사후 처리(Post Process) 진행
후보군들을 대상으로 클러스터링 진행 후, 각 클러스터에 해당하는 자전거 스테이션 개수 결정
최종적으로 거치대 수량 및 스테이션의 좌표 생성
모델링 개요
모델링 개요
1.
자전거 수요가 어느 정도를 능가하는 지역을 선별하기 위해, 수요를 예측하는 모델 구축에 신경을 썼습니다.
해당 모델은 각 후보군의 2020년의 하루 대여건수를 예측하는 것이고, 전반적인 분석(모델링) 과정은 다음과 같습니다.
20
데이터셋 설명 및 전처리
데이터셋 설명 및 전처리
2.
01.운영이력.csv
02.자전거스테이션.csv
05.기상정보.csv
06.인구(거주)분포도(100MX100M).geojson
07. 인구통계.csv
10. 도시계획(공간시설).geojson
11. 도시계획(공공문화체육시설).geojson
12. 도시계획(교통시설).geojson
14. 고양시 지적도.geojson
17. 일반건물 분포도(100MX100M).geojson
19. 전철역_공간정보.csv
20. 고양시 버스정류소.csv
21. 버스 정류장별 승하차 정보.csv
26. 고양시 공연장 박물관 정보.csv
27. 고양시 체육시설 현황 정보.csv
34. 행정경계(행정동기준).geojson
33. 고양시_인도.geojson
변수 생성에 활용한 데이터셋
16.도로명주소_도로.geojson
자전거 배치에 활용한 데이터셋
사후 처리에 활용한 데이터셋
35. 고양시_도시화지역경계.geojson
활용한 데이터셋은 다음과 같습니다.
이와 관련한 구체적인 설명은, 앞으로
학습 데이터 구축을 위한 변수 생성, 스테이션 배치,
사후 처리 과정에서 각각 다루고자 합니다.
21
데이터셋 설명 및 전처리
데이터셋 설명 및 전처리
2.
한편, 활용한 데이터셋은 크게 시간 정보가 포함된 데이터와 고정된 데이터로 구분할 수 있었습니다.
이 두 성격에 따라, 변수 생성 등 데이터를 이용하는 법도 달라지게 됩니다.
② 고정된(시간 정보가 없는) 데이터
• 06.인구(거주)분포도(100MX100M).geojson
• 10. 도시계획(공간시설).geojson
• 11. 도시계획(공공문화체육시설).geojson
• 17. 일반건물 분포도(100MX100M).geojson
⋮
① 시간 정보가 포함된 데이터
• 01.운영이력.csv
• 05.기상정보.csv
• 07. 인구통계.csv
운영이력과 기상정보는 일별,
인구통계는 월별 정보를 이용했습니다.
인구분포도(100MX100M)
한편, 이 데이터 유형에는 geojson형식이 많았는데,
geojson 데이터들은 대체로 geometry 변수에서
Polygon의 중심점에 해당하는 좌표를 파생변수화했습니다. geojson 데이터의 이용
고양동의 월별 인구추이대여소 101 일별 대여량
22
예측용 데이터 구축
학습용 데이터와 예측용 데이터 구축
3.
본격적으로 예측용 데이터와 학습용 데이터를 구축합니다. 먼저, 예측용 데이터 구축 과정입니다.
고양시 전체 면적의 50m X 50m 격자의 중심점을 후보군으로 설정.
각각의 후보군에 대해 일별 예측을 위해, 월(1~12)과, 요일(월~금) 변수를 추가.
학습용 데이터와 공통의 변수들을 추가.
예측용 데이터
즉, 하나의 후보군 당, 84(=12x7)일의 대여건수를 예측하는 것입니다.
이후, 각 후보군별로 대여건수를 평균 낸 값, 상위 25% 값 등을 이용합니다.
데이터 인구(거주)분포도(100MX100M).geojson에서 결측값에 0을 삽입 후, 각 Polygon의 꼭짓점들의 중간값으로 후보군을 생성했습니다.
(즉, 50mX50m으로 확대.) 이는 특정 지역의 수요 예측 시에, 조금 더 세밀한 예측을 위함입니다.
여기서, 인구 분포도의 값이 0인 지역들은 제외했습니다. 따라서, 전체 후보군의 개수는 15969입니다.
23
학습용 데이터 구축
학습용 데이터와 예측용 데이터 구축
3.
각 스테이션에 대해, 이에 해당하는 일별 대여 건수와 반납 건수 추가
각 스테이션에 대해, 시간 정보가 존재하는 데이터로부터 변수 생성
각 스테이션에 대해, 고정된 데이터로부터 변수 생성
이제, 학습용 데이터 구축 과정입니다.
02.자전거스테이션.csv + 01.운영이력.csv
+ 05.기상정보.csv + 07. 인구통계.csv
+ 17. 일반건물 분포(100MX100M).geojson
+ …
학습용 데이터 예측용 데이터
vs
와 에 해당하는 파생변수 생성 과정을 설명하겠습니다.
예측 대상
24
변수 생성①: 시간 정보가 존재하는 데이터
학습용 데이터와 예측용 데이터 구축
3.
시간 정보가 존재하는 데이터로부터 변수 생성
먼저, 시간 정보가 존재하는 데이터로는, 05.기상정보.csv와 07.인구통계.csv 데이터가 있었습니다.
이들의 경우, 학습용 데이터와 예측용 데이터는 각각 다음과 같이 변수를 생성했습니다.
① 학습용 데이터
평균 기온은 각 날짜에 해당하는 데이터 그대로 기입하고,
총인구수의 경우, 각 월에 해당하는 총인구를 기입했습니다.
② 예측용 데이터 고양동
고봉동
한편, 예측용 데이터의 경우에는,
2020년의 인구를 Arima Model을
이용하여 예측하고, 이를 예측용 데이터
에 변수 추가하였습니다.
기온은 특별히 예측 과정 없이
이전 기온들의 평균을 기입했습니다.
25
변수 생성①: 시간 정보가 존재하는 데이터
학습용 데이터와 예측용 데이터 구축
3.
cf. 예측용 데이터에 2020년 인구추이를 예측한 값을 변수 추가하는 이유
EDA에서 확인했던 것 처럼, 고양시의 행정동은 서로 상반되는 인구 변화를 겪고 있습니다.
더불어, 각 행정동의 인구는, 각 행정동의 자전거 수요 및 반납과 매우 깊은 관계를 가지고 있습니다.
2017년부터 2019년의 각 행정동의 인구와 대여건수, 인구와 반납건수는 각각 평균 0.6, 0.8의 상관관계를 가지고 있었습니다.
따라서, 현재 변화중인 고양시의 인구 추이가 중요한 정보가 될 것이라고 판단했고, 이를 반영하고자 했습니다.
각 행정동의 인구 변화와 대여건수 변화의 상관계수 각 행정동의 인구 변화와 반납건수 변화의 상관계수
26
변수 생성②: 고정된 데이터
학습용 데이터와 예측용 데이터 구축
3.
고정된 데이터로부터 변수 생성
한편, 고정된(시간 정보가 없는) 데이터의 경우, 다음의 두가지로 분류할 수 있었고,
각각의 경우에 다음과 같이 파생 변수를 생성했습니다.
• 후보군에서 도보 3분 거리 이내에 존재하는 특정 대상 (ex.건물)의 개수
• 후보군에서 도보 3분 거리 이내에 존재하는 모든 대상과의 거리의 최소,평균,최대
• 도보 3분이내 아무 대상도 없을 시에는, 도보 3분거리인 0.0025로 기입
① 위치 정보만 존재하는 경우
• ① 위치 정보만 존재하는 경우와 똑같은 변수들
• 도보 3분 거리 이내 값(value)의 최소, 평균, 최대
② 위치 정보와 그에 해당하는 특정 값이 존재하는 경우
27
변수 생성②: 고정된 데이터
학습용 데이터와 예측용 데이터 구축
3.
Ex1. 위치 정보와 그에 해당하는 값(val)이 존재하는 데이터에 해당하는,
일반건물 분포도(100MX100M).geojson 의 경우, 파생 변수들을 생성한 결과는 다음과 같습니다.
28
변수 생성②: 고정된 데이터
학습용 데이터와 예측용 데이터 구축
3.
특정 후보군 3분 거리 이내에 존재하는
모든 인도/자전거 도로의 개수와,
후보군과의 거리 최소, 평균, 최대값을 파생변수화 했습니다.
Ex2. 위치 정보만 존재하는 데이터에 해당하는 33. 고양시_인도.geojson의 경우, 파생 변수들을 생성한 결과는 다음과 같습니다.
자전거 도로가 있는 인도
자전거 도로
자전거 도로가 없는 인도
후보군으로부터
도보 3분 거리 범위
한편, 고정된 데이터에는 geojson 형식의 파일이 많이 존재했습니다.
geojson 파일의 경우 대체로 geometry 칼럼의 Multipolygon의 중심값(centroid)에 해당하는 좌표를 추출하여,
똑같이 후보군과의 거리를 계산하는 방식으로 사용하였습니다.
29
변수 생성②: 고정된 데이터
학습용 데이터와 예측용 데이터 구축
3.
앞서 한 방식과 동일하게 진행할 때,
지적도의 하천과 공원의 Multipolygon 좌표들이 잘게 나뉘어져 있어, 주변에 상당히 많은 하천과 공원이 있다고 계산되었니다.
따라서, SpectralClustering을 통해, 한 차례 좌표들을 묶은 이후에 파생변수화했습니다.
Ex3. 위치 정보만 존재하는 데이터에 해당하는 14. 고양시 지적도.geojson의 경우,
Spectral
Clustering
30
변수 생성②: 고정된 데이터
학습용 데이터와 예측용 데이터 구축
3.
10. 도시계획(공간시설).geojson
11. 도시계획(공공문화체육시설).geojson
12. 도시계획(교통시설).geojson
19. 전철역_공간정보.csv
20. 고양시 버스정류소.csv
21. 버스 정류장별 승하차 정보.csv
26. 고양시 공연장 박물관 정보.csv
27. 고양시 체육시설 현황 정보.csv
변수 생성에 활용한 고정된 데이터
각 데이터에서 어떤 칼럼을 이용하고 변수화 했는지 정리하면 다음과 같습니다.
변수 생성원리는 앞서 고정된 데이터에서 파생변수 생성하는 내용과 동일합니다.
14. 고양시 지적도.geojson : 하천(천), 공원(공)만 사용
33. 고양시_인도.geojson : 인도, 자전거 도로 사용
⚫ 모든 데이터셋 활용 ⚫ 일부 데이터셋 활용
31
변수 생성
학습용 데이터와 예측용 데이터 구축
3.
최종적으로 활용한 학습용 데이터는 다음과 같습니다. 전체 변수는 총 454개입니다.
운영이력 데이터에서 각 스테이션별로 최초로 대여 건수가 존재하는 날짜부터 2019년 12월 31일까지의 행을 가지고 있습니다 .
Ex1) A스테이션의 최초 대여 날짜가 2019년 1월 1일일 경우:
A스테이션의 행은 2019/01/01 ~ 2019/12/31 => 365 개
Ex2) B스테이션의 최초 대여 날짜가 2017년 1월 1일일 경우:
B스테이션의 행은 2017/01/01 ~ 2019/12/31 => 365x3 개
32
변수 생성
학습용 데이터와 예측용 데이터 구축
3.
최종적으로 활용한 예측용 데이터는 다음과 같습니다.
각 후보군 별로 월(1~12월) * 요일(월~일), 즉 84(=12x7)개의 행을 가지고 있습니다.
이 84개 예측값의 평균값을 해당 후보군의 수요라고 간주합니다.
한편, 앞으로 특정 후보군의 84개 예측값의 평균값을 스테이션 배치에, 상위 25%값을 거치대 수량을 정하는데 사용할 것입니다.
33
변수 생성
학습용 데이터와 예측용 데이터 구축
3.
학습용 데이터와 예측용 데이터에서, 스테이션(또는 후보군)별 하나의 값을 예측하지 않고 일별로 예측한 이유는 다음과 같습니다.
cf. 학습용 데이터와 예측용 데이터를 일별로 예측한 이유
앞으로, 최종적으로 일별 예측의 평균으로 최종 수요를 예측하고,
스테이션 위치 선정 이후, 거치대 수량 결정에 있어서는 예측값의 상위25% 값을 사용합니다.
• sample이 164개에 불과하게 되어 매우 부족합니다.
• 기상 데이터 및 시간 정보가 포함된 데이터(인구 추이 등)를 적절히 반영할 수 없습니다.
스테이션(후보군)별 하나의 값만을 예측할 경우에는,
이 때, 일별로 예측하게 되면 위 문제점들을 보완할 수 있을 뿐만 아니라,
예측 값 하나하나를 통계량으로 간주하면, 여러가지의 통계량을 얻게 되어 후보군 별 최종 예측 수요의 분산이 감소합니다.
더불어, 예측값들의 평균, 상위25% 값 등 다양한 통계량도 얻을 수 있습니다.
즉, 따라서 가지고 있는 데이터를 더욱 적절하게 반영할 수 있고 조금 더 정확하고 robust한 결과값을 얻을 수 있습니다.
34
모델 선택 이유
모델 학습
4.
본격적으로 모델을 학습하였습니다. 모델은 LGBM을 이용했습니다.
모델 사용
이유
선형모델의 경우 학습 데이터에 대한 성능도 우수하지 못하고, 반대로, Neural
Network의 경우 Tree기반 머신러닝 모델보다도 과적합의 가능성이 더욱 컸습니다.
따라서, Tree 기반 모델을 이용하는 것으로 결정했고, 그 중에서 가장 우수한 성능을
보이고 복잡한 패턴 파악이 가능한 LGBM 모델을 선택했습니다.
한계점
한계점으로는, 과적합의 위험성이 크다는 것입니다.
특히, 학습 데이터와 예측 데이터의 분포가 서로 이질적인 경우,
문제 해결(외삽)이 어렵게 됩니다.
극복방안
첫 째, Cross validation의 성능이 심하게 감소하지 않는 선에서 변수 선택을 통해
과적합을 방지합니다. 둘 째, Tree 모델의 장점을 취하면서, 특정 기준을 이용한
사후 처리(Post Process) 과정을 통해 한계점을 극복할 것입니다.
35
모델 학습
모델 학습
4.
LGBM 모델을 학습시키는 과정에서, Cross Validation과 Permutation Test를 이용해서 과적합을 방지하고자 했습니다.
Nested Cross-Validation, https://stats.stackexchange.com/questions/453386/working-with-time-series-data-splitting-the-dataset-and-putting-the-model-into
Permutation Feature Imporance, https://medium.com/@vivek_skywalker/permutation-importance-a1df5010fa99
① Time Series Cross Validation
과적합 방지를 위해 Validation Set을 분리하는 작업은 필수적이었습니다.
그런데, 해당 데이터에 시간 정보 또한 존재하기 때문에,
다음과 같은 구조의 Cross Validation 방법을 이용했습니다.
② Permutation Test
Permutation Test는 특정 변수의 값을 여러 번 무작위로 섞은 뒤,
이 결과가 성능에 미치는 영향을 통해, 변수 중요도를 파악하는 방법입니다.
이 방법을 통해, Validation Set에 높은 영향을 주는 순서대로,
변수를 선택했습니다.
36
모델 학습
모델 학습
4.
Permutation Test 결과, 최종적으로 선택된 변수는 85개입니다.
선택된 변수 단순 나열 변수 중요도에 따른 나열
37
예측값과 한계점
모델 학습
4.
이제, 학습 시킨 모델로 각 후보군의
예측 수요 값(일별 대여건수)을 얻었습니다.
그런데, 대부분의 후보군이 수요가 존재한다고 예측했습니다.
이는 Tree 모델의 한계와 관련이 있었습니다.
Tree모델은 학습 데이터셋 변수에 없는 범위의 값이 존재하면 모델이 이를
더 크거나 낮은 값으로 인식을 하지 못하는 것으로 판단되었습니다.
예를 들어, 학습 데이터에서의 A 변수의 범위가 10~20 사이였다면,
예측 데이터에서 A 변수 값이 0이더라도, 10으로 인식하는 것입니다.
그런데, 학습 데이터의 샘플(기존 스테이션)의 경우,
모두 수요가 많고, 도시화도 많이 진행된 지역에 해당했습니다.
따라서, 해당 모델은 수요가 없는 경우를 학습시키지 못했기 때문에,
대부분의 후보군에 수요가 존재한다고 예측하게 됩니다.
예측값과 한계점 한계점의 이유
개선 방안: 사후처리
따라서, 절대적인 예측값을 따르기보다,
실질적으로 수요가 존재하는지를 판단해야합니다.
이를 위해, 도시화 계획 지역의 예측값, 인구분포도를 기준으로
실질적 수요가 존재하는 지역을 선정하는
사후 처리 과정을 진행했습니다.
38
실질적 수요 존재 지역 선정
스테이션 배치
5.
앞으로의 과정은, 실질적 수요가 존재하는 지역을 추리기 위한 사후처리를 진행한 후,
스테이션을 배치하고 거치대 수량을 결정하는 것입니다.
각 후보군의 자전거 수요를 수치적으로 파악했지만, 이 중에서도 실질적으로 수요가 존재하는 지역은,
결국 어느정도 사람들이 거주하고, 주변 기반 시설이 잘 마련된 곳이어야 한다고 판단했습니다.
이 기준을 35. 고양시_도시화지역경계.geojson 데이터의 도시화 지역 경계로 잡았습니다.
도시화 지역 경계 인구분포도와 건물분포도를 기준으로 실질적 수요가 적은 후보군 필터링.
밀도 기반 클러스터링을 통해 Noise 제거.
도시화 지역 경계에 해당하는 클러스터들의 예측값을 기준으로 실질적 수요가 적은 후보군 필터링.
후보군을 도로에 배치.
클러스터를 구성하는 후보군의 개수를 기준으로 면적이 작은 클러스터 필터링.
클러스터의 평균 예측값과 클러스터의 넓이를 고려하여, 각 클러스터에 적절한 스테이션 개수 할당.
각 클러스터에 할당된 스테이션 개수만큼 스테이션 설치.
예측값의 상위 25%값을 이용하여 각 스테이션의 거치대 수량 결정.
순환율이 저조한 것으로 보이는 스테이션 근처에 추가적인 배치.
실질적
수요 존재
지역 선정
스테이션
배치
거치대
수량 결정
39
실질적 수요 존재 지역 선정
스테이션 배치
5.
도시화 지역 경계 인구분포도와 건물분포도를 기준으로 실질적 수요가 적은 후보군 필터링.
가장 먼저 인구 정보를 통해 실질적 수요가 적어 보이는 지역을 필터링했습니다.
해당 후보군의 인구가 도시화 지역 경계에 해당하는 인구의 하위 10% 값보다도 낮다면, 실질적인 수요가 거의 없는 지역으로
판단되었습니다. 또 한, 일반 건물 분포도의 경우 건물 분포 값이 0인 후보군도 제외하였습니다.
먼저 실질적 수요가 존재하지 않는 것으로 보이는 지역들을 제외하면서 후보 지역을 추려나가는 과정입니다.
40
실질적 수요 존재 지역 선정
스테이션 배치
5.
밀도 기반 클러스터링을 통해 Noise 제거.
HDBSCAN 클러스터링을 진행한 후, 소수의 후보군으로 묶이는 클러스터들은 추가적으로 제외했습니다.
공공 자전거를 타고 장거리를 이동하는 경우는 드물기 때문에, 특정 지역 안에 자전거 스테이션을 비교적 조밀하게 설치해야
대여 및 반납을 원활히 할 수 있을 것으로 판단했습니다. 또 한, 띄엄띄엄 설치하는 것보다 관리의 효율성도 높아집니다.
41
실질적 수요 존재 지역 선정
스테이션 배치
5.
도시화 지역 경계에 해당하는 클러스터들의 예측값을 기준으로 실질적 수요가 적은 후보군 필터링.
HDBSCAN 클러스터링을 재진행하여, 특정 클러스터의 평균 예측값이
도시화 지역 경계에 해당하는 클러스터들의 평균 예측값 보다 낮은 클러스터들을 추가적으로 제외했습니다.
도시와 지역이 아니면서 도시화 지역의 평균 수요 예측값보다 낮다면, 실질적 수요가 적은 지역으로 판단되었습니다.
(도시화 지역 경계에 포함된 클러스터들은 제외하지 않았습니다.) 이후, 클러스터링을 재진행했습니다.
42
실질적 수요 존재 지역 선정
스테이션 배치
5.
후보군을 가까운 도로에 배치.
본격적으로 후보군들을 가까운 도로에 배치하기 앞서, 기존에 설치되어있는 스테이션들은
어느 도로 근처에 위치하는지, 도로의 폭은 어느정도인지 파악했습니다.
16.도로명주소_도로.geojson 데이터에서 기존 스테이션 위치에 근접한 도로들을 뽑은 결과,
자전거 스테이션들은 대부분의 도로위계기능구분(ROA_CLS_SE)이 3,4인 도로 근처에 배치되어 있었고,
도로폭은 최소값이 3이었습니다.
따라서, 후보군들을 도로위계기능구분이 3,4이며, 도로폭은 3 이상인 도로 근처에 배치하는 것으로 결정했습니다 .
도로 종류 도로 폭
43
실질적 수요 존재 지역 선정
스테이션 배치
5.
클러스터를 구성하는 후보군의 개수를 기준으로 면적이 작은 클러스터 필터링.
마지막으로, 클러스터를 구성하는 후보군의 개수가 특정 수보다 아래인 클러스터들을 제외했습니다.
클러스터 면적이 어느정도를 능가해야 복수의 자전거 스테이션을 해당 클러스터에 배치할 수 있기 때문입니다.
이 때, 특정 수에 대한 Cutline을 무엇으로 하는지에 따라, 후보 클러스터들의 개수가 달라지지만, 본 분석 과정에서는 40으로 잡았습니다.
이로써 실질적 수요가 존재하는 지역(클러스터) 선정을 완료했습니다.
후보군의 개수
44
스테이션 배치
스테이션 배치
5.
클러스터 면적을 이용해서 배치할 스테이션의 개수를 결정합니다.
클러스터의 면적은 Convex Hull Algorithm을 이용하여 구했습니다.
Convex Hull Algorithm은 주어진 점들에 대해, 해당 점들을 모두 포함하는 가장 작은 볼록 다각형을 찾는 알고리즘입니다.
클러스터의 평균 예측값과 클러스터의 넓이를 고려하여, 각 클러스터의 적절한 스테이션 개수 선정.
본격적으로, 스테이션을 배치하는 과정입니다. 먼저, 각 클러스터에 배치할 자전거 스테이션의 개수를 선택합니다.
특정 클러스터에 해당하는 좌표들과 이를 포함하는 다각형
45
스테이션 배치
스테이션 배치
5.
이제 각 클러스터의 계산된 면적과 예측값을 이용하여, 클러스터별 스테이션 개수를 계산합니다.
이후, 스테이션 개수를 분배하기 위한
각 클러스터의 가중치는 다음과 같이 계산합니다.
계산된 면적
해당 클러스터에
포함된 후보군들의
예측값의 평균
x가중치 =
이 가중치들의 합이 1이 되도록 스케일링한 후,
가중치의 크기만큼 자전거 개수를 분배합니다.
단, 다음의 두가지 제한 조건이 존재합니다.
아직은 고양시의 현재 인구 분포 및 기반 시설들이 집중되어 있고,
3호선 근처이므로, 특정 시간에 몰리는 현상 또한 존재하기 때문입니다.
기존 스테이션이 몰려있었던 1,2,3의 지역은 스테이션 개수를
154개보다 감소시키지 않습니다.
②
각 클러스터의 최소 스테이션 설치 개수는 5개입니다.
실질적 수요 지역을 최대한 추린 만큼, 해당 지역들에는 넉넉한 스테이션을
공급하기 위함입니다. 또한, 스테이션이 단독으로 존재할 경우,
이용률이 저조할 가능성이 높다고 판단했습니다 .
①
List = 모든 클러스터 가중치들의 리스트
List/List.sum() X 240 = 280
(최대 스테이션 수가 300개이기 때문에,
300개가 되지 않는 상수를 곱해주었습니다.
그 결과 모든 구간에 배치할 시, 280개 가량의 자전거
스테이션 수가 계산되었습니다.)
Ex.
46
스테이션 배치
스테이션 배치
5.
각 클러스터마다 스테이션 개수를 파라미터로 하는 K-
means 클러스터링을 적용하여,
스테이션을 배치할 후보군을 선정합니다.
이 때, 각 예측값의 상위 25%값을 가중치로 부여하여,
수요가 그중에서도 높은 부근은 스테이션을
더욱 촘촘하게 배치합니다.
하나의 스테이션에 거치대 수량이 30개로
한정되어있기 때문에, 수요가 높은 클러스터들은
촘촘하게 배치할 필요성이 존재했습니다.
각 클러스터마다 거리 기반 클러스터링을 이용하여 스테이션 배치.
각 클러스터에 배치할 스테이션 개수를 결정한 뒤, 스테이션을 배치합니다.
고양시의 도시화 지역 경계와
자전거 수요가 존재하는 곳에
전반적으로 잘 배치 된 것을
볼 수 있습니다.
47
거치대 수량 결정
스테이션 배치
5.
마지막으로, 배치한 스테이션에 대해, 각각의 거치대 수량을 결정합니다.
예측값의 상위 25%값을 이용하여 각 스테이션의 거치대 수량 결정.
각 스테이션의 거치대 수량은 예측값의 상위 25%를 기준으로 결정했습니다.
하루 최대 수요가 많은 스테이션일수록 거치대 개수를 늘리는 것이 합리적일 것이라고 판단했는데,
이 때, 단순 최대값은 Outlier에 영향을 받을 수 있기 때문에 상위 25%를 기준으로 하는 것으로 결정했습니다.
상위 25% 예측값들의 분포를 보면,
91%가 10에서 30 사이였고, 나머지 9%가 30을 초과했습니다.
이 때, 30을 초과하는 경우는, 예측 반납건수도 참고하여
주변에 추가적인 스테이션을 설치할 지의 여부를
결정하기로 했습니다.
9%91%
48
거치대 수량 결정
스테이션 배치
5.
순환율이 저조한 것으로 보이는 스테이션 근처에 추가적인 배치.
앞서, 대여건수의 예측값의 상위 25%가 30을 초과하는
스테이션들 중에서 예측 반납건수가 많이 부족할 경우에는,
스테이션을 추가적으로 배치했습니다.
그 이유는, 예측 반납건수가 대여건수에 비해 훨씬 부족한
지역은 순환이 원활하지 못한 곳으로 짐작되었기 때문입니다.
예측 대여건수의 Q3값이 30 초과이면서,
다음의 관계,
A = 평균대여량 – 평균반납량
A의 표준편차(𝜎) <= A
를 가지는 스테이션을 살펴본 결과, 일산 지역의 3호선 주변
5개의 스테이션이었습니다.
따라서, 이 5개 스테이션 주변에 추가 배치를 해주었습니다
이로써, 스테이션과 거치대 수량 배치를 모두 완료했습니다.
최종 결과 및 평가
1. 배치 결과와 수요 충족도
2. 한계점 및 의의
50
배치 결과와 수요 충족도
최종 결과 및 평가
1.
최종 스테이션와 거치대 수를 배치한 결과입니다.
초록색 기둥은 스테이션의 위치, 높이는 거치대 수를 반영합니다.
거치대 수량은 일산에 해당하는 지역이 가장 많은 것을 볼 수 있습니다.
51
배치 결과와 수요 충족도
최종 결과 및 평가
1.
이는 전체 스테이션의 개수가 285개이고,
16개의 지역(클러스터)에 배치한 결과입니다.
배치 결과를 보면, 인도 및 자전거길,
도시화 지역 경계 등 주요 지역에 스테이션들이
배치되어 있는 것을 확인할 수 있습니다.
그런데, 해당 결과에서는 스테이션 개수가
기존 개수보다 많이 증가했습니다.
실제로는 스테이션 개수를 하나 설치하는 데,
많은 비용이 들기 때문에, 전체 스테이션 개수를
조금 더 줄인 배치 결과도 확인해보았습니다.
현재 스테이션 배치 결과가 수요 충족도 100%
만족된 것이라고 할 때, 스테이션 개수를
줄일수록 충족도는 어느정도 되는지
함께 제시하고자 합니다.
• 스테이션 개수: 285
• 지역 개수: 16
• 수요 충족도: 100%
52
배치 결과와 수요 충족도
최종 결과 및 평가
1.
가장 수요 감소가 적은 지역부터 제외하여
스테이션 개수를 감소시켜 보았습니다.
오른쪽 배치 결과는
전체 스테이션의 개수를 255개로,
지역의 개수는 13개로 줄인 결과입니다.
이 때의 수요 충족도는 90%입니다.
이전에 비해, 공릉천 근처에서 스테이션이
사라진 것을 확인할 수 있었습니다.
• 스테이션 개수: 255
• 지역 개수: 13
• 수요 충족도: 90%
53
배치 결과와 수요 충족도
최종 결과 및 평가
1.
오른쪽 배치 결과는
전체 스테이션의 개수를 201개로,
지역의 개수는 5개로 줄인 결과입니다.
이 때의 수요 충족도는 70%입니다.
즉, 주요 5개의 지역이 약 70%의 수요를
차지하고 있었습니다.
• 스테이션 개수: 201
• 지역 개수: 5
• 수요 충족도: 70%
54
배치 결과와 수요 충족도
최종 결과 및 평가
1.
지역을 하나씩 감소시킬수록 수요 충족도의 변화는 다음과 같습니다.
x축은 제외한 개수, y축은 수요 충족도를 의미합니다.
지역을 10개를 제외할 때까지(남은 지역 6개 이상), 수요 충족도가 80%를 능가하는 것을 확인할 수 있었습니다.
한편, 마지막 하나의 지역의 수요 충족도가 약 50% 가량이었습니다.
일산에 근처의 가장 큰 지역(클러스터)이 이에 해당했습니다.
제외한 개수에 따른 수요 충족도의 변화
55
배치 결과와 수요 충족도
최종 결과 및 평가
1.
기존 스테이션과의 비교입니다.
전체 스테이션을 배치할 경우,
기존 스테이션의 위치와 비교해보았을 때,
각 지역에서 비교적 일정 간격을 가지고
스테이션이 촘촘히 배치되어 있는
것을 볼 수 있습니다.
특히, EDA 과정에서 발견했던 요소들이
반영되었습니다.
덕양구의 인구가 증가하는 주요 지역들,
공릉천 및 창릉천 주변 자전거길 등등에
스테이션이 새로 배치되었으며,
3호선이 지나가는 주요 지역들의 경우,
몰림 현상을 보완하기 위해
스테이션들이 추가 배치되었습니다.
기존 스테이션
새로운 스테이션
56
한계점 및 의의
최종 결과 및 평가
2.
• 해당 과정이 비교적 복잡하기 때문에, 과대적합의 가능성이 존재합니다.
조금 더 Robust한 결과를 얻을 수 있는 단순한(Simple) 모델을 시도해 볼 필요성이 있습니다.
• 사후 처리 과정에서 Cutline을 정하는 상황 등에서 주관이 많이 개입되었습니다.
실질적 수요가 존재하는 지역을 추리는 과정에서, 지역의 개수를 정하기 위해 Cutline을 결정할 때, 주관적인 판단으로 결정한 부
분들이 존재했습니다. 그런데, 이에 따라 스테이션 배치 결과가 달라질 수 있기 때문에 더욱 객관적인 지표가 필요할 것 같습니다.
• 데이터의 특성으로 인해 데이터 학습의 본질적인 한계가 존재했습니다.
기존 스테이션이 설치되어 있는 지역은, 이미 도시화가 많이 되고 인구가 많은 곳이었기 때문에, 그렇지 않은 지역들에 대한 학습
이 제대로 될 수 없었습니다. 따라서, 전체 후보군에 대한 예측값을 얻고 나서, 실질적으로 수요가 높은 지역인지 필터링하는 작업
에 신경을 썼지만, 모델 자체가 학습이 더욱 잘 되지 못한 것에 아쉬움이 남았습니다.
한계점 및 아쉬운 점
스테이션을 배치함에 있어서, 고양시의 최근 도시계획 관련 변화 및 인구 변화, 자전거를 타는 목적 등 다방면의 요소를 고려했습니다.
특히, 기존 설치된 스테이션에 비해 스테이션들이 체계적으로 일정 거리를 두고 촘촘하게 배치되어 있어,
비정상 반납의 가능성은 낮추고, 대여와 반납이 몰리는 시각이 다른 현상을 보완하는 효과를 기대할 수 있을 것 같습니다.
분석의 의의
• 백주현·김준우·차윤철, 고양시 공공자전거 정책방향 수립을 위한 연구, 2019년 10월 31일
• “본궤도 오르는 창릉 신도시… 2026년 입주하지만 교통망은 여전히 물음표“, 아시아경제, 2020년 3월 4일, https://www.asiae.co.kr/article/2020030412115942993
• “고양시가 점점 늙어가고 있다“, 고양일보, 2019년 1월 11일, http://www.goyang1.com/news/articleView.html?idxno=11350
• “고양시에 주택 6만7000호 공급”, 고양일보, 2020년 9월 2일, http://www.goyang1.com/news/articleView.html?idxno=15296
• 고양시청, <고양시 자전거 타기 좋은 코스 : 공릉천 자전거 여행>, 2019년 7월 25일, https://m.blog.naver.com/letsgoyang/221595129333
• 고양시청, <경기도 고양시의 대표 물길, 창릉천 자전거 산책 >, 2020년 6월 24일,
https://m.blog.naver.com/PostView.nhn?blogId=letsgoyang&logNo=222008676494&referrerCode=0&searchKeyword=%EC%9E%90%EC%A0%84%E
A%B1%B0
• 자전거도로:고양시청>생활정보>교통>대중교통안내>자전거 도로, http://www.goyang.go.kr/www/www03/www03_5/www03_5_4/www03_5_4_tab5.jsp
• “창릉 신도시“, 나무 위키, https://namu.wiki/w/%EC%B0%BD%EB%A6%89%EC%8B%A0%EB%8F%84%EC%8B%9C
• “고양삼송택지개발사업”, 나무 위키,
https://namu.wiki/w/%EA%B3%A0%EC%96%91%EC%82%BC%EC%86%A1%ED%83%9D%EC%A7%80%EA%B0%9C%EB%B0%9C%EC%82%AC%EC
%97%85
• “고양지축공공주택지구조성사업”, 나무 위키,
https://namu.wiki/w/%EA%B3%A0%EC%96%91%EC%A7%80%EC%B6%95%EA%B3%B5%EA%B3%B5%EC%A3%BC%ED%83%9D%EC%A7%80%EA
%B5%AC%EC%A1%B0%EC%84%B1%EC%82%AC%EC%97%85?from=%EA%B3%A0%EC%96%91%EC%A7%80%EC%B6%95%EB%8F%84%EC%8B
%9C%EA%B0%9C%EB%B0%9C%EC%82%AC%EC%97%85
• “고양덕은도시개발사업“, 나무 위키,
https://namu.wiki/w/%EA%B3%A0%EC%96%91%EB%8D%95%EC%9D%80%EB%8F%84%EC%8B%9C%EA%B0%9C%EB%B0%9C%EC%82%AC%EC
%97%85
• “Working with Time Series data: splitting the dataset and putting the model into production”,
https://stats.stackexchange.com/questions/453386/working-with-time-series-data-splitting-the-dataset-and-putting-the-model-into
• Vivek Sharma, <Permutation Importance>, 2018년 9월 23일, https://medium.com/@vivek_skywalker/permutation-importance-a1df5010fa99
감사합니다!

Weitere ähnliche Inhalte

Was ist angesagt?

제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천BOAZ Bigdata
 
편의점 최적입지 선정을 위한 상권 분석_윤석진
편의점 최적입지 선정을 위한 상권 분석_윤석진편의점 최적입지 선정을 위한 상권 분석_윤석진
편의점 최적입지 선정을 위한 상권 분석_윤석진Sukjin Yoon
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스BOAZ Bigdata
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드BOAZ Bigdata
 
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들PAP (Product Analytics Playground)
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립승화 양
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석YOO SE KYUN
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다승화 양
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석BOAZ Bigdata
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기승화 양
 
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -꽤 GAN찮은 헤어 살롱
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -꽤 GAN찮은 헤어 살롱제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -꽤 GAN찮은 헤어 살롱
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -꽤 GAN찮은 헤어 살롱BOAZ Bigdata
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
 
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data LiteracyPAP (Product Analytics Playground)
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]BOAZ Bigdata
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘BOAZ Bigdata
 

Was ist angesagt? (20)

제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
 
편의점 최적입지 선정을 위한 상권 분석_윤석진
편의점 최적입지 선정을 위한 상권 분석_윤석진편의점 최적입지 선정을 위한 상권 분석_윤석진
편의점 최적입지 선정을 위한 상권 분석_윤석진
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
 
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -꽤 GAN찮은 헤어 살롱
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -꽤 GAN찮은 헤어 살롱제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -꽤 GAN찮은 헤어 살롱
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -꽤 GAN찮은 헤어 살롱
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
 
Konjac jelly
Konjac jellyKonjac jelly
Konjac jelly
 
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
 

Ähnlich wie [COMPAS] 고양시 공공자전거 분석과제(최우수상)

잡코리아 글로벌 프런티어 2기_좋은사람들_탐방 계획서
잡코리아 글로벌 프런티어 2기_좋은사람들_탐방 계획서잡코리아 글로벌 프런티어 2기_좋은사람들_탐방 계획서
잡코리아 글로벌 프런티어 2기_좋은사람들_탐방 계획서잡코리아 글로벌 프런티어
 
Lh smartcity for_osgeo
Lh smartcity for_osgeoLh smartcity for_osgeo
Lh smartcity for_osgeossuser3b2776
 
LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeossuser3b2776
 
175호내지(수정) 1
175호내지(수정) 1175호내지(수정) 1
175호내지(수정) 1Jay Kim
 
잡코리아 글로벌 프런티어 2기_Bird eyes_탐방 보고서
잡코리아 글로벌 프런티어 2기_Bird eyes_탐방 보고서잡코리아 글로벌 프런티어 2기_Bird eyes_탐방 보고서
잡코리아 글로벌 프런티어 2기_Bird eyes_탐방 보고서잡코리아 글로벌 프런티어
 
녹색교통 173호(3차수정)
녹색교통 173호(3차수정)녹색교통 173호(3차수정)
녹색교통 173호(3차수정)Jay Kim
 
Share house
Share houseShare house
Share housechs71
 
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)bigdatacampus
 
20100114 발표5번 지하철승차대기라인변경 영진천새마을운동(수정)
20100114 발표5번 지하철승차대기라인변경 영진천새마을운동(수정)20100114 발표5번 지하철승차대기라인변경 영진천새마을운동(수정)
20100114 발표5번 지하철승차대기라인변경 영진천새마을운동(수정)olivia19
 
홍익경영혁신 b131221 따릉이
홍익경영혁신 b131221 따릉이홍익경영혁신 b131221 따릉이
홍익경영혁신 b131221 따릉이지섭 윤
 
170호내지(수정)
170호내지(수정)170호내지(수정)
170호내지(수정)Jay Kim
 
자전거친화도시와 마을을 위하여.pdf
자전거친화도시와 마을을 위하여.pdf자전거친화도시와 마을을 위하여.pdf
자전거친화도시와 마을을 위하여.pdfSeongwon Kim
 
차없는도시 차 없는 도시 시민 안내서
차없는도시 차 없는 도시 시민 안내서차없는도시 차 없는 도시 시민 안내서
차없는도시 차 없는 도시 시민 안내서ChangeWalk
 
세종권역 교통흐름을 한눈에 볼 수 있는 통계지리정보서비스 - 충청지방통계청
세종권역 교통흐름을 한눈에 볼 수 있는 통계지리정보서비스 - 충청지방통계청세종권역 교통흐름을 한눈에 볼 수 있는 통계지리정보서비스 - 충청지방통계청
세종권역 교통흐름을 한눈에 볼 수 있는 통계지리정보서비스 - 충청지방통계청한국디자인진흥원 공공서비스디자인PD
 
2019년도 대한전기학회 본부 스마트그리드연구회 춘계학술대회 논문
2019년도 대한전기학회 본부 스마트그리드연구회 춘계학술대회 논문2019년도 대한전기학회 본부 스마트그리드연구회 춘계학술대회 논문
2019년도 대한전기학회 본부 스마트그리드연구회 춘계학술대회 논문Charzin
 
2013 마을공동체커뮤니티매핑사례집
2013 마을공동체커뮤니티매핑사례집2013 마을공동체커뮤니티매핑사례집
2013 마을공동체커뮤니티매핑사례집Kwon-Jung Ji
 
0. Smart public media reference m&amp;m networks vol1
0. Smart public media reference   m&amp;m networks   vol10. Smart public media reference   m&amp;m networks   vol1
0. Smart public media reference m&amp;m networks vol1M&M Networks
 

Ähnlich wie [COMPAS] 고양시 공공자전거 분석과제(최우수상) (20)

잡코리아 글로벌 프런티어 2기_좋은사람들_탐방 계획서
잡코리아 글로벌 프런티어 2기_좋은사람들_탐방 계획서잡코리아 글로벌 프런티어 2기_좋은사람들_탐방 계획서
잡코리아 글로벌 프런티어 2기_좋은사람들_탐방 계획서
 
Lh smartcity for_osgeo
Lh smartcity for_osgeoLh smartcity for_osgeo
Lh smartcity for_osgeo
 
LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeo
 
Konjac jelly
Konjac jellyKonjac jelly
Konjac jelly
 
175호내지(수정) 1
175호내지(수정) 1175호내지(수정) 1
175호내지(수정) 1
 
잡코리아 글로벌 프런티어 2기_Bird eyes_탐방 보고서
잡코리아 글로벌 프런티어 2기_Bird eyes_탐방 보고서잡코리아 글로벌 프런티어 2기_Bird eyes_탐방 보고서
잡코리아 글로벌 프런티어 2기_Bird eyes_탐방 보고서
 
녹색교통 173호(3차수정)
녹색교통 173호(3차수정)녹색교통 173호(3차수정)
녹색교통 173호(3차수정)
 
Share house
Share houseShare house
Share house
 
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
 
20100114 발표5번 지하철승차대기라인변경 영진천새마을운동(수정)
20100114 발표5번 지하철승차대기라인변경 영진천새마을운동(수정)20100114 발표5번 지하철승차대기라인변경 영진천새마을운동(수정)
20100114 발표5번 지하철승차대기라인변경 영진천새마을운동(수정)
 
홍익경영혁신 b131221 따릉이
홍익경영혁신 b131221 따릉이홍익경영혁신 b131221 따릉이
홍익경영혁신 b131221 따릉이
 
170호내지(수정)
170호내지(수정)170호내지(수정)
170호내지(수정)
 
자전거친화도시와 마을을 위하여.pdf
자전거친화도시와 마을을 위하여.pdf자전거친화도시와 마을을 위하여.pdf
자전거친화도시와 마을을 위하여.pdf
 
2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스
2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스
2016 통계청 국민디자인단 - 대구도시철도 역세권 정보서비스
 
차없는도시 차 없는 도시 시민 안내서
차없는도시 차 없는 도시 시민 안내서차없는도시 차 없는 도시 시민 안내서
차없는도시 차 없는 도시 시민 안내서
 
Seoul Bike 'Ttareungyi' EDA
Seoul Bike 'Ttareungyi' EDA Seoul Bike 'Ttareungyi' EDA
Seoul Bike 'Ttareungyi' EDA
 
세종권역 교통흐름을 한눈에 볼 수 있는 통계지리정보서비스 - 충청지방통계청
세종권역 교통흐름을 한눈에 볼 수 있는 통계지리정보서비스 - 충청지방통계청세종권역 교통흐름을 한눈에 볼 수 있는 통계지리정보서비스 - 충청지방통계청
세종권역 교통흐름을 한눈에 볼 수 있는 통계지리정보서비스 - 충청지방통계청
 
2019년도 대한전기학회 본부 스마트그리드연구회 춘계학술대회 논문
2019년도 대한전기학회 본부 스마트그리드연구회 춘계학술대회 논문2019년도 대한전기학회 본부 스마트그리드연구회 춘계학술대회 논문
2019년도 대한전기학회 본부 스마트그리드연구회 춘계학술대회 논문
 
2013 마을공동체커뮤니티매핑사례집
2013 마을공동체커뮤니티매핑사례집2013 마을공동체커뮤니티매핑사례집
2013 마을공동체커뮤니티매핑사례집
 
0. Smart public media reference m&amp;m networks vol1
0. Smart public media reference   m&amp;m networks   vol10. Smart public media reference   m&amp;m networks   vol1
0. Smart public media reference m&amp;m networks vol1
 

Mehr von Joonho Lee

크라우드소싱 기반의 도시문제 해결
크라우드소싱 기반의 도시문제 해결크라우드소싱 기반의 도시문제 해결
크라우드소싱 기반의 도시문제 해결Joonho Lee
 
2 QGIS data creation
2 QGIS data creation2 QGIS data creation
2 QGIS data creationJoonho Lee
 
3 qgis visualization
3 qgis visualization3 qgis visualization
3 qgis visualizationJoonho Lee
 
4.patial analysis(1)
4.patial analysis(1)4.patial analysis(1)
4.patial analysis(1)Joonho Lee
 
5_spatial analysis(2)
5_spatial analysis(2)5_spatial analysis(2)
5_spatial analysis(2)Joonho Lee
 
빅데이터 기반의 녹시율 분석
빅데이터 기반의 녹시율 분석빅데이터 기반의 녹시율 분석
빅데이터 기반의 녹시율 분석Joonho Lee
 
데이터학습 보조교재
데이터학습 보조교재데이터학습 보조교재
데이터학습 보조교재Joonho Lee
 
Qgis 기초 2019
Qgis 기초 2019Qgis 기초 2019
Qgis 기초 2019Joonho Lee
 

Mehr von Joonho Lee (16)

크라우드소싱 기반의 도시문제 해결
크라우드소싱 기반의 도시문제 해결크라우드소싱 기반의 도시문제 해결
크라우드소싱 기반의 도시문제 해결
 
web geocoder
web geocoder web geocoder
web geocoder
 
1 QGIS intro
1 QGIS intro1 QGIS intro
1 QGIS intro
 
2 QGIS data creation
2 QGIS data creation2 QGIS data creation
2 QGIS data creation
 
3 qgis visualization
3 qgis visualization3 qgis visualization
3 qgis visualization
 
6 QGIS layout
6 QGIS layout6 QGIS layout
6 QGIS layout
 
4.patial analysis(1)
4.patial analysis(1)4.patial analysis(1)
4.patial analysis(1)
 
5_spatial analysis(2)
5_spatial analysis(2)5_spatial analysis(2)
5_spatial analysis(2)
 
r project_pt2
r project_pt2r project_pt2
r project_pt2
 
R project_pt1
R project_pt1R project_pt1
R project_pt1
 
Lego map_qgis
Lego map_qgisLego map_qgis
Lego map_qgis
 
191003 compas
191003 compas191003 compas
191003 compas
 
191002 COMPAS
191002 COMPAS191002 COMPAS
191002 COMPAS
 
빅데이터 기반의 녹시율 분석
빅데이터 기반의 녹시율 분석빅데이터 기반의 녹시율 분석
빅데이터 기반의 녹시율 분석
 
데이터학습 보조교재
데이터학습 보조교재데이터학습 보조교재
데이터학습 보조교재
 
Qgis 기초 2019
Qgis 기초 2019Qgis 기초 2019
Qgis 기초 2019
 

[COMPAS] 고양시 공공자전거 분석과제(최우수상)

  • 1. 자전거 도시 개발 사업 팀 두부와 숲이
  • 2. 2 EDA MODELING EVALUATION 1. 자전거 스테이션 입지 및 이용 현황 2. 불만 상황 파악 3. 분석 방향 및 기대효과 1. 모델링 개요 2. 데이터셋 설명 및 전처리 3. 학습용 데이터와 예측용 데이터 구축 4. 모델 학습 5. 스테이션 배치 1. 배치 결과와 수요 충족도 2. 한계점 및 의의 “현황 및 불만 파악” “최종 결과 및 평가” “자전거 스테이션/거치대 수량 배치” ※ 문서화 기간을 제외하고 과제 분석에 소요된 기간은 약 1일 4시간씩 20일입니다.
  • 3. 현황 및 불만 파악 1. 자전거 스테이션 입지 및 이용 현황 1.1. 스테이션 입지 현황 1.2. 이용 현황 1.3. 분석 목적 2. 불만 상황 파악 2.1. 설문조사 참고 2.2. 불만 상황 파악 3. 분석 방향 및 기대효과 3.1. 불만 파악을 통한 분석 방향 수립 3.2. 기대효과
  • 4. 4 1 2 3 4 1 2 3 4 공원 학교 3호선 경의중앙선 스테이션 먼저 현재 자전거 스테이션은 주요 4개의 지역에 집중적으로 설치되어 있는 것을 확인할 수 있었습니다. 해당 지역들은 공원, 학교, 지하철역에 접근성이 매우 높다는 점에서, 고양시의 현재 인구가 집중되어 있는 지역들이라는 것을 짐작할 수 있었습니다. 자전거 스테이션 입지 및 이용 현황 스테이션 입지 현황1.
  • 5. 5지하철/버스 위치 및 승하차 정보인구분포도 버스 정류장 3호선 경의중앙선 (원의 크기는 승하차 정보 반영) 실제로, 인구분포도를 확인한 결과, 앞서 본 네 지역이 현재 고양시의 대부분의 인구 분포를 차지하고 있는 것으로 보였고, 버스와 지하철 승하차 정보에 의하면, 유동인구 역시 많을 것으로 판단되었습니다. 인구, 학교, 공원, 교통 등의 주요 변수들을 통해서 볼 때, 해당 지역에 자전거 스테이션들이 집중되어 있는 것이 합리적으로 보였습니다. 이제 자전거의 이용 현황을 살펴보았습니다. 자전거 스테이션 입지 및 이용 현황 스테이션 입지 현황1.
  • 6. 6 대여 건수와 반납 제대로 안 된 건수의 추이 2017 2018 2019 9.1% 12.4% 17.3% 반납 제대로 안 된 비율의 추이 그런데, 자전거 이용 현황을 살펴본 결과, 자전거 이용 건수는 2017년에 비해 2018과 2019년에 약 20만 건이 감소하였고, 그에 반해 반납을 제대로 안 한 건수는 꾸준히 증가하였습니다. 반납을 제대로 안하는 비중이 계속 커지면서, 2019년에는 그 비율이 17.3%에 해당했습니다. 자전거 스테이션 입지 및 이용 현황 이용 현황1.
  • 7. 7 자전거 스테이션 입지 및 이용 현황 분석 목적1. 즉, 자전거의 3년 간 이용 현황을 살펴본 결과, 다음의 문제점들이 존재했습니다. ① 자전거 이용 실적의 감소 ② 자전거 비정상 반납의 증가 따라서, 분석 목적은 이러한 문제점들을 해결 및 완화하는 것으로, 한 줄로 정리하면, 고양시 공공 자전거 이용의 활성화 및 비정상 반납의 감소 입니다. 분석 목적 달성을 위한 분석 방향을 수립하기 위해서는, 먼저 해당 문제점들이 왜 발생했는지, 사람들이 어떠한 이유로 불만을 느끼는지 파악할 필요가 있었습니다.
  • 8. 81) 백주현·김준우·차윤철, 고양시 공공자전거 정책방향 수립을 위한 연구, 2019년 10월 31일 자전거의 잦은 고장 시스템 노후화 공공 자전거 부족 설치 및 반납 장소 부족 자전거 도로 부족 어려운 요금 결제방식 비싼 요금 대중교통 연계 불편 분실/도난 등 관리 부실 자전거 안장이 불편 정기권 운영 관련 고객센터 응대 관련 73% 71.2% 64.8% 46.4% 17.2% 13.3% 12% 6% (n=233) 공공 자전거 불만족 이유 (중복응답) 먼저 고양시 공공 자전거 연구 보고서1)의 공공 자전거 이용 불만족 이유에 대한 설문조사를 참고한 결과, 가장 비율이 높은 이유들은 다음의 두가지로 정리할 수 있었습니다. • 자전거 노후화 및 고장, 관리의 미흡 • 스테이션 및 자전거 수의 부족 이 외에도, 데이터를 탐색하여 불만의 근원이 무엇인지, 대여건수는 감소하고, 반납을 제대로 하지 않는 건수는 증가하는 이유가 무엇인지 더욱 파악하고자 하였습니다. 불만 상황 파악 설문조사 참고2.
  • 9. 9 먼저, 고양시의 행정동별 총인구 수와 자전거 대여 건수가 2017년 대비 2019년에 어떻게 변화했는지 확인했습니다. 앞서 대부분의 인구가 몰려있던 1,2번 지역들에 해당하는 행정동들의 경우, 인구 수와 대여 건수 모두 2017년에 비해 감소했습니다. 반면, 그 외의 지역들에서 2019년에 인구가 더욱 증가한 모습을 보였는데, 이는 창릉 신도시 건설, 덕양구의 각종 택지개발사업의 영향으로 판단됩니다. 한편, 전체 자전거 대여건수는 2017년에 비해 크게 감소하였지만, 창릉동, 행주동, 중산동 등 일부 동은 2017년보다 증가 또는 그 이상을 유지했습니다. 1.54 1.12 0.82 0.95 1.24 1.06 1.04 1.14 3.27 1.35 2.09 각 동의 2017년 대비 2019년의 총인구수 1.23 0.82 0.91 1.031.02 0.77 0.92 0.99 0.9 각 동의 2017년 대비 2019년의 대여 건수 불만 상황 파악 불만 상황① : 떠오르는 지역들에는 스테이션이 없다2.
  • 10. 10 총인구수와 대여 건수의 추이, 그리고 기존 스테이션 개수의 관계를 더욱 비교해보았습니다. 고양시의 전체 총인구수는 증가 추세였습니다. 그런데, 3년간의 인구 추이를 계층적 군집화(Hierarchical Clustering)한 결과, 인구가 감소 추세에 해당하는 동은 약 23개, 증가 추세는 16개에 해당했습니다. 현재 자전거 스테이션이1𝐤𝒎 𝟐 당 하나 이상 설치되어 있는 동들 중에서 86%가 인구가 감소하는 추세에 해당했고, 1𝐤𝒎 𝟐 당 하나 미만 설치되어 있거나 아예 설치되어 있지 않는 동들 중에서 72%가 인구가 증가하는 추세에 해당했습니다. 또 한, 2019년의 대여건수가 2017년보다 적은 동들 중에서는, 31%가 인구가 증가하는 추세에 해당했다면, 2017년보다 많은 동들 중에서는, 40%가 인구 증가 추세였고, 기존에 스테이션이 없던 동들 중에는 무려 75%가 인구 증가 추세에 해당했습니다. 즉, 고양시에서 많은 도시계획적, 인구통계적 변화가 일어나고 있었습니다. 불만 상황 파악 2. 불만 상황① : 떠오르는 지역들에는 스테이션이 없다
  • 11. 11 자전거길 인도 하천 한편, 고양시청 홈페이지1)와 블로그2)에 따르면, 주요 하천을 따라 자전거 코스를 조성하고, 계획 중인 것을 확인할 수 있었습니다. 특히, 공릉천의 경우 자전거 도로 및 코스가 마련되어 있음에도, 근처에 자전거 스테이션이 아예 존재하지 않았습니다. 이 근처에서 자전거에 대한 수요가 있다면, 이에 대한 불만이 어느정도 제기되는 상황으로 보입니다. 1) http://www.goyang.go.kr/www/www03/www03_5/www03_5_4/www03_5_4_tab5.jsp 2) https://m.blog.naver.com/letsgoyang/221595129333 불만 상황 파악 2. 불만 상황① : 떠오르는 지역들에는 스테이션이 없다
  • 12. 12 신도시, 택지개발 등 도시계획 사업들이 진행되면서, 각 행정동들의 인구, 자전거 대여 추이가 상반되고 있습니다. 특히, 기존에 스테이션과 운영 이력이 집중 분포되어 있던 행정동의 경우, 인구와 대여 건수 모두 감소 추세에 해당했습니다. 현재 자전거 스테이션과 이용 건수의 압도적인 비중을 차지하고 있는 지역들이기 때문에, 해당 지역에서 자전거 수요와 관련한 모수가 감소하고 있다는 사실이 전체 대여 건수 감소에 큰 영향을 미친 것으로 판단됩니다. 한편, 인구가 증가하고 있는 행정동의 경우에는, 과반수가 스테이션이 거의 설치되어 있지 않았습니다. 하천 및 공원 근처에 자전거 코스가 조성되어 있음에도 불구하고, 스테이션이 근처에 존재하지 않는 경우도 존재했습니다. 현재 스테이션이 적거나 아예 없는 지역들 중, 자전거 스테이션에 대한 수요가 있는 곳들이 있어 보입니다. 반납이 제대로 되지 않는 건수가 증가하는 이유 중 하나로, 자전거를 대여하고 다른 곳으로 이동하였는데, 근처에 반납할 스테이션이 없기 때문이 아닐까 생각합니다. 정리하면 다음과 같습니다. 따라서, 인구 변화 또는 자전거 코스 등 새로운/잠재적인 수요를 반영하는 변수들도 포함하여, 각 지역의 수요를 새롭게 예측할 필요가 있습니다. 불만 상황① : 떠오르는 지역들에는 스테이션이 없다 불만 상황 파악 2.
  • 13. 13 공원 3호선 불만 상황② : 같은 시간에 같은 목적으로 탄다 불만 상황 파악 2. 한편, 운영 이력 데이터를 탐색한 결과, 사람들이 공공 자전거를 타고 대부분 단거리 이동을 한다는 것을 알 수 있었습니다. 대체로, 아래 왼쪽 그림에서 파악할 수 있듯이, 매우 가까운 근처로 이동하거나, 오른쪽 그림을 보면, 적어도 동일 구역으로 묶이는 범위 안에서 이동하는 것을 볼 수 있었습니다. 근처에서 이동 특정 범위 안에서 이동
  • 14. 14 그렇다면, 사람들이 공공 자전거를 타는 주요 목적들이 무엇인지 더욱 파악하고자 했습니다. 이 때, 자전거를 타는 시간대가, 자전거를 타는 주요 이유를 대체로 설명하고 있었습니다. 행정동별로 각 시간대의 대여건수 – 반납건수를 구하고, 이들의 하루 추이에 대하여 계층적 군집화를 진행했습니다. 그 결과, 오른쪽 그림과 같이, 크게 세가지의 패턴이 존재했습니다. ① 출근 시간(오전 8시)에 대여가 반납보다 훨씬 많은 경우 ② 퇴근 시간(오후 6~7시)에 대여가 반납보다 훨씬 많은 경우 ③ 저녁~밤에 대여가 반납보다 훨씬 많은 경우 스테이션이 존재했던 32개의 행정동 중에서, ①의 경우가 14개로 약 44%, ②의 경우가 8개로 25%, ③의 경우가 7개로 약 22%를 차지하고 있었습니다. 불만 상황② : 같은 시간에 같은 목적으로 탄다 불만 상황 파악 2.
  • 15. 15 ① 출근 시간에 대여가 많은 경우 대체로 행정동들의 위치를 볼 때, 출근 시간에 집 근처에서 자전거를 대여한 뒤, 지하철(3호선) 역 근처에서 반납하고 지하철을 타는 경우로 판단됩니다. ② 퇴근 시간에 대여가 많은 경우 대체로 지하철 역이 존재하는 행정동으로서, 퇴근 시간에 근처에서 자전거 대여를 하고, 집 근처에서 반납하는 경우로 판단됩니다. ③ 저녁 이후에 대여가 많은 경우 근처에 공원들이 존재하고, 자전거를 타는 평균 시간과 최대 시간이 세 경우에서 모두 최대인 것을 볼 때, 운동 또는 취미 목적으로 자전거를 타는 경우로 판단됩니다. 자전거를 이용하는 대부분의 목적이 세가지로 설명되면서, 특정 시간대에 대여 및 반납이 몰리는 것으로 보입니다. 공원 3호선 불만 상황② : 같은 시간에 같은 목적으로 탄다 불만 상황 파악 2.
  • 16. 16 현재 고양시에 대한 다방면 데이터 탐색을 통해, 공공 자전거를 이용하는 데 있어서 불만이 제기될 2가지 상황을 파악했고, 이를 통해 분석 방향에 대한 아이디어를 다음과 같이 얻을 수 있었습니다. 불만 파악을 통한 분석 방향 수립 분석 방향 및 기대효과 3. 현재는 주요 4지역에 스테이션이 집중 설치되어 있지만, 점차 도시 개발로 인해 급부상하는 지역, 하천 옆 자전거길 마련 등으로 인해 자전거 수요가 존재할 것으로 보이는 지역들이 존재했습니다. 따라서, 인구 변화, 자전거 코스 등 새로운 수요를 반영할 수 있는 변수들도 포함하여 각 지역의 자전거 수요를 새롭게 예측할 필요가 있었습니다. 수요가 있는 지역이지만, 스테이션이 거의 없는 경우 그런데, 사람들의 공공 자전거 이용 목적이 대체로 세가지로 설명되면서, 자전거 대여와 반납이 특정 시간에 몰리는 현상을 파악했습니다. 즉, 자전거의 필요성은 특정 시간에 급증합니다. 따라서, 스테이션이 필요한 주요 지역들을 선정한 뒤에는, 해당 지역에는 스테이션을 확실하게 공급하여, 최대한 많은 사람들의 수요를 충족시킬 필요가 있습니다. 특정 시간대에 대여 및 반납이 몰리는 경우
  • 17. 17 아이디어를 종합하여, 분석 방향을 한 줄로 정리하면 다음과 같습니다. 기대효과 분석 방향 및 기대효과 3. 실질적으로 자전거 수요가 존재할 지역들을 최대한 추리고, 추린 지역들에는 자전거 스테이션 간 네트워크가 구축될 수 있을 정도로, 스테이션을 촘촘히 배치하고자 합니다. 이러한 분석 방향의 기대효과는 다음과 같습니다. 1. 비정상 반납의 감소 반납할 곳이 근처에 없거나, 해당 스테이션에 거치대가 모두 차 있을 때, 반납을 제대로 하지 않는 경우가 많을 것입니다. 데이터에서도 파악했듯이, 이동 목적으로 공공 자전거를 이용할 때, 장거리 이동을 하지는 않기 때문에, 특정 지역 안에 자전거 스테이션이 촘촘히 배치되어 있다면, 반납 스테이션이 없어서 반납을 안하는 경우는 감소할 것입니다. 또 한, 모든 거치대가 찼다 해도, 근처에 다른 스테이션이 존재하기 때문에 이 경우 역시 보완할 수 있게 됩니다. 2. 자전거 이용의 장려 해당 지역에서만큼은 어디를 가도 대여할 수 있고 반납할 수 있다는 확신이 들게 되면, 자전거 이용을 망설일 이유의 일부도 사라질 것입니다. 즉, 자전거 네트워크가 구축된 지역에서는, 스테이션 접근성도 높고, 공급도 넉넉하기 때문에, 자전거 이용의 활성화를 기대할 수 있게 됩니다. 3. 관리의 효율화 작동이 안 되는 자전거가 있는지 검사하는 일, 스테이션을 채워주는 일 등 자전거 관리와 관련된 일도 고려를 해야합니다. (자전거 관리가 부족한 것 도 설문조사 참고에서 파악한 불만 중 하나였습니다.) 이 때, 스테이션을 외딴 곳에 하나씩 설치하는 것보다 관리의 효율이 높아질 것입니다. 4. 확장 가능성 금전적 요인을 포함하여 여러가지 요인으로 인해, 설치할 수 있는 스테이션의 개수는 한정적입니다. 따라서, 수요가 시급하거나 많은 지역부터 우선 적으로 설치하는 것이 효율적이지만, 점차 자전거 이용이 활성화되어 수익도 생기고 다른 지역에도 수요가 크게 증가했다면, 다른 지역에도 자전거 네트워크를 구축하여, 공공 자전거 시스템을 확장할 수 있게 됩니다. 자전거 수요가 존재하는 지역들을 엄밀하게 선정하고, 해당 지역들은 자전거 네트워크를 확실하게 구축한다!
  • 18. 자전거 스테이션과 거치대 수량 배치 1. 모델링 개요 2. 데이터셋 설명 및 전처리 3. 학습용 데이터와 예측용 데이터 구축 3.1. 학습용 데이터 3.2. 예측용 데이터 3.3. 변수 생성 4. 모델 학습 4.1. 모델 선택 이유 4.2. 모델 학습 4.3. 예측값과 한계점 5. 스테이션 배치 5.1. 실질적 수요 존재 지역 선정 5.2. 자전거 스테이션 배치 5.3. 거치대 수량 결정
  • 19. 19 고양시의 50Mx50M에 해당하는 인구분포도를 이용하여 후보군 생성 주어진 데이터를 이용하여 후보군 주변 정보를 변수화 기존에 설치된 스테이션 정보를 통해 모델 구축 및 후보군의 수요 예측 고양시 도시화 계획 구간의 예측값 및 인구분포도를 기준으로 사후 처리(Post Process) 진행 후보군들을 대상으로 클러스터링 진행 후, 각 클러스터에 해당하는 자전거 스테이션 개수 결정 최종적으로 거치대 수량 및 스테이션의 좌표 생성 모델링 개요 모델링 개요 1. 자전거 수요가 어느 정도를 능가하는 지역을 선별하기 위해, 수요를 예측하는 모델 구축에 신경을 썼습니다. 해당 모델은 각 후보군의 2020년의 하루 대여건수를 예측하는 것이고, 전반적인 분석(모델링) 과정은 다음과 같습니다.
  • 20. 20 데이터셋 설명 및 전처리 데이터셋 설명 및 전처리 2. 01.운영이력.csv 02.자전거스테이션.csv 05.기상정보.csv 06.인구(거주)분포도(100MX100M).geojson 07. 인구통계.csv 10. 도시계획(공간시설).geojson 11. 도시계획(공공문화체육시설).geojson 12. 도시계획(교통시설).geojson 14. 고양시 지적도.geojson 17. 일반건물 분포도(100MX100M).geojson 19. 전철역_공간정보.csv 20. 고양시 버스정류소.csv 21. 버스 정류장별 승하차 정보.csv 26. 고양시 공연장 박물관 정보.csv 27. 고양시 체육시설 현황 정보.csv 34. 행정경계(행정동기준).geojson 33. 고양시_인도.geojson 변수 생성에 활용한 데이터셋 16.도로명주소_도로.geojson 자전거 배치에 활용한 데이터셋 사후 처리에 활용한 데이터셋 35. 고양시_도시화지역경계.geojson 활용한 데이터셋은 다음과 같습니다. 이와 관련한 구체적인 설명은, 앞으로 학습 데이터 구축을 위한 변수 생성, 스테이션 배치, 사후 처리 과정에서 각각 다루고자 합니다.
  • 21. 21 데이터셋 설명 및 전처리 데이터셋 설명 및 전처리 2. 한편, 활용한 데이터셋은 크게 시간 정보가 포함된 데이터와 고정된 데이터로 구분할 수 있었습니다. 이 두 성격에 따라, 변수 생성 등 데이터를 이용하는 법도 달라지게 됩니다. ② 고정된(시간 정보가 없는) 데이터 • 06.인구(거주)분포도(100MX100M).geojson • 10. 도시계획(공간시설).geojson • 11. 도시계획(공공문화체육시설).geojson • 17. 일반건물 분포도(100MX100M).geojson ⋮ ① 시간 정보가 포함된 데이터 • 01.운영이력.csv • 05.기상정보.csv • 07. 인구통계.csv 운영이력과 기상정보는 일별, 인구통계는 월별 정보를 이용했습니다. 인구분포도(100MX100M) 한편, 이 데이터 유형에는 geojson형식이 많았는데, geojson 데이터들은 대체로 geometry 변수에서 Polygon의 중심점에 해당하는 좌표를 파생변수화했습니다. geojson 데이터의 이용 고양동의 월별 인구추이대여소 101 일별 대여량
  • 22. 22 예측용 데이터 구축 학습용 데이터와 예측용 데이터 구축 3. 본격적으로 예측용 데이터와 학습용 데이터를 구축합니다. 먼저, 예측용 데이터 구축 과정입니다. 고양시 전체 면적의 50m X 50m 격자의 중심점을 후보군으로 설정. 각각의 후보군에 대해 일별 예측을 위해, 월(1~12)과, 요일(월~금) 변수를 추가. 학습용 데이터와 공통의 변수들을 추가. 예측용 데이터 즉, 하나의 후보군 당, 84(=12x7)일의 대여건수를 예측하는 것입니다. 이후, 각 후보군별로 대여건수를 평균 낸 값, 상위 25% 값 등을 이용합니다. 데이터 인구(거주)분포도(100MX100M).geojson에서 결측값에 0을 삽입 후, 각 Polygon의 꼭짓점들의 중간값으로 후보군을 생성했습니다. (즉, 50mX50m으로 확대.) 이는 특정 지역의 수요 예측 시에, 조금 더 세밀한 예측을 위함입니다. 여기서, 인구 분포도의 값이 0인 지역들은 제외했습니다. 따라서, 전체 후보군의 개수는 15969입니다.
  • 23. 23 학습용 데이터 구축 학습용 데이터와 예측용 데이터 구축 3. 각 스테이션에 대해, 이에 해당하는 일별 대여 건수와 반납 건수 추가 각 스테이션에 대해, 시간 정보가 존재하는 데이터로부터 변수 생성 각 스테이션에 대해, 고정된 데이터로부터 변수 생성 이제, 학습용 데이터 구축 과정입니다. 02.자전거스테이션.csv + 01.운영이력.csv + 05.기상정보.csv + 07. 인구통계.csv + 17. 일반건물 분포(100MX100M).geojson + … 학습용 데이터 예측용 데이터 vs 와 에 해당하는 파생변수 생성 과정을 설명하겠습니다. 예측 대상
  • 24. 24 변수 생성①: 시간 정보가 존재하는 데이터 학습용 데이터와 예측용 데이터 구축 3. 시간 정보가 존재하는 데이터로부터 변수 생성 먼저, 시간 정보가 존재하는 데이터로는, 05.기상정보.csv와 07.인구통계.csv 데이터가 있었습니다. 이들의 경우, 학습용 데이터와 예측용 데이터는 각각 다음과 같이 변수를 생성했습니다. ① 학습용 데이터 평균 기온은 각 날짜에 해당하는 데이터 그대로 기입하고, 총인구수의 경우, 각 월에 해당하는 총인구를 기입했습니다. ② 예측용 데이터 고양동 고봉동 한편, 예측용 데이터의 경우에는, 2020년의 인구를 Arima Model을 이용하여 예측하고, 이를 예측용 데이터 에 변수 추가하였습니다. 기온은 특별히 예측 과정 없이 이전 기온들의 평균을 기입했습니다.
  • 25. 25 변수 생성①: 시간 정보가 존재하는 데이터 학습용 데이터와 예측용 데이터 구축 3. cf. 예측용 데이터에 2020년 인구추이를 예측한 값을 변수 추가하는 이유 EDA에서 확인했던 것 처럼, 고양시의 행정동은 서로 상반되는 인구 변화를 겪고 있습니다. 더불어, 각 행정동의 인구는, 각 행정동의 자전거 수요 및 반납과 매우 깊은 관계를 가지고 있습니다. 2017년부터 2019년의 각 행정동의 인구와 대여건수, 인구와 반납건수는 각각 평균 0.6, 0.8의 상관관계를 가지고 있었습니다. 따라서, 현재 변화중인 고양시의 인구 추이가 중요한 정보가 될 것이라고 판단했고, 이를 반영하고자 했습니다. 각 행정동의 인구 변화와 대여건수 변화의 상관계수 각 행정동의 인구 변화와 반납건수 변화의 상관계수
  • 26. 26 변수 생성②: 고정된 데이터 학습용 데이터와 예측용 데이터 구축 3. 고정된 데이터로부터 변수 생성 한편, 고정된(시간 정보가 없는) 데이터의 경우, 다음의 두가지로 분류할 수 있었고, 각각의 경우에 다음과 같이 파생 변수를 생성했습니다. • 후보군에서 도보 3분 거리 이내에 존재하는 특정 대상 (ex.건물)의 개수 • 후보군에서 도보 3분 거리 이내에 존재하는 모든 대상과의 거리의 최소,평균,최대 • 도보 3분이내 아무 대상도 없을 시에는, 도보 3분거리인 0.0025로 기입 ① 위치 정보만 존재하는 경우 • ① 위치 정보만 존재하는 경우와 똑같은 변수들 • 도보 3분 거리 이내 값(value)의 최소, 평균, 최대 ② 위치 정보와 그에 해당하는 특정 값이 존재하는 경우
  • 27. 27 변수 생성②: 고정된 데이터 학습용 데이터와 예측용 데이터 구축 3. Ex1. 위치 정보와 그에 해당하는 값(val)이 존재하는 데이터에 해당하는, 일반건물 분포도(100MX100M).geojson 의 경우, 파생 변수들을 생성한 결과는 다음과 같습니다.
  • 28. 28 변수 생성②: 고정된 데이터 학습용 데이터와 예측용 데이터 구축 3. 특정 후보군 3분 거리 이내에 존재하는 모든 인도/자전거 도로의 개수와, 후보군과의 거리 최소, 평균, 최대값을 파생변수화 했습니다. Ex2. 위치 정보만 존재하는 데이터에 해당하는 33. 고양시_인도.geojson의 경우, 파생 변수들을 생성한 결과는 다음과 같습니다. 자전거 도로가 있는 인도 자전거 도로 자전거 도로가 없는 인도 후보군으로부터 도보 3분 거리 범위 한편, 고정된 데이터에는 geojson 형식의 파일이 많이 존재했습니다. geojson 파일의 경우 대체로 geometry 칼럼의 Multipolygon의 중심값(centroid)에 해당하는 좌표를 추출하여, 똑같이 후보군과의 거리를 계산하는 방식으로 사용하였습니다.
  • 29. 29 변수 생성②: 고정된 데이터 학습용 데이터와 예측용 데이터 구축 3. 앞서 한 방식과 동일하게 진행할 때, 지적도의 하천과 공원의 Multipolygon 좌표들이 잘게 나뉘어져 있어, 주변에 상당히 많은 하천과 공원이 있다고 계산되었니다. 따라서, SpectralClustering을 통해, 한 차례 좌표들을 묶은 이후에 파생변수화했습니다. Ex3. 위치 정보만 존재하는 데이터에 해당하는 14. 고양시 지적도.geojson의 경우, Spectral Clustering
  • 30. 30 변수 생성②: 고정된 데이터 학습용 데이터와 예측용 데이터 구축 3. 10. 도시계획(공간시설).geojson 11. 도시계획(공공문화체육시설).geojson 12. 도시계획(교통시설).geojson 19. 전철역_공간정보.csv 20. 고양시 버스정류소.csv 21. 버스 정류장별 승하차 정보.csv 26. 고양시 공연장 박물관 정보.csv 27. 고양시 체육시설 현황 정보.csv 변수 생성에 활용한 고정된 데이터 각 데이터에서 어떤 칼럼을 이용하고 변수화 했는지 정리하면 다음과 같습니다. 변수 생성원리는 앞서 고정된 데이터에서 파생변수 생성하는 내용과 동일합니다. 14. 고양시 지적도.geojson : 하천(천), 공원(공)만 사용 33. 고양시_인도.geojson : 인도, 자전거 도로 사용 ⚫ 모든 데이터셋 활용 ⚫ 일부 데이터셋 활용
  • 31. 31 변수 생성 학습용 데이터와 예측용 데이터 구축 3. 최종적으로 활용한 학습용 데이터는 다음과 같습니다. 전체 변수는 총 454개입니다. 운영이력 데이터에서 각 스테이션별로 최초로 대여 건수가 존재하는 날짜부터 2019년 12월 31일까지의 행을 가지고 있습니다 . Ex1) A스테이션의 최초 대여 날짜가 2019년 1월 1일일 경우: A스테이션의 행은 2019/01/01 ~ 2019/12/31 => 365 개 Ex2) B스테이션의 최초 대여 날짜가 2017년 1월 1일일 경우: B스테이션의 행은 2017/01/01 ~ 2019/12/31 => 365x3 개
  • 32. 32 변수 생성 학습용 데이터와 예측용 데이터 구축 3. 최종적으로 활용한 예측용 데이터는 다음과 같습니다. 각 후보군 별로 월(1~12월) * 요일(월~일), 즉 84(=12x7)개의 행을 가지고 있습니다. 이 84개 예측값의 평균값을 해당 후보군의 수요라고 간주합니다. 한편, 앞으로 특정 후보군의 84개 예측값의 평균값을 스테이션 배치에, 상위 25%값을 거치대 수량을 정하는데 사용할 것입니다.
  • 33. 33 변수 생성 학습용 데이터와 예측용 데이터 구축 3. 학습용 데이터와 예측용 데이터에서, 스테이션(또는 후보군)별 하나의 값을 예측하지 않고 일별로 예측한 이유는 다음과 같습니다. cf. 학습용 데이터와 예측용 데이터를 일별로 예측한 이유 앞으로, 최종적으로 일별 예측의 평균으로 최종 수요를 예측하고, 스테이션 위치 선정 이후, 거치대 수량 결정에 있어서는 예측값의 상위25% 값을 사용합니다. • sample이 164개에 불과하게 되어 매우 부족합니다. • 기상 데이터 및 시간 정보가 포함된 데이터(인구 추이 등)를 적절히 반영할 수 없습니다. 스테이션(후보군)별 하나의 값만을 예측할 경우에는, 이 때, 일별로 예측하게 되면 위 문제점들을 보완할 수 있을 뿐만 아니라, 예측 값 하나하나를 통계량으로 간주하면, 여러가지의 통계량을 얻게 되어 후보군 별 최종 예측 수요의 분산이 감소합니다. 더불어, 예측값들의 평균, 상위25% 값 등 다양한 통계량도 얻을 수 있습니다. 즉, 따라서 가지고 있는 데이터를 더욱 적절하게 반영할 수 있고 조금 더 정확하고 robust한 결과값을 얻을 수 있습니다.
  • 34. 34 모델 선택 이유 모델 학습 4. 본격적으로 모델을 학습하였습니다. 모델은 LGBM을 이용했습니다. 모델 사용 이유 선형모델의 경우 학습 데이터에 대한 성능도 우수하지 못하고, 반대로, Neural Network의 경우 Tree기반 머신러닝 모델보다도 과적합의 가능성이 더욱 컸습니다. 따라서, Tree 기반 모델을 이용하는 것으로 결정했고, 그 중에서 가장 우수한 성능을 보이고 복잡한 패턴 파악이 가능한 LGBM 모델을 선택했습니다. 한계점 한계점으로는, 과적합의 위험성이 크다는 것입니다. 특히, 학습 데이터와 예측 데이터의 분포가 서로 이질적인 경우, 문제 해결(외삽)이 어렵게 됩니다. 극복방안 첫 째, Cross validation의 성능이 심하게 감소하지 않는 선에서 변수 선택을 통해 과적합을 방지합니다. 둘 째, Tree 모델의 장점을 취하면서, 특정 기준을 이용한 사후 처리(Post Process) 과정을 통해 한계점을 극복할 것입니다.
  • 35. 35 모델 학습 모델 학습 4. LGBM 모델을 학습시키는 과정에서, Cross Validation과 Permutation Test를 이용해서 과적합을 방지하고자 했습니다. Nested Cross-Validation, https://stats.stackexchange.com/questions/453386/working-with-time-series-data-splitting-the-dataset-and-putting-the-model-into Permutation Feature Imporance, https://medium.com/@vivek_skywalker/permutation-importance-a1df5010fa99 ① Time Series Cross Validation 과적합 방지를 위해 Validation Set을 분리하는 작업은 필수적이었습니다. 그런데, 해당 데이터에 시간 정보 또한 존재하기 때문에, 다음과 같은 구조의 Cross Validation 방법을 이용했습니다. ② Permutation Test Permutation Test는 특정 변수의 값을 여러 번 무작위로 섞은 뒤, 이 결과가 성능에 미치는 영향을 통해, 변수 중요도를 파악하는 방법입니다. 이 방법을 통해, Validation Set에 높은 영향을 주는 순서대로, 변수를 선택했습니다.
  • 36. 36 모델 학습 모델 학습 4. Permutation Test 결과, 최종적으로 선택된 변수는 85개입니다. 선택된 변수 단순 나열 변수 중요도에 따른 나열
  • 37. 37 예측값과 한계점 모델 학습 4. 이제, 학습 시킨 모델로 각 후보군의 예측 수요 값(일별 대여건수)을 얻었습니다. 그런데, 대부분의 후보군이 수요가 존재한다고 예측했습니다. 이는 Tree 모델의 한계와 관련이 있었습니다. Tree모델은 학습 데이터셋 변수에 없는 범위의 값이 존재하면 모델이 이를 더 크거나 낮은 값으로 인식을 하지 못하는 것으로 판단되었습니다. 예를 들어, 학습 데이터에서의 A 변수의 범위가 10~20 사이였다면, 예측 데이터에서 A 변수 값이 0이더라도, 10으로 인식하는 것입니다. 그런데, 학습 데이터의 샘플(기존 스테이션)의 경우, 모두 수요가 많고, 도시화도 많이 진행된 지역에 해당했습니다. 따라서, 해당 모델은 수요가 없는 경우를 학습시키지 못했기 때문에, 대부분의 후보군에 수요가 존재한다고 예측하게 됩니다. 예측값과 한계점 한계점의 이유 개선 방안: 사후처리 따라서, 절대적인 예측값을 따르기보다, 실질적으로 수요가 존재하는지를 판단해야합니다. 이를 위해, 도시화 계획 지역의 예측값, 인구분포도를 기준으로 실질적 수요가 존재하는 지역을 선정하는 사후 처리 과정을 진행했습니다.
  • 38. 38 실질적 수요 존재 지역 선정 스테이션 배치 5. 앞으로의 과정은, 실질적 수요가 존재하는 지역을 추리기 위한 사후처리를 진행한 후, 스테이션을 배치하고 거치대 수량을 결정하는 것입니다. 각 후보군의 자전거 수요를 수치적으로 파악했지만, 이 중에서도 실질적으로 수요가 존재하는 지역은, 결국 어느정도 사람들이 거주하고, 주변 기반 시설이 잘 마련된 곳이어야 한다고 판단했습니다. 이 기준을 35. 고양시_도시화지역경계.geojson 데이터의 도시화 지역 경계로 잡았습니다. 도시화 지역 경계 인구분포도와 건물분포도를 기준으로 실질적 수요가 적은 후보군 필터링. 밀도 기반 클러스터링을 통해 Noise 제거. 도시화 지역 경계에 해당하는 클러스터들의 예측값을 기준으로 실질적 수요가 적은 후보군 필터링. 후보군을 도로에 배치. 클러스터를 구성하는 후보군의 개수를 기준으로 면적이 작은 클러스터 필터링. 클러스터의 평균 예측값과 클러스터의 넓이를 고려하여, 각 클러스터에 적절한 스테이션 개수 할당. 각 클러스터에 할당된 스테이션 개수만큼 스테이션 설치. 예측값의 상위 25%값을 이용하여 각 스테이션의 거치대 수량 결정. 순환율이 저조한 것으로 보이는 스테이션 근처에 추가적인 배치. 실질적 수요 존재 지역 선정 스테이션 배치 거치대 수량 결정
  • 39. 39 실질적 수요 존재 지역 선정 스테이션 배치 5. 도시화 지역 경계 인구분포도와 건물분포도를 기준으로 실질적 수요가 적은 후보군 필터링. 가장 먼저 인구 정보를 통해 실질적 수요가 적어 보이는 지역을 필터링했습니다. 해당 후보군의 인구가 도시화 지역 경계에 해당하는 인구의 하위 10% 값보다도 낮다면, 실질적인 수요가 거의 없는 지역으로 판단되었습니다. 또 한, 일반 건물 분포도의 경우 건물 분포 값이 0인 후보군도 제외하였습니다. 먼저 실질적 수요가 존재하지 않는 것으로 보이는 지역들을 제외하면서 후보 지역을 추려나가는 과정입니다.
  • 40. 40 실질적 수요 존재 지역 선정 스테이션 배치 5. 밀도 기반 클러스터링을 통해 Noise 제거. HDBSCAN 클러스터링을 진행한 후, 소수의 후보군으로 묶이는 클러스터들은 추가적으로 제외했습니다. 공공 자전거를 타고 장거리를 이동하는 경우는 드물기 때문에, 특정 지역 안에 자전거 스테이션을 비교적 조밀하게 설치해야 대여 및 반납을 원활히 할 수 있을 것으로 판단했습니다. 또 한, 띄엄띄엄 설치하는 것보다 관리의 효율성도 높아집니다.
  • 41. 41 실질적 수요 존재 지역 선정 스테이션 배치 5. 도시화 지역 경계에 해당하는 클러스터들의 예측값을 기준으로 실질적 수요가 적은 후보군 필터링. HDBSCAN 클러스터링을 재진행하여, 특정 클러스터의 평균 예측값이 도시화 지역 경계에 해당하는 클러스터들의 평균 예측값 보다 낮은 클러스터들을 추가적으로 제외했습니다. 도시와 지역이 아니면서 도시화 지역의 평균 수요 예측값보다 낮다면, 실질적 수요가 적은 지역으로 판단되었습니다. (도시화 지역 경계에 포함된 클러스터들은 제외하지 않았습니다.) 이후, 클러스터링을 재진행했습니다.
  • 42. 42 실질적 수요 존재 지역 선정 스테이션 배치 5. 후보군을 가까운 도로에 배치. 본격적으로 후보군들을 가까운 도로에 배치하기 앞서, 기존에 설치되어있는 스테이션들은 어느 도로 근처에 위치하는지, 도로의 폭은 어느정도인지 파악했습니다. 16.도로명주소_도로.geojson 데이터에서 기존 스테이션 위치에 근접한 도로들을 뽑은 결과, 자전거 스테이션들은 대부분의 도로위계기능구분(ROA_CLS_SE)이 3,4인 도로 근처에 배치되어 있었고, 도로폭은 최소값이 3이었습니다. 따라서, 후보군들을 도로위계기능구분이 3,4이며, 도로폭은 3 이상인 도로 근처에 배치하는 것으로 결정했습니다 . 도로 종류 도로 폭
  • 43. 43 실질적 수요 존재 지역 선정 스테이션 배치 5. 클러스터를 구성하는 후보군의 개수를 기준으로 면적이 작은 클러스터 필터링. 마지막으로, 클러스터를 구성하는 후보군의 개수가 특정 수보다 아래인 클러스터들을 제외했습니다. 클러스터 면적이 어느정도를 능가해야 복수의 자전거 스테이션을 해당 클러스터에 배치할 수 있기 때문입니다. 이 때, 특정 수에 대한 Cutline을 무엇으로 하는지에 따라, 후보 클러스터들의 개수가 달라지지만, 본 분석 과정에서는 40으로 잡았습니다. 이로써 실질적 수요가 존재하는 지역(클러스터) 선정을 완료했습니다. 후보군의 개수
  • 44. 44 스테이션 배치 스테이션 배치 5. 클러스터 면적을 이용해서 배치할 스테이션의 개수를 결정합니다. 클러스터의 면적은 Convex Hull Algorithm을 이용하여 구했습니다. Convex Hull Algorithm은 주어진 점들에 대해, 해당 점들을 모두 포함하는 가장 작은 볼록 다각형을 찾는 알고리즘입니다. 클러스터의 평균 예측값과 클러스터의 넓이를 고려하여, 각 클러스터의 적절한 스테이션 개수 선정. 본격적으로, 스테이션을 배치하는 과정입니다. 먼저, 각 클러스터에 배치할 자전거 스테이션의 개수를 선택합니다. 특정 클러스터에 해당하는 좌표들과 이를 포함하는 다각형
  • 45. 45 스테이션 배치 스테이션 배치 5. 이제 각 클러스터의 계산된 면적과 예측값을 이용하여, 클러스터별 스테이션 개수를 계산합니다. 이후, 스테이션 개수를 분배하기 위한 각 클러스터의 가중치는 다음과 같이 계산합니다. 계산된 면적 해당 클러스터에 포함된 후보군들의 예측값의 평균 x가중치 = 이 가중치들의 합이 1이 되도록 스케일링한 후, 가중치의 크기만큼 자전거 개수를 분배합니다. 단, 다음의 두가지 제한 조건이 존재합니다. 아직은 고양시의 현재 인구 분포 및 기반 시설들이 집중되어 있고, 3호선 근처이므로, 특정 시간에 몰리는 현상 또한 존재하기 때문입니다. 기존 스테이션이 몰려있었던 1,2,3의 지역은 스테이션 개수를 154개보다 감소시키지 않습니다. ② 각 클러스터의 최소 스테이션 설치 개수는 5개입니다. 실질적 수요 지역을 최대한 추린 만큼, 해당 지역들에는 넉넉한 스테이션을 공급하기 위함입니다. 또한, 스테이션이 단독으로 존재할 경우, 이용률이 저조할 가능성이 높다고 판단했습니다 . ① List = 모든 클러스터 가중치들의 리스트 List/List.sum() X 240 = 280 (최대 스테이션 수가 300개이기 때문에, 300개가 되지 않는 상수를 곱해주었습니다. 그 결과 모든 구간에 배치할 시, 280개 가량의 자전거 스테이션 수가 계산되었습니다.) Ex.
  • 46. 46 스테이션 배치 스테이션 배치 5. 각 클러스터마다 스테이션 개수를 파라미터로 하는 K- means 클러스터링을 적용하여, 스테이션을 배치할 후보군을 선정합니다. 이 때, 각 예측값의 상위 25%값을 가중치로 부여하여, 수요가 그중에서도 높은 부근은 스테이션을 더욱 촘촘하게 배치합니다. 하나의 스테이션에 거치대 수량이 30개로 한정되어있기 때문에, 수요가 높은 클러스터들은 촘촘하게 배치할 필요성이 존재했습니다. 각 클러스터마다 거리 기반 클러스터링을 이용하여 스테이션 배치. 각 클러스터에 배치할 스테이션 개수를 결정한 뒤, 스테이션을 배치합니다. 고양시의 도시화 지역 경계와 자전거 수요가 존재하는 곳에 전반적으로 잘 배치 된 것을 볼 수 있습니다.
  • 47. 47 거치대 수량 결정 스테이션 배치 5. 마지막으로, 배치한 스테이션에 대해, 각각의 거치대 수량을 결정합니다. 예측값의 상위 25%값을 이용하여 각 스테이션의 거치대 수량 결정. 각 스테이션의 거치대 수량은 예측값의 상위 25%를 기준으로 결정했습니다. 하루 최대 수요가 많은 스테이션일수록 거치대 개수를 늘리는 것이 합리적일 것이라고 판단했는데, 이 때, 단순 최대값은 Outlier에 영향을 받을 수 있기 때문에 상위 25%를 기준으로 하는 것으로 결정했습니다. 상위 25% 예측값들의 분포를 보면, 91%가 10에서 30 사이였고, 나머지 9%가 30을 초과했습니다. 이 때, 30을 초과하는 경우는, 예측 반납건수도 참고하여 주변에 추가적인 스테이션을 설치할 지의 여부를 결정하기로 했습니다. 9%91%
  • 48. 48 거치대 수량 결정 스테이션 배치 5. 순환율이 저조한 것으로 보이는 스테이션 근처에 추가적인 배치. 앞서, 대여건수의 예측값의 상위 25%가 30을 초과하는 스테이션들 중에서 예측 반납건수가 많이 부족할 경우에는, 스테이션을 추가적으로 배치했습니다. 그 이유는, 예측 반납건수가 대여건수에 비해 훨씬 부족한 지역은 순환이 원활하지 못한 곳으로 짐작되었기 때문입니다. 예측 대여건수의 Q3값이 30 초과이면서, 다음의 관계, A = 평균대여량 – 평균반납량 A의 표준편차(𝜎) <= A 를 가지는 스테이션을 살펴본 결과, 일산 지역의 3호선 주변 5개의 스테이션이었습니다. 따라서, 이 5개 스테이션 주변에 추가 배치를 해주었습니다 이로써, 스테이션과 거치대 수량 배치를 모두 완료했습니다.
  • 49. 최종 결과 및 평가 1. 배치 결과와 수요 충족도 2. 한계점 및 의의
  • 50. 50 배치 결과와 수요 충족도 최종 결과 및 평가 1. 최종 스테이션와 거치대 수를 배치한 결과입니다. 초록색 기둥은 스테이션의 위치, 높이는 거치대 수를 반영합니다. 거치대 수량은 일산에 해당하는 지역이 가장 많은 것을 볼 수 있습니다.
  • 51. 51 배치 결과와 수요 충족도 최종 결과 및 평가 1. 이는 전체 스테이션의 개수가 285개이고, 16개의 지역(클러스터)에 배치한 결과입니다. 배치 결과를 보면, 인도 및 자전거길, 도시화 지역 경계 등 주요 지역에 스테이션들이 배치되어 있는 것을 확인할 수 있습니다. 그런데, 해당 결과에서는 스테이션 개수가 기존 개수보다 많이 증가했습니다. 실제로는 스테이션 개수를 하나 설치하는 데, 많은 비용이 들기 때문에, 전체 스테이션 개수를 조금 더 줄인 배치 결과도 확인해보았습니다. 현재 스테이션 배치 결과가 수요 충족도 100% 만족된 것이라고 할 때, 스테이션 개수를 줄일수록 충족도는 어느정도 되는지 함께 제시하고자 합니다. • 스테이션 개수: 285 • 지역 개수: 16 • 수요 충족도: 100%
  • 52. 52 배치 결과와 수요 충족도 최종 결과 및 평가 1. 가장 수요 감소가 적은 지역부터 제외하여 스테이션 개수를 감소시켜 보았습니다. 오른쪽 배치 결과는 전체 스테이션의 개수를 255개로, 지역의 개수는 13개로 줄인 결과입니다. 이 때의 수요 충족도는 90%입니다. 이전에 비해, 공릉천 근처에서 스테이션이 사라진 것을 확인할 수 있었습니다. • 스테이션 개수: 255 • 지역 개수: 13 • 수요 충족도: 90%
  • 53. 53 배치 결과와 수요 충족도 최종 결과 및 평가 1. 오른쪽 배치 결과는 전체 스테이션의 개수를 201개로, 지역의 개수는 5개로 줄인 결과입니다. 이 때의 수요 충족도는 70%입니다. 즉, 주요 5개의 지역이 약 70%의 수요를 차지하고 있었습니다. • 스테이션 개수: 201 • 지역 개수: 5 • 수요 충족도: 70%
  • 54. 54 배치 결과와 수요 충족도 최종 결과 및 평가 1. 지역을 하나씩 감소시킬수록 수요 충족도의 변화는 다음과 같습니다. x축은 제외한 개수, y축은 수요 충족도를 의미합니다. 지역을 10개를 제외할 때까지(남은 지역 6개 이상), 수요 충족도가 80%를 능가하는 것을 확인할 수 있었습니다. 한편, 마지막 하나의 지역의 수요 충족도가 약 50% 가량이었습니다. 일산에 근처의 가장 큰 지역(클러스터)이 이에 해당했습니다. 제외한 개수에 따른 수요 충족도의 변화
  • 55. 55 배치 결과와 수요 충족도 최종 결과 및 평가 1. 기존 스테이션과의 비교입니다. 전체 스테이션을 배치할 경우, 기존 스테이션의 위치와 비교해보았을 때, 각 지역에서 비교적 일정 간격을 가지고 스테이션이 촘촘히 배치되어 있는 것을 볼 수 있습니다. 특히, EDA 과정에서 발견했던 요소들이 반영되었습니다. 덕양구의 인구가 증가하는 주요 지역들, 공릉천 및 창릉천 주변 자전거길 등등에 스테이션이 새로 배치되었으며, 3호선이 지나가는 주요 지역들의 경우, 몰림 현상을 보완하기 위해 스테이션들이 추가 배치되었습니다. 기존 스테이션 새로운 스테이션
  • 56. 56 한계점 및 의의 최종 결과 및 평가 2. • 해당 과정이 비교적 복잡하기 때문에, 과대적합의 가능성이 존재합니다. 조금 더 Robust한 결과를 얻을 수 있는 단순한(Simple) 모델을 시도해 볼 필요성이 있습니다. • 사후 처리 과정에서 Cutline을 정하는 상황 등에서 주관이 많이 개입되었습니다. 실질적 수요가 존재하는 지역을 추리는 과정에서, 지역의 개수를 정하기 위해 Cutline을 결정할 때, 주관적인 판단으로 결정한 부 분들이 존재했습니다. 그런데, 이에 따라 스테이션 배치 결과가 달라질 수 있기 때문에 더욱 객관적인 지표가 필요할 것 같습니다. • 데이터의 특성으로 인해 데이터 학습의 본질적인 한계가 존재했습니다. 기존 스테이션이 설치되어 있는 지역은, 이미 도시화가 많이 되고 인구가 많은 곳이었기 때문에, 그렇지 않은 지역들에 대한 학습 이 제대로 될 수 없었습니다. 따라서, 전체 후보군에 대한 예측값을 얻고 나서, 실질적으로 수요가 높은 지역인지 필터링하는 작업 에 신경을 썼지만, 모델 자체가 학습이 더욱 잘 되지 못한 것에 아쉬움이 남았습니다. 한계점 및 아쉬운 점 스테이션을 배치함에 있어서, 고양시의 최근 도시계획 관련 변화 및 인구 변화, 자전거를 타는 목적 등 다방면의 요소를 고려했습니다. 특히, 기존 설치된 스테이션에 비해 스테이션들이 체계적으로 일정 거리를 두고 촘촘하게 배치되어 있어, 비정상 반납의 가능성은 낮추고, 대여와 반납이 몰리는 시각이 다른 현상을 보완하는 효과를 기대할 수 있을 것 같습니다. 분석의 의의
  • 57. • 백주현·김준우·차윤철, 고양시 공공자전거 정책방향 수립을 위한 연구, 2019년 10월 31일 • “본궤도 오르는 창릉 신도시… 2026년 입주하지만 교통망은 여전히 물음표“, 아시아경제, 2020년 3월 4일, https://www.asiae.co.kr/article/2020030412115942993 • “고양시가 점점 늙어가고 있다“, 고양일보, 2019년 1월 11일, http://www.goyang1.com/news/articleView.html?idxno=11350 • “고양시에 주택 6만7000호 공급”, 고양일보, 2020년 9월 2일, http://www.goyang1.com/news/articleView.html?idxno=15296 • 고양시청, <고양시 자전거 타기 좋은 코스 : 공릉천 자전거 여행>, 2019년 7월 25일, https://m.blog.naver.com/letsgoyang/221595129333 • 고양시청, <경기도 고양시의 대표 물길, 창릉천 자전거 산책 >, 2020년 6월 24일, https://m.blog.naver.com/PostView.nhn?blogId=letsgoyang&logNo=222008676494&referrerCode=0&searchKeyword=%EC%9E%90%EC%A0%84%E A%B1%B0 • 자전거도로:고양시청>생활정보>교통>대중교통안내>자전거 도로, http://www.goyang.go.kr/www/www03/www03_5/www03_5_4/www03_5_4_tab5.jsp • “창릉 신도시“, 나무 위키, https://namu.wiki/w/%EC%B0%BD%EB%A6%89%EC%8B%A0%EB%8F%84%EC%8B%9C • “고양삼송택지개발사업”, 나무 위키, https://namu.wiki/w/%EA%B3%A0%EC%96%91%EC%82%BC%EC%86%A1%ED%83%9D%EC%A7%80%EA%B0%9C%EB%B0%9C%EC%82%AC%EC %97%85 • “고양지축공공주택지구조성사업”, 나무 위키, https://namu.wiki/w/%EA%B3%A0%EC%96%91%EC%A7%80%EC%B6%95%EA%B3%B5%EA%B3%B5%EC%A3%BC%ED%83%9D%EC%A7%80%EA %B5%AC%EC%A1%B0%EC%84%B1%EC%82%AC%EC%97%85?from=%EA%B3%A0%EC%96%91%EC%A7%80%EC%B6%95%EB%8F%84%EC%8B %9C%EA%B0%9C%EB%B0%9C%EC%82%AC%EC%97%85 • “고양덕은도시개발사업“, 나무 위키, https://namu.wiki/w/%EA%B3%A0%EC%96%91%EB%8D%95%EC%9D%80%EB%8F%84%EC%8B%9C%EA%B0%9C%EB%B0%9C%EC%82%AC%EC %97%85 • “Working with Time Series data: splitting the dataset and putting the model into production”, https://stats.stackexchange.com/questions/453386/working-with-time-series-data-splitting-the-dataset-and-putting-the-model-into • Vivek Sharma, <Permutation Importance>, 2018년 9월 23일, https://medium.com/@vivek_skywalker/permutation-importance-a1df5010fa99