[Data Storytelling] 2019 뉴욕 맨하탄 에어비앤비 데이터 탐색


지금으로부터 1년 반 정도 전에, 미국에서 교환학생 생활을 보내고 있던 저는, 뉴욕 여행을 가기 위해 에어비앤비와 한인민박을 열심히 찾아보았었는데요. 캘리포니아, 플로리다 등 여러 지역을 여행다녀 보았지만, 그 어떤 지역보다 뉴욕 숙소비가 독보적이었던 기억이 납니다. 그 때는 한인민박을 결국 골랐지만, 나중에 또 언젠간 뉴욕 여행을 가는 것을 꿈★꾸면서 맨하탄 에어비앤비 정보를 미리 한번 정복해볼려고 합니다!!

마침 캐글에서 2019 뉴욕 에어비앤비 데이터를 발견했고, 저는 이 데이터에서 맨하탄 지역만 분석해보았습니다~! 궁금하지 않나요? 맨하탄 에어비앤비 가격 분포는 어느정도 되는지, 맨하탄에서 가장 잘나가는 집은 어떤 집일지, 맨하탄 내에서 인기 많은 지역은 또 어느 곳인지 등등..!!! 그 중에서도 저는 다음의 세가지 궁금증이 있었는데요. (1)맨하탄에서 위치별로 가격이 어떻게 다를까? (2)맨하탄에서 에어비앤비를 가장 많이 보유한 호스트는 누구일까? (3)맨하탄에서 가장 인기가 많은 에어비앤비는 어떤 곳일까? 입니다! 이 데이터가 변수가 많은 편은 아니었어서, 추가로 더 있었으면 하는 변수들도 있었지만, 그래도 저의 궁금증들을 얼추 해소할 수 있었습니다. 이제 시작하겠습니다!


1. 데이터

먼저 데이터는 캐글에서 구했습니다. 변수 중에는 에어비앤비 이름(name), 호스트 이름(host_name), 뉴욕시 내 지역(neighbourhood_group), 각 지역 내 동네(neighbourhood), 위도, 경도, 방 유형(room_type), 가격(price), 최소숙박 날짜(minimum_nights), 리뷰 개수(number_of_reviews), 1년 중 가능한 날짜(availiabiliy_365) 등이 있습니다!

분석을 시작하기 앞서, 뉴욕시에는 다섯가지 지역이 있지만, 저는 뉴욕시에서 맨하탄 지역만 볼 거기 때문에 맨하탄 지역만 필터링 하겠습니다. 그리고 1년중 가능한 날짜가 아예 0인 집들도 있어서, 그 집들도 일단 없애고 시작하겠습니다!


2. 주요 변수들 분포

먼저 주요 변수들의 분포는 한번 알아보고 시작해야겠죠? 아래는 가격 변수와 방 구조 변수입니다. 가격을 보면 가격이 대부분 몇백달러 정도 이하인데, 만 달러까지 하는 에어비앤비가 존재하네요! 그 집때문에 지금 분포가 너무 안예쁘게 생겼습니다. 한편, 방 구조를 보면, 방 구조는 딱 3가지로 나와있고, (1)전체 집, (2)혼자 쓰는 방, (3)같이 쓰는 방 이렇게 세가지밖에 없네요. 개인적으로 조금 더 그 집 규모에 대해서 설명해주는 변수가 있었으면 합니당. 이를테면 전체 집같은 경우는 Studio형태인지, 방이 몇개인지 등에 대한 정보, 같이 쓰는 방의 경우는 2인실인지 4인실인지 등 규모에 대한 정보도 제공되면 좋을 것 같아요. 아무튼간에 이 데이터에서는 전체 집을 빌리는 것이 62%로 대다수를 차지했고, 방을 공유하는 것은 2.5%밖에 되지 않습니다. 사실 에어비앤비에서 방을 같이 쓰는 걸 찾는 사람은 거의 못본 것 같아요! 그럴 바엔 보통 호스텔을 이용하는 것 같습니다.

이제 동네 변수를 알아봅시다. 에어비앤비를 가장 많이 보유한 동네일수록 차지하는 면적이 크게 했는데요. Harlem 지역이 가장 많고, 그 외에 Midtown, East Village 등 여행객에게 인기많은 동네들도 역시 에어비앤비가 많습니다.

그 다음은 리뷰 개수, 최소 숙박 날짜 에 대한 분포입니다. 일단 두 분포 모두 매우 치우쳐(skewed)있네요! 대부분의 값이 특정 값에 몰려있는데, 극심한 아웃라이어들이 존재하고 있는 것을 확인할 수 있습니다. 리뷰 개수는 최대 600개까지도 있고, 최소 숙박날짜는 1200일까지도 있네요. 리뷰 개수야 그렇다 치지만, 최소 숙박날짜가 무슨 1000일이 넘을까요? 에어비앤비는 거의 여행 목적으로 이용한다고 생각했는데, 비즈니스라던지 다른 목적으로 몇개월, 몇년 씩 머물러야 하는 경우에도 에어비앤비를 이용하는 것 같습니다.

이제 주요 변수들을 한번 스캔 완료했습니다! 그러면 이제 첫번째 궁금증을 해결해봅시다.


3. 맨하탄에서 동네별로 하루 숙박비가 어떻게 다를까?

여행객들에게는 숙소 정할 때 위치가 가장 중요한 요소 중 하나일 것입니다. 때문에 당연히 지역에 따라 그 가격이 차이가 많이 날거라고 생각을 했는데요. 어떤 지역이 가격이 비싼 편이고, 어떤 지역이 저렴한 편인지 알아봅시다. 그 전에, 아까 봤던 가격 분포를 조금 더 잘 보기 위해서, 케이스를 조금 나누려고 합니다. 일단 일반 여행객들이 지불할 용의가 있는 가격의 상한을 100달러(100달러도 비싸다고 생각하지만ㅜ_ㅜ)로 정하고, 100달러 이하를 price:low라고 하겠습니다. 그 다음, 100달러부터 700달러까지를 비싼 가격 price:high라고 하고, 700달러 이상을 어나더레벨, price:too high 라고 해보고 분포를 다시 보겠습니다!

이제 지역별로 이 가격 단계 분포가 어떻게 되는지 알아봅시다.

위 그래프를 보면, 할렘이 맨하탄에서 에어비앤비 숙소가 가장 많고, 가격이 낮은 숙소의 개수도 가장 많은 것을 눈으로 확인할 수 있습니다. 한편, 여행객들에게 인기가 많고 맨하탄의 중심 위치인 미드타운은, 역시나 황금 위치인만큼 가격이 낮은 숙소의 비율이 적고, 가격이 높은 숙소의 비율이 높은 것을 확인할 수 있습니다. price:too high 의 전체 개수가 많은 편이 아닌데, 그 중에서는 미드타운이 가장 많은 것을 볼 수 있습니다.


4. 맨하탄에서 가장 많은 집을 가지고 있는 호스트는 누굴까?

에어비앤비를 보다보면, 많은 호스트들이 집을 여러개 가지고 있는 것을 볼 수 있는데요. 사람도 많고, 관광객도 많고, 집값도, 물가도 비싼, 바로 그 뉴욕에서!! 에어비앤비를 여러개 소유하고 있다니 정말 부럽습니다…….. 아무튼간에, 그렇다면 맨하탄에서 가장 많은 에어비앤비를 보유하고 있는 호스트는 누구일까요? 그 전에, 단순히 에어비앤비 개수가 많은 것보다 그래도 리뷰가 10개 이상은 되는 것으로 필터링하고자 합니다. 다시 말해서, 리뷰가 10개 이상으로, 어느정도 사람들이 이용하고 있는 에어비앤비를 가장 많이 보유하고 있는 호스트를 찾아보겠습니다!

위 그래프를 보니 맨하탄에서 독보적으로 많은 에어비앤비 숙소를 가지고 있는 호스트는 Sonder, Corporate Housing입니다! Sonder는 검색해보니 세계 각지에 숙소가 있는 것을 보니 숙박업체인 것 같아요! 한편, 원의 크기는 해당 숙소의 리뷰 수를 반영합니다. 위 호스트 중에서 리뷰 수가 가장 많은 에어비앤비를 보유한 호스트는 Alex and Zeena 이네요. 리뷰가 좋은 내용인지 아닌지는 알 수 없지만, 에어비앤비의 경우 리뷰가 많다는 것은 아무래도 많은 사람들이 긍정적인 리뷰를 쓰고, 그만큼 많은 사람들이 믿고 묵었다는 것을 의미할 가능성이 높을 것 같습니다! 그렇다면 리뷰 개수에 대한 변수도 꽤 중요한 정보를 제공할 것 같아요. 평균 리뷰 수가 가장 많은 집은 대체 어떤 집인지 알아봅시다!


5. 리뷰가 가장 많은 에어비앤비는 어떤 집일까?

리뷰가 많은 에어비앤비는 어떤 곳일까요? 가격이 저렴한 곳일 수도 있을 것이고, 위치가 매우 좋은 곳일 수도 있을 것입니다. 저는 에어비앤비 고를 때 리뷰를 또 중요하게 보기 때문에, 맨하탄에서 리뷰 수가 가장 많은 에어비앤비는 어떤 곳인지 정말로 궁금합니다! 먼저 가격이 많이 중요한지 알아보기 위해, 일단 리뷰 수가 많은 순서대로 상위 200개만을 뽑아서, 리뷰 수와 가격, 그리고 방구조를 비교해보도록 하겠습니다!

리뷰가 600개가 넘는, 즉 리뷰수가 가장 많은 에어비앤비는 가격이 약 50달러도 안되는 것으로 보아 매우 저렴한 것 같긴 합니다. 맨하탄의 에어비앤비 가격대가 전반적으로 높은 상황에서, 리뷰 상위 200개 에어비앤비의 가격대가 100달러쯤에 몰려 있고, 200달러보다는 대부분 아래에 존재하는 것을 볼 때, 확실히 가격이 리뷰 수에 영향을 미치는 것은 맞는 것 같습니다. 그런데 600달러에 육박하는데도 리뷰 수가 매우 많은 집도 하나 있네요! 이 집은 가격대가 있는 대신, 다른 엄청난 장점이 있나 봅니다. 한편, 방 구조는 Private room이 Entire home보다 조금 더 비율이 많은 것을 확인할 수 있습니다! 원래 앞에서 전체 분포로는 Entire home이 60%였는데, 리뷰가 많은 상위 200개 에어비앤비는 Private room이 과반수를 차지합니다. 공급은 Entire home이 많은 것에 비해, 수요는 Private room이 더 많다고 볼 수 있지 않을까 싶습니다. 이제 위치를 확인해보겠습니다!


위치는 맨하탄 지역 골고루에 퍼져있는 것을 보니, 맨하탄 전역의 에어비앤비를 많이들 이용하는 것 같습니다..! 물론 Lower Manhattan 쪽 East Village 동네에 좌표 무리가 있는 것 같지만, 다른 동네들도 적지 않은 것 같습니다. 확실히 뉴욕이 지하철이 잘 되어 있고, 도로명이 길 찾기 편하게 되어 있어서 그런지, 사람들이 많이 이용하는 에어비앤비가 막 특정 동네에 몰려 있는 정도는 아닌 것 같아요. 저는 위치가 굉장히 중요할 거라 생각했는데, 위치는 충분히 교통수단으로 커버가 되서 그런지, 가격과 같은 다른 조건들이 상대적으로 더 중요해진 게 아닌가 싶네요! 물론 위치가 가격에 미치는 영향이 크지만, 그 가격을 감수하고 다른 조건을 택하는 사람들과 그렇지 않은 사람들로 확연하게 나누어지는 것 같습니다.

아쉽게도 이 데이터는 각 에어비앤비가 어떤 집인지에 대한 정보를 제공하는 변수가 많지는 않은 것 같아요ㅜㅜ 리뷰 수가 많은 집들이 어떤 집인지 좀더 알아보고 싶은데.. 그래서 고민하다가 각 에어비앤비 이름에서 정보를 좀 얻어볼 수 있지 않을까 하는 생각이 들었습니다!! 에어비앤비를 이용해보신 분들을 아시겠지만, 어떤 에어비앤비를 검색할 때 그 에어비앤비 이름은 그 집의 장점들을 마구 드러내고 있습니다! 위치가 좋다면 ‘Good Location’, 집 주변이 조용하다면 ‘Quiet Place’ 등등 이름에서 정보를 많이 제공하고 있기 때문에, 간단하게 워드 클라우드로 한번 주요 단어들을 찾아보겠습니다.

리뷰가 가장 많은 상위 200개 에어비앤비 숙소 이름들을 워드 클라우드로 나타내 보았습니다! 가장 큰 것은 Manhattan, Room, Private이 있네요. 이 단어들은 어느정도 당연한 단어들입니다..! 그런데 그 다음 눈에 띄는 단어중에 East Village가 있네요? 아까 지도 상으로도 East Village에 리뷰가 많은 집들이 몰려있는 것 같긴 했지만 그 때는 다른 곳이랑 많이는 차이가 안난다고 생각했었거든요? 근데 워드클라우드에 의하면, 리뷰가 많은 에어비앤비 중 굉장히 많은 수가 이름에 East Village가 들어가고 있고, 이것은 위치적으로 비교적 East Village 동네를 선호하고 있다는 것을 의미할 수 있을 것 같습니다! 그 외에 Central Park, Times Square 등 역시 주변 관광명소들을 강조하는 에어비앤비도 상당 수 있구요. 그 다음으로 Spacious, Cozy, Large, Clean, Quiet 등 집의 특징을 나타내는 단어들이 많은 것을 확인할 수 있습니다. 이 단어들 중에서는 Cozy라는 단어가 가장 큰데, 제가 생각했을 때 Cozy 는 집이 좁다는 것을 좀 더 장점을 부각해서 언급한 것 같아요ㅋㅋㅋ 보통 집이 넓은데 Cozy하다고 말하진 않았던 것 같아요. 집이 좁으면 아무래도 가격이 조금 더 저렴한 경향이 있을 것이고 그래서 인기가 많은 게 아닐까 싶습니다. 그리고 아무래도 맨하탄 면적 상 넓은 집보다 좁은 집이 원래부터 공급이 많기 때문인 것도 같습니다.


여기까지 맨하탄 에어비앤비에 대해 이모저모 알아보았습니다! 이번에는 에어비앤비의 가격을 맞춘다거나 학습을 시키기위한 데이터 탐색을 해본 것은 아니고, 이 데이터에서 제공하는 여러가지 정보를 스토리텔링한다는 느낌으로 분석해보았습니다:) 긴 글 읽으시느라 수고하셨습니다ㅎㅎ