SocialMedia

Hi,大家好,我张喵喵又回来啦,最近很高产哈哈哈,这次带来的是北京市9万条带有地理标签的社交媒体(微博)数据。

地理空间大数据为人们进一步定量理解社会经济环境提供了一种新的观测手段。刘瑜教授提出的“社会感知(social sensing)”概念及研究框架,指出社会感知是指借助于各类海量时空数据研究人类时空间行为特征,进而揭示社会经济现象的时空分布、联系及过程的理论和方法。“感知”一词,意味着数据的两种本质。首先,它们可被视为遥感的的模拟与补充,因为大数据可以有效捕捉社会经济特徵,而传统的遥感数据则不具此一优势。再者,在社会感知数据中,每个个体,皆扮演着传感器的角色。社会感知数据,包含了有关空间互动与地方语义学的丰富信息,并超出传统遥感数据的范畴。在即将来临的大数据时代中,地理信息科学家,应该探讨使用社会感知数据的理论,例如数据再现性与质量,并发展应对社会感知数据的崭新工具。

那么,如何获取社会感知数据来监测城市变化呢?现在各个互联网巨头的在垂直领域的垄断式地位,优质内容越来越封闭,中文社区被割裂为数块,例如,在十年前你几乎可以在百度上搜索到所有信息,而现在设置了很高的爬取门槛,基本上都需要你注册登陆才能查阅。你无法在抖音平台搜索到小红书信息,微信也对外链保持了相当的警惕,百度也逐渐沦为了大杂烩,几乎检索不到任何有用的信息。目前以微博为例的社交媒体数据是最容易获取相对开放的中文LBSM数据之一,它是由新浪公司于2009年8月推出,截至2012年12月底,新浪微博注册用户已超5亿,同比大幅增长74%,日活跃用户数达到4620万,用户每日发博量超过1亿条。

微博大家都熟悉,基本上是对标国外的推特,基本的数据获取逻辑有四个,1.关注某热门事件的热门大V,抓取评论以及转发信息。2.基于微博搜索,检索到感兴趣的内容。3.基于微博同城,全量抓取该城市所有的签到信息。4. 微博全量抓取,首先选择一个(或多个)种子用户,作为最初抓取的对象。对于每个抓取对象,依次抓取个人信息,所有的微博,还有粉丝列表和关注列表。将对象的粉丝列表和关注列表中的用户,再加入到抓取对象中去。以此循环。

请注意,微博每天产生海量的文本,例如,我抓取某个城市半个月的微博就包含了1.4个TB数据(包括图片),新浪为了减轻服务器压力,会给微博打上冷标签和热标签,最新的微博权重很大,如果你关注某个事件,如:台海军演,在事件正在发生时会有大量的数据,而几天过后这些数据就会变冷,我们就很难从途径1,2,3,获取到完整的微博(如,50页后的追评就不显示了),只能检索到相关一部分微博,所以这也考验了科研民工对社会热点事件的敏感度。

微博同城接口

本次分享的数据是2017年北京国庆节的签到数据,约9万条,包含图片链接,可供大家做情感分析,旅游场景感知,城市知识发现等研究。



我们感兴趣的是这种包含地理坐标的数据,随后通过百度/高德地图的地理编码/解码API获取经纬度信息(大家感兴趣可以再做一个教程)。

数据字段很丰富,时间、设备、签到次数(热度)、经纬度、图片链接都存在。

话不多说,直接解析上arcgis,哇,乌漆嘛黑的一片。



搞个烂俗的密度分析看看:

故宫作为毫无疑问的帝都名片,显示出最强的热力值,全国人民都爱来打卡,我爱北京天安门,天安门上太阳升~对北京不熟悉,右上角那一块不知道是啥,对比后发现是三里屯,据说以时尚餐饮和热闹的夜生活场所而闻名,难怪我没去过orz。北京上面那一块据说是只有外地人才去的南锣鼓巷,嗯,没啥玩的,不要来踩雷。还有几块大大小小的热点,我目测好像有清北这种全国人民有口皆碑的著名学府,奥林匹克公园等等,想念疫情前的快乐时光。

搞个渔网看看花哨不花哨~

貌似还是很丑…如果能结合时空分析就好了。例如24小时搞24张热力图,搞个北京24小时~通过设置空间和时间分辨率,我们可以获得一系列图像,这些图像类似于不同波段的遥感图像。从这个意义上说,不同的社会感知数据可以看作是不同遥感数据的类比。如果我们将社会感知数据与遥感数据进行比较,这两个数据源具有一些共同的特征,例如包含多传感器、多分辨率、多时相信息,但捕获的是地理环境的不同方面,一个是社会经济、一个是物理环境。

我给大家想了几个不那么难但是比较有意思的点供大家参考,其中一部分有人做过了,但还有一些小的可以挖掘的点,大家感兴趣如果想合作论文欢迎私戳我!喵喵can help.
  1. 结合分享的POI,共享单车(之前分享了)以及微软出租车数据(大家应该都有吧?没有我下次分享)进行分析。
    
  2. 签到点的时空位置分析,网络活动,24小时冷热点变化
    
  3. 社交媒体文本分析,挖掘主题事件和变化趋势
    
  4. 社交媒体的转发关联层级,挖掘一些有意思的社区~
    
  5. 旅游点评的情感分析
    
  6. 本地人与外地人喜欢去的区域差异
    
  7. 多模态的社交媒体图文分析,places-CNN等
    

后台回复 北京微博 获取数据链接。

我也发表了一些社交媒体相关的中英文章也欢迎大家引用哈哈哈。

Ref:

刘瑜,社会感知视角下的若干人文地理学基本问题再思考

Yu Liu, Social Sensing: A New Approach to Understanding Our Socioeconomic Environments