Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

劉勇 <引用数据的可视化及网络分析>

689 Aufrufe

Veröffentlicht am

劉勇 <引用数据的可视化及网络分析>

Veröffentlicht in: Bildung
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

劉勇 &lt;引用数据的可视化及网络分析>

  1. 1. 16国32媒引用数据可视化及网络分析 在这个分享中,会用一个实例介绍如何用 Gephi 做数据的可视化及网络分析。 先简单介绍一下 Gephi 。 1.Gephi 基本介绍 Gephi 是一款对网络做探索性研究的工具,那么这里所说的网络,是指把某一类事物想象为一个一个的节点,然后把事物之间的关系想象为节点与节 点之间的边,并画成这样的图形。这也就是网络的一个基本概念,把它理解为是一个人际关系网也完全没有问题,这样的网络也经常被称作图。 有了这样一个规范的由节点与边组成的图以后,人们就可以展开多种方式的研究,包括下面这些特性: 1. 节点的重要性 2. 节点之间路径的关系 3. 节点之间的团伙特性 4. 邻居节点的聚类特性 5. 图的密度 这些也都是 Gephi 对图统计计算的主要方面,关于 Gephi 就先简单介绍这么多,接下来还会实际的使用。 虽然也可以通过画一些图来产生数据,但大多数情况下,都是根据数据来产生图,也可以把 Gephi 看做是数据与网络分析之间的一个桥梁,那么下 面,我就会用前段时间刚得到的数据做一个实际的演示与分析。 2.数据来源及介绍 这个数据是三位作者,发表在《新闻与传播研究》2015年第九期的论文,题目是 “多种声音一个世界:中国与国际媒体互引的社会网络分析” 。 数据先从以下十六个国家中,每个国家选两个最有国际影响力的媒体,然后查找它们互相之间的引用关系,也就是哪个媒体引用或提到了哪个其它媒 体。 1. 中国选取《人民日报》、《中国日报》 2. 美国《纽约时报》和《华盛顿邮报》 3. 英国《卫报》和《泰晤士报》 4. 法国《世界报》和《解放报》 5. 德国《世界报》和《南德意志报》 6. 日本《读卖新闻》和《每日新闻》 7. 新加坡《海峡时报》和《联合早报》 8. 俄罗斯《俄罗斯报》和《消息报》 9. 韩国《朝鲜日报》和《东亚日报》 10. 印度《印度时报》和《印度斯坦时报》 11. 菲律宾《菲律宾每日询问报》和《菲律宾星报》 12. 巴西《圣保罗报》和《环球报》 13. 南非《水星报》和《星报》 14. 智利《信使报》和《时代评论者报》 15. 马来西亚《新海峡时报》和《星洲日报》 16. 印尼《雅加达邮报》和《雅加达环球报》 数据采集的时间从 2010年1月1日 到 2014年12月31日,共五年时间,这 32 种媒体全部都是日报,可以想象一下,也算是不小的数量,如果人民日报 的话,一年堆起来会有多高,那么五年呢,也就是差不多这么高的 32 堆报纸中,收集到了这些数据。 数据以一个矩阵的形式记录下来,也就是行与列的标题都是这 32 个媒体的名字,从列到行表示引用关系。比如列中的第一行是人民日报,那么这一行 就表示人民日报引用上面这些媒体的数量。 这里是个空格,应该表示人民日报没有引用人民日报,或者人民日报自己引用自己不算。所以就为空。
  2. 2. 那么看第二列,就表示《人民日报》五年间引用《中国日报》的数量是 171 次,引用《海峡日报》是 41 次;第二行是《中国日报》引用其它报纸的 数量,那么《中国日报》五年时间引用《人民日报》是 2800 次,这个数字显示出来了《人民日报》与《中国日报》在互相引用上有不少的差距。 那么在整体上,就形成这样一个 32X32 的多矩阵表格,会不会感觉很浓缩。 接下来,看这些数据如何被处理。 3.数据的处理
  3. 3. 3.1 数据预处理 上图中的表格是个 Excel 文件,我们知道 Excel 文件可以另存为 CSV 格式,CSV 就是这样一种文本格式,见下图: 对于 Gephi 来说,Gephi 无法直接读入 Excel 格式的数据,但可以读入 CSV 格式的数据。那么,我们把一个 Excel 文件存储为 CSV 格式以后,只需 要把 CSV 的分隔符号有 “,” 替换为 “;” 。 3.2 数据进入 Gephi 把数据处理为能够被 Gehpi 读取后,就可以在 Gephi 中直接打开,打开后这样的样子:
  4. 4. 可以放大看看,这个图里面现在有32个节点表示32个媒体,有很多连线是这32个媒体之间的引用关系,连线有粗细表示不同的引用数量。 3.3 统计计算 前面说过,Gephi 对网络分为五种处理方式,其实大多数处理方式还可以细分: 1. 节点的重要性 基本度 HITS 算法 PageRank 算法 特征向量中心度 2. 节点之间路径的关系 介数中心都 紧密中心都 离心率 3. 节点之间的团伙特性 模块化 连通分量 4. 邻居节点的聚类特性 聚类系数 5. 图的密度 图密度 在目前这个图中,我们只计算两个值,一个是节点重要性的 PageRank ,一个团伙特性的模块化。 PageRank计算 计算方法很简单,只要点击统计面板中的这两个位置就可以。 PageRank ,因为引用关系有量的数据,可以把边的权重选上。 模块化 然后点模块化,这个是计算节点的相似性,计算后,会给相似的节点添加相同的编号。 经过上面的操作以后, Gephi 就对原先的边和节点做了计算,并把计算的数据写到里面的一个表中。 我们可以在数据资料里面看看。 然后,我们就把这些计算后的数据用可视化的方式,写到这些节点上。 3.4 把统计值作用到图中 节点大小 先处理 PageRank 的值,PageRank 计算的是谁更重要,要在排序选 “PageRank” 的值,那么这个重要性可以在图中用节点的大小表示,,要通过排 序做到,那么在排序需要设置一下,我们定义最重要的节点最大是 180 ,最不重要的节点为 30 。 然后点应用,就可以看到节点有大小的差异了。 节点颜色 这个在 “分割” 里面,在分割选 模块化。 然后,在这里会出现一组颜色,如果颜色觉得不够合适,可以更换另外一组颜色。 然后点应用。 3.5 布局 我们可以先做一个布局的操作,布局有很多方式,我们就选用最常用的力引导布局 布局样式:ForceAtlas2 行为替代:全选 缩放:400 重力:30
  5. 5. 性能: 容差:0.01 近视斥力:无 近视:1.2 ForceAtlas2 是一种力引导布局算法,它是模仿物理世界中的引力和斥力,根据节点之间的牵扯拉力,不断自动调整节点的位置,直到形成一种平衡, 也就是节点的位置基本固定下来,或保存较小幅度的摇摆。 当布局算法基本稳定下来以后,就可以去预览查看。 去预览看,一方面是有更多的设置。另外一方面,因为 Gephi 对中文支持还不太好,也就是,如果在图界面打开中文字体显示后,运行速度会很慢, 有时候甚至就停止下了,而在预览不存在这个问题。 3.6 预览 在预览也需要做一些基本的设置。 字体:微软雅黑54普通 比例大小:不选 边的厚度:0.009 在预览调整合适以后,可以把这个图保存下来,可以存储为三种格式,现在存储为png,然后就可以在 Gephi 外面看这个图了。 我之前也用这个数据做过多个图,因为每次导入数据后,应该是它原始的位置不同,所以,每次做下图外观上好像都有差异。 但根据相同的规则制图以后,它们连接结构的形态应该是稳定的。 4.读图 前面做图的目的都是为了使数据能够合理清晰的显示出来,在制图完成以后,就需要进行另外一项也很有意思的事情,就是从图中读出一些什么东西 来。
  6. 6. 4.1 基本情况说明 在开始之前,在说明一下相关的几个情况: 1. 为了阅读方便,比如有的节点离的比较近,或者有的节点文字标签比较长,这样,节点上的文字就可能有重合不好辨认,为了使图容易辨认,把 它们的位置稍微调整过; 2. 为了方便辨认国家,把相同国家的颜色设置为相同的了。 3. 另外,也许挺关键的要给说明是,两个节点之间,边的关系有两种,A 指向 B 或 B 指向 A ,用直线加箭头表示的话,如果两个节点之间的两条边 权重不同,那么也没有办法看出来,所以在 Gephi中,对两个节点之间的边,做了一个变形的处理:
  7. 7. 在这个图中,边是用两个弧线表示的,可以理解弧线是按顺时针方向旋转,并且边的方向是顺时针方向指向,比如从这图的弧线可以看出,中国日报 五年时间引用人民日报 2800 次,而人民日报五年引用中国日报 171 次。 知道以上规则后我们继续看图: 4.1 基本发现 首先中间 4 个有美国和英国构成的圆形关系节点,很大,很醒目。 其中纽约时报最大,其它三个报纸都有较粗的线连入纽约时报; 这四个节点互相之间也有较高的连接度,除了三条边指向《纽约时报》外,互相之间也有连接,但泰晤士报与华盛顿邮报互相连接较少,其中泰 晤士报有较少的连向华盛顿邮报,而华盛顿邮报几乎没有连向泰晤士报的。也就是说,在四个节点之间,两个与两个的关系,应该有六种情况, 但在这个图中,基本上有五种是成立的,而有一种不成立。 另外就是整体上,美国的节点要比英国的大,看这个图的话,美国小的节点(华盛顿邮报),与英国大的节点卫报大小差不多。 4.2 中国的节点 从核心往出看一点,右边,就是中国的两个节点,人民日报和中国日报。
  8. 8. 这两个节点的形态是这样的: 其中中国日报是活跃分子,它有两股稍微粗点的线条指向纽约时报和人民日报,但这两个节点都没有大量的连线指向它; 人民日报基本上算是很保守,指向外面的连线都很细小; 还有就是日本的每日新闻指向人民日报较多; 人民日报比中国日报离世界以核心更远; 最后,设想一下,如果这里面有一份参考消息会是什么情景,它的特征是大量指向其它媒体,而应该几乎没有任何媒体会引用它。 4.3 各国媒体位置都比较接近 现在从总体上看看,我们前面说过,同一个国家的两个节点颜色是相同的,这时候,我们发现也基本上是,同一个国家的两个节点都是距离较近的, 中间是美国和英国,这边是中国的两个,上面是日本的两个,再往外是韩国的两个。 上面是巴西的两个,左边是南非两个,印度、马来西亚、新加坡、印尼; 菲律宾、智利、俄罗斯、德国、法国 。 而它们之间的位置都是程序排放的,而程序并不知道谁与谁是同一个国家。 那么,为什么同一个国家的媒体会靠在一起呢? 大家刚才也看到了,我们最初得到的数据并没有包含国家的信息,也就是我们并没有告诉Gephi 说,那个媒体是那个国家,那么,为什么在经过一个 程序的自动布局以后,同一国家媒体的位置会非常接近呢? 这个情况,仍然与它们的引用方式有关系: 一种情况是,同一个国家的媒体互相之间的引用比较多; 另一情况是,同一个国家引用外部媒体的方式比较相似 这可能表明了,同一个国家媒体的价值观或行为有相似性; 也有可能不同国家,因为在政治或经济上的疏远关系,决定了它们媒体引用的关系。 4.4 轻松看
  9. 9. 可以看见最孤独的国家可能是智利,它被远远的摔在一边; 在上面,俄罗斯最偏远; 但很意外的是,德国居然算是陪在俄罗斯的旁边; 法国就挺好,能与更多的国家打成一片; 巴西居然也里中心不远; 下面是菲律宾和印尼,印尼比较独特一点的是,它的两个媒体,间距可能是所有国家的媒体中最大的; 另外,韩国比日本要远离中心 5.5 发现结构 如果总结总体上的情况,也许可以把这个图分为三个层次: 核心层,由美、英两国构成,有较强的连通度; 中间层,是一个密度较高的地带,包括 8 个国家; 外围层,包括一些稀疏而遥远遥远的节点,包括 6 个国家。 结束 以上就是通过网络的方式,研究数据所得出的一些发现。这种研究方式尽管还有不尽如人意的地方,比如: 1. 一个媒体引用其它媒体是否就能说明什么问题? 2. 如果收集数据的媒体没有代表性的话,也就不能代表不同国家之间的关系。 但幸好,原论文作者表示,她们还会继续采集更多媒体的数据做进一步的研究,所以,对于这个示例中的网络分析来说,也许是值得期待的。

×