Anzeige

第四讲3.ppt

20. Mar 2023
Anzeige

Más contenido relacionado

Último(20)

Anzeige

第四讲3.ppt

  1. 新闻与传播研究方法 四川大学文学与新闻学院 张艳 E-mail : 441387985@qq.com
  2. 研究者的困惑???
  3. “我有时候我觉得我的生活毫无意义,我只不过是把东西搬 来搬去。”
  4. “我决定和他人建立更为深层的关系,以治疗我内心的空虚。”
  5. “…哇啦哇啦哇啦。” “或许我这方法不对路?”
  6. 社会科学的逻辑与方法 • 研究的目的是什么? • “认识”世界意味着什么? • 真实世界是客观存在的世界还是主观建构 的世界? • 实证研究(经验主义) • 解释研究(阐释)
  7. 经验主义的假设 • 整个世界是有秩序的 • 存在个人规律和社会规律 • 研究中的行为规律是可以观察和测量的 • 证据不取决于个人信仰 • 任何行为都有可以理解的原因 • 行为可以汇总统计 • 汇总统计有利于社会预测 • 横剖样本可以推断总体
  8. 认识事物进行判断的几种方法 •固守 •权威 •直觉 •科学(逻辑推理:归纳、演绎、概念、定义、 陈述) •https://www.bilibili.com/video/av67492737?fr omvsogou=1&bsource=sogou 前科学的的一些组成 •直觉 轶事 预感 •非随机样本
  9. 实证研究的假设验证
  10. 第三章 用样本做研究 • “You don’t have to eat the whole ox to know that the meat is tough(要知道牛肉 很韧,毋需吃掉整头牛).” -- Samuel Johnson
  11. 抽样的逻辑 • 抽样的基本概念 • 抽样的历史 • 概率抽样和非概率抽样 • 抽样的误差 • 样本的大小
  12. 一 抽样的概念 • 广义来说,一切从统计调查总体中抽取样 本(sample)进行调查、获取数据、然后 对总体数量特征作出推断的行为就是调查 抽样行为(survey sampling)。 • 所谓好的抽样设计,就是指能选取最大程 度上代表总体的样本,同时又能最有效地 利用一定数量样本来研究大量的总体方法。
  13. 概率抽样前的准备 • 总体 • 抽样框:又称"抽样框架"、"抽样结构",是 指对可以选择作为样本的总体单位列出名 册或排序编号,以确定总体的抽样范围和 结构。设计出了抽样框后,便可采用抽签 的方式或按照随机数表来抽选必要的单位 数。若没有抽样框,则不能计算样本单位 的概率,从而也就无法进行概率选样。
  14. 样 本 sample A1 总体population A B1 抽 样 B2 B13 B5 B4 B3 B8 B7 B6 B14 B9 B10 B19 B18 B17 B21 B15 B11 抽样单位Sampling Units B12 B16 B20 你的抽样总体是谁? 抽样框包含哪些名单?
  15. 两类抽样原则 • 概率抽样: 按照概率理论进行的抽样。能通过概率理 论的计算推算出抽样误差,从而更为准确 地在样本统计值推算出总体参数值。 • 非概率抽样: 不时按照概率原则来进行的抽样。 结果不能按照概率原理推算总体。
  16. 抽样的历史 • 政治选举中的预测 西方媒体的大选中的重要使命 1936年:奥夫.蓝登V富兰克林.罗斯福 《文摘》V乔治.盖洛普 ——定额抽样 1948年的失败:汤玛斯.戴维V杜鲁门 ——概率抽样
  17. 比较1 《文摘》的抽样:  邮寄问卷;  200万的大样本量;  抽样框:(所有抽样单位的详细名单等资料) (1)根据该杂志的读者名单。(2)根据驾驶员 的执照名录。 (3)根据电话公司的登记簿。 乔治.盖洛普的抽样:  由访问员直接面访被调查者,提高回收率  5万的样本量  根据对象的年龄、性别、教育程度、职业等标 准,总体各单位按某些主要标识划分类型后抽取 比例样本,同构缩小
  18. 比较2 定额抽样: 5万的样本量 每一个调查员被指定在特定的种类中去访问固 定数目的配额(如固定的住宅区、性別、年龄、 种族和经济地位)。 在规定的定额内,访问人员可以自由选择他喜 欢的任何人。 概率抽样: 一般采用1500人的样本 随机抽样技术,使相关人群的每个成员都有平 等的机会被选入样本。
  19. 非概率抽样的类型 “路人”样本:媒体出于新闻报道目的使用。 • 反对者:所问问题不统一;误差范围大;样本有 特殊性,不能代表总体 。 • 支持者:适于新闻目的;提高阅读率,不应以使 人产生错误印象的方式报道。用于初探性研究。 • 现有的样本(方便样本):产生不可知的误差, 研究前要考虑到:以偶然性为基础的错误(方便 样本不是随机的) 反对者:概括的任何结果不具有代表性,因而没 有价值。 支持者:现象,特征,存在于一切样本中,对预 测性,初探性的研究是有效的;用于比较研究。
  20. • 电话拨入调查:有助于娱乐,无助于科学。对样 本不确定。 • 志愿者样本:迎合某种意图的样本。误导研究者, 提供看似可证明假想的数据。在产品和服务的比 较测试中使用。 • 有目的的抽样:对特殊的特征和少量不代表总体 的个体的抽样(沉默寡言者) • 定额抽样(配额样本):按预先决定的,已知的 百分比进行抽样 • 焦点团体:少数人集中讨论给定主题。(10- 12人),不代表总体,外在效度差。 可以揭示出正式调查可能错失的启发性观点。目 的不在代表总体,而在于反映意见总体。焦点成 员所带来的大量意见,感受以及信念构成意见总 体。
  21. 概率抽样 • 总体和样本(Population&Sample) 整体:研究中全部个体在理论上的假想的集 合体。 总体:在理论上明确定义的个体的集合体。 普查与抽样 抽样(样本):能够代表全部总体的子集 合体。
  22. 样本选择的过程 总体A 样本A1
  23. 概率抽样的逻辑 • 同质性与异质性 • 有意识或无意识的抽样偏差 • 代表性和选择的概率: 代表性—同等机会原则—概率抽样
  24. 概率抽样与非概率抽样的比较 概率抽样 非概率抽样 研究目的 概括归纳出总体的 一般性特点 调查各种关系及收 集针对问卷或测量 设备设计所需的特 殊数据 费用的相 对价值 用最少的设备产生 最大的价值 为信息的类型和质 量所付出的代价不 需如此高 时间压力 耗时 临时需要 可接受的 误差量 由抽样过程决定相 对代表性 误差不是主要(探 索性或首次试验性 研究)
  25. 概率样本的种类 简单随机抽样:起点随机,方向随机 优点: 1.不需要总体的详细知识 2. 很易得到一个有代表性的小组 3.分类性错误的可能性较少 缺点: 1.总体的列表必须具备 2.过程比别的方法复杂(计算机帮助) 3.一个样本不代表所有情况(总体数很大时)
  26. • 系统(随机)抽样:从总体中按一定间隔选择第n 个主体。起点随机,抽样间据确定。 优点: 1.选样更容易 2.选择比随机抽样更精确 3.过程花费一般不昂贵 缺点: 1.必须总体的全部的列表 2.过程产生周期性(名单排列存在周期性) 3.当抽样间距不是整数时
  27. • 分层抽样:得到基础样本有准确的代表性。(年 龄,性别,地区,收入水平或 特殊特性如:复 杂的个体分类:读报,有天线家庭有4项分层) 按比例分层抽样: 按每层在总体中的比例分配 不按比例抽样:(重要)部分比例过量抽取 • 优点: 1.保证样本各种的代表性 2.可以和其他的总体相比较研究 3.被选中者成为有家族性的组合 4.抽样误差减小 • 缺点:需要总体中的详细资料 1.过程耗时耗财 2.决定层的各种特性是不相关的
  28. • 多段类集抽样:大型研究 • 优点: 1.总体中只有部分会被抽到(没有总体名单 状况) 2.如果类集被很好的界定,费用会降低 • 3.类集的变量被估算并和总体相比较 • 缺点: 1. 抽样误差较大 2. 各个类集可能不代表总体 3. 每一个主体或部分必定属于一种特殊类集
  29. • 多段类集抽样 1 2 3 4 5 6 7 8 9 9 236 238 240 242
  30. • 随机选择住户中的受访个体: 住 户 中 的 人 数 1 2 3 4 5 6 7 访问者 1 2 1 3 5 5 7 1 3 4 3 2 6 2 2 1 4 1 1 2 6 4 4 1 3 3 2 5 • 概率抽样避免研究者在抽样过程的有意与无意偏 差 • 概率抽样可以对抽样误差做出估计
  31. 抽样误差 研究误差:抽样误差,测量误差,随机误差 抽样误差:测量的样本不能完全代表总体时 产生的偏差,又称样本误差。 如:在18-24岁的观看者对某电视节目的评价 (打分10分)
  32. 抽样过程中的基本概念 • 调查总体 • 抽样单位 • 抽样框 • 观察单位 • 变量 • 参数值:总体中某一变量的综合描述。 • 统计值:关于调查样本中某一变量的综合描述 • 点估计:用样本统计值去估计总体参数值 • 区间估计:用样本统计量构造的一个区间去估 计总体参数值的范围 • 抽样误差(样本误差):概率抽样时样本统计 值与总体参数值之间的误差:
  33. 计算抽样误差 • 标准误(差)(standard error SE): 反映样本平均数对总体平均数的变异程度, 从而反映抽样误差的大小。 • 标准差(standard deviation SD): 标准差是个体间变异的指标,反映整个样 本对样本平均数的离散程度。是数据精密 度的衡量指标 • 所有样本统计量(样本平均值或比例)的 标准差就是抽样标准误差(理解)
  34. 计算(样本误差、样本量)的原理 • 将无穷多样本的均值作成分布图,得到抽 样分布图。取自一个总体的无数个样本的 统计量(如样本均值,样本比例等)的分 布为抽样分布。 • 正态分布(曲线) https://tv.sohu.com/v/dXMvNjMzNDMzMjIv NjM4NTUxNTMuc2h0bWw=.html • 中心极限定理:大量的个体的随机分布 (抽样分布)有一种正态的分布方式(高 斯分布)
  35. 正态分布曲线 • 这是一种对称的,单峰的,铃状的概率分 布曲线,又叫正态曲线 • 给定分布的均值和方差(标准差),就可 以完全确定对应的曲线。 • 均值决定分布的中心,其位置是曲线的对 称中心 • 标准差决定曲线的伸展程度和形状。 • 正态曲线下的面积大小,就等于随机变量 对应的值的概率Pr。
  36. 正态曲线的不同分区 34.13% 34.13% 13.59% 13.59% 2.27% 2.27% 观测值 平均值 一个标准差SD 68% 两个标准差 (1.96)2 SD 95% 三个标准差 (2.96) 3SD 99.7%    x  X
  37. 正态分布的规则 • 68%的观测值落在距均值一个标准差的范 围内 • 95%的观测值落在距均值两个(1.96)标准 差的范围内 • 99.7%的观测值落在距均值三个(2.96)标准 差的范围内
  38. 中心极限定理 (Central Limit Theorem) • 一个适当抽取的样本均值与实际总体均值 的差距不会超出一定的范围。如果重复抽 样,样本均值大多接近总体均值,样本均 值与总体均值的差距由标准差来衡量。 • 大量的个体的随机分布(抽样分布)有一 种正态的分布方式。 • 正态分布:是一种最通常的连续型随机变 量的概率分布。其分布特征如图。
  39. 中心极限定理 34.13% 34.13% 13.59% 13.59% 2.27% 2.27% 总体参数值 X 样本平均值 一个标准差SE 68% 两个标准差 (1.96)2 SE 95% 三个标准差 (2.96) 3SE 99.7%
  40. • 标准误差的计算: 1 样本百分比误差(P=零一选择的百分比): 标准误(差) (1)百分比远离最大不确定点(50%),如果 样本量不变,则标准误差减小 (2)样本量增加,标准误差减小。 (3)样本量增长4倍,标准误差减小一半。太 大的样本是不明智的。 n P P P SE ) 100 ( ) (  
  41. 2 样本均值误差: 以样本均值的非百分比 做研究 均值标准误(差)SE= 样本标准差 1 ) (     n f X X SD SD N 1 SD N  2 ( ) ( ) X X SD N   
  42. • 误差范围的重要性 例1:150 人样本中,对广告样本A和B的选 择比例是52:48 ,这样的统计数据能说明 A优先于B吗? • 计算样本标准误差:4.07%,实际总体对A 的选择百分比可能是在 : 52-4.07到52+4.07间,不能判断A优于B 注意:标准误差只适合于有放回的简单随机 样本
  43. 例2 在一项关于少儿电视节目内容 分析的研究中,按简单随机抽样的 方法抽取了当年35天(5个结构周)5 个频道共计350个少儿节目。这350 个节目的播出时间X如表所示。试估 计当年这5个频道播出的每个少儿节 目的平均时间长度。
  44. s SE n  1 F SE s n   n F N  或 2 根据中心极限定理,在95%的置信度下, 总体均值的置信区间为: 总体平均值 1.96 X SE   1 先求标准误差: F为抽样比,当N相对于n大很多时,F近 似为0 1.96(0.53) 26.7 1.04      (分钟)
  45. 计算样本量 样本误差用以下两参数表示 • 置信水平(置信度):参数统计值落在某一指定区 间的概率。 • 置信区间(误差水平):统计值落在的某一指定区 间 例如: 在95%的置信水平下, • 则置信度为1.96,置信区间或误差水平为2x1.96SE 1.96 X SE  
  46. • 置信水平:委托人对样本能够代表总体有多 大的可信度? 如95%置信水平的含义:100个样本中95个样 本,其均值与总体均值之差应该会落在所计 算的误差范围。 68%的置信水平——概率度(置信度)为1 95%的置信水平——概率度(置信度)为2 99.7%的置信水平——概率度(置信度)为3
  47. 样本量N= • C:置信度 • E:误差水平(置信区间的范围) • P:选择百分比 计算:1: C=1.96,E=5(%), P=50(%),N=? ( 384) 2: C=3,E=5(%),P=50(%),N=?(900) 3:C=3,E=1.5 (% ),P=50(%),N=?(4268) 结论: 样本量不依总体大小而定,而与置信度和误差水平相关 样本必须是随机的。达不到时通过1000-2500样本量补充。 2 2 ( ) (1 ) C P P E  
  48. 样本大小的常规 • 研究方法:焦点组(6-12) 尝试研究(10-50) • 常用小组尺寸(50,75,100)考虑费用:例 18-54岁者的电话采访(18-24,25-34,35-44, 45-54) • 费用和时间因素:样本增大和误差减少,多数 研究考虑小样本 • 多变量研究:50很少;100少;200可以;300 好;500很好;1000优秀 • 中心地区测试,焦点小组,框架测试长时间内 多次测试增加10-25% • 早期研究的信息
  49. • 修正样本:样本加权(Weighting) 样本有太多的某一种族的成员时,研究 者进行某种加权 如男性本调查者占45%,正常总体男性 49%,则权重为49/45=1.08; 将样本中男性回答的频数X1.08
  50. 报刊的抽样 对报纸进行内容分析的常用抽样方法有三种: •简单随机抽样(simple random sample) •构造周抽样(constructed week or composite week sample) •连续日期抽样(consecutive day sample)
  51. 1 连续日期抽样法的具体做法是在总体中随机 抽取连续日期的子集。例如,要在一个月的 报纸中抽取10份样本,可随机选取该月1至 20日的任何一天作为起点,抽取连续10份报 纸作为样本。 2 报纸合成周的大致原则( 报纸合成周的方法 优于随机和连续日期样本): • 12期以上如24,36,48并没更高的精确度 • 方法1:按月份分层,抽样12期样本; • 方法2:简单随机抽14期样本(两个样本周)
  52. 大数据时代抽样还有必要吗? • 面对复杂性、人际性社会问题的分析时, 大数据方法还不够细致入微。 • 大数据 ‘价值密度低’,数据内容可能并 不是特定研究者所关心的,不一定都能满 足特定问题研究的需要 • 大数据技术所获取的信息相当于普查和非 概率样本,便样本规模再大,得出来的知 识和规律也有可能是误导性的。
  53. 作业: • 对你的研究进行抽样设计并说明理由
Anzeige