抽样调查样本量计算会被大数据的全样本分析所取代吗

点击联系发帖人 时间：2016-12-17 23:08

抽样调查样本量计算

TOP热门关键词
专题页面精选
沈浩老师，中国传媒大学电视与新闻学院教授。研究方向：传播学研究方法、应用统计学和市场研究。IPSOS（中国）市场研究有限公司首席顾问，中国传媒大学数据挖掘研发中心主任，调查统计研究所所长，15年的数据分析的专 ...
沈浩老师，中国传媒大学电视与新闻学院教授。
研究方向：传播学研究方法、应用统计学和市场研究。
IPSOS（中国）市场研究有限公司首席顾问，中国传媒大学数据挖掘研发中心主任，调查统计研究所所长，15年的数据分析的专业经验，精通各种统计技术的分析方法和分析软件，在统计行业和市场研究行业享有较高的声誉，擅长市场研究和模型，主要包括：结合分析、满意度分析、抽样设计、多变量分析，市场细分和数据挖掘。
问答汇总：
Q1:坛友songasia：
沈老师，您好，由于互联网的迅速发展，使得大家也开始在关注大数据的发展，基本用的都是已经发生在互联网上的数据，如果继续在这一领域搞学术研究的话，是否意味着传统的文卷调查已经不符合时代要求了？写的学术文章更容易被拒收？另外，作为青椒的普通一员，感觉大数据非常有前途，但一旦想把这个作为研究之路来走的话就发现，数据难拿到，基本都是公司的机密，不可能给你的，在这一块的研究沈老师能否给点建议，非常^_^！
你提到的现象很普遍，特别是一些社会科学领域很少有所谓的大数据。现在大数据很火，总讲大数据的价值，企业更会把数据藏起来不愿意分享。但是，大数据时代一个很重要的特征是open data，这点特别要说ZF是大数据的开放者，也应说是拥有者和使用者。1）狭义讲大数据更不适合当今社会科学学术体系，实证研究方法论；2）研究大数据的方法或算法，特别是在商业和营销等还是可以的；3）大数据的研究范式在一定程度上改变了传统调研和数据采集方法，包括统计方法；4）要学会采集数据，例如API接口、爬虫技术等，同时要能够从开放数据源收集（有越来越多趋势），并非代替理论假设下问卷的实证研究；5）要学会从微博、微信公共号、LBS、data.gov等获取更多可能的数据
Q2:坛友huanghuiqun：
沈老师，您好:
怎么获取新闻或媒体方面研究的数据资料，并利用数据进行数据挖掘、大数据挖掘并结合机器学习等智能计算技术？谢谢
如果你在新闻媒体领域，这方面资料还是很多的，特别是大数据时代，一个显著特征是文本挖掘，所以新闻语料都说可分析的数据了。一般就是针对新闻语料，分词、情感挖掘、文本挖掘、意见挖掘、语义分析、主题模型LDA等都需要学习和应用，另外文本的自动分类和归类技术。如果您能够将任何一个新闻事件5W要素自动结构化为数据库，将谁——谁——在哪——重要性——倾向量化和空间地理化，我们就可以进行趋势、热点、热图研究新闻发生的变化和预知什么？当然在媒体领域将来的全网收视率研究，个性化推荐技术、新闻定制、微博传播路径、舆情演化研究等都大有用武之地。
Q3:坛友mavpig：
沈老师，您好！
想问一个关于过度抽样的问题。在建立预测模型的过程中，如果使用过度抽样和不使用过度抽样的方法，得到的预测结果相差不多，请问有必要采取过度抽样吗？谢谢
过度抽样在建模中往往需要的，主要是因为数据挖掘技术主要是建立欺诈模型、流失模型等，往往数据库中这种粒度很少，当采用神经网络等机器学习算法时，如果有9份好人，1份坏人，机器学习就会更好的分出好人来，理想的分类算法应该是一半好人，一半坏人，模型才比较好的分类，达到模型的健壮。同时，为了保证见面的训练样本和测试样本（必要算法需要校验样本）的合理性，需要通过交叉验证，在一定程度上需要过度抽样。
Q4:坛友zgy_Russell：
沈老师您好！首先感谢您能来论坛解答我们的问题。想请教您，在大数据的应用上，我国与美国还是有很大的差距。比如在文化传媒产业，一个经典的例子就是美剧《纸牌屋》利用大数据分析满足消费者的需求。想请问老师，在我国的文化传媒市场中，我们该如何更好地利用大数据发展文化产业呢？
美国不是随意谈大数据战略的，从911后美国积累了大量大数据领域的技术，特别是1）挖掘数据价值支持企业竞争和ZF管理，2）培养人才拥有更多的数据人才，3）开放大数据data.gov。纸牌屋是人们愿意晶晶乐道的大数据话题，因为大数据的特征就是结果很容易理解和感知，尽管不懂咋得到的。原则上讲纸牌屋的大数据更是一种营销思维，相信没有大数据纸牌屋也可能是成功的，当然我们要相信他们一定是分析的，因为拥有3000万用户的行为，签到数据、心跳数据、时移数据和常年积累的MetaData节目人员分类数据等。其实今天看纸牌屋的算法并没有太深奥的技术，就像google的Pagerank一样，当然算法是一回事，工程上实现是另一回事。在我国文化产业，这个文化产业太大了，我知道应该都有用，但太宽泛了，比如舆情、社会计算、智慧城市、智慧足迹、电影票房预测、影视节目的版权交易、投资分析、恐怖分子挖掘，太多了
Q5:坛友guanzhiwei04：
沈老师您好，我有一个粗浅的问题想请教，就是：抽样调查会被大数据的全样本分析所取代吗？
抽样调查一般是自上而下的，理论——假设——验证，大数据挖掘是自下而上，数据库——发现——知识；原则上是两种研究范式和方法论，在一定程度上说，如果能够用大数据或存在商业自动化获取的数据，可能会选择大数据挖掘方法，特别是拥有大数据的企业、机构或ZF会越来越多的采用。取代是一个很界定的词，部分吧。当然，大数据和小数据（如果存在这种说法，或说小数据就是抽样数据）可能会更融合。我个人倾向大数据会越来越多的采用并应用在过去小数据抽样数据的研究领域，但不是取代。
Q6:坛友Dany2：
沈老师：你好！借此契机向您请教几个问题。
1.如今数据分析的编程语言很多，R、Python、Hadoop、SAS，作为刚进入数据挖掘领域的新手来说，应该如何选择合适编程语言？
2.数据挖掘所需的知识面比较广，入门应该遵循什么样的学习路径？各个知识块要按什么顺序掌握？
3.大数据时代只问关系不问因果，那如何判断我们得到的关系是可以外推的，即应用到未来而不会导致错误呢？
1）推荐如果偏好或个人在统计分析和数据挖掘技术层面，可以考虑学习R语言
2）如果个人偏爱计算机技术，编程擅长，可以考虑学习Python，特别是如果你是工程上实现
3）当然你要学好：Excel、SPSS、Matlab、SAS等
4）特殊领域也要学，如果你tableau，Gephi、ucinet等可视化或网络分析
5）在一定程度上建模分析人员不用太关心hodoop、Splunk等，分布式计算、并行计算等交给R、Python算法去解决，除非你是IT工程师货系统架构师
6）学习路径可以看看我的博客，在google搜沈浩老师的博客
7）大数据重相关不关心因果，是对的！不是不关心因果，因果本身不来自统计和数据，来自你的理论，而大数据是挖掘和发现知识，至于是否是因果您去努力解决和探索吧。当然如果大数据具有时间序列增长特征，更具有发现和验证因果的可能性，当然前提是又要符合实证研究框架，就可能产生矛盾。
Q7:坛友兔兔舒蓝：
沈老师，您好！
我们总会建立模型来估计两个经济变量之间的关系，可是同一问题有多种分析工具供选择。例如，对相同的面板数据，有普通最小最小二乘法、GMM、单位根检验协整检验以及固定效应等方法，该如何选择最好的方法？
咋说呢，如果你都不懂每一个方法，只好道听途说；如果你只会一个方法就是啥都用这个方法解决所有问题，只有会了每一个方法，才知道如何选择和权衡利弊。当然，今天很多工具都说智能和自动或半自动方法，如果不懂太细致的方法和参数，就采用每种方法或测试不同参数建模，学会评估模型的好坏。如果评估也不会，就看效果好坏啦！我的思路：就是把所有方法都测试一遍，这个具体数据集没玩好，经验值就有了！面板数据中经济学和时间序列预测都是特定数据集，在社会科学比较少，我的经验值不足！
Q8:坛友爱.呼吸：
沈浩老师，您好！以前听过您的讲座受益匪浅，请问大数据处理怎样准确获取业务需求？
一般讲：商业理解是大数据挖掘的第一步，商业理解、数据理解、数据准备占整个业务的70-80%的比重，当然如果你在某个领域越深入越理解，合作和建立挖掘团队是必要的。因我在学校，不能满足上述条件，往往从数据出发，俺没时间整天讨论开会，会说先给我数据看看，从数据去理解商业可能是在明确要求下可行的，特别是在国外语言不通，文化没有的前提下。当然对于大数据挖掘人员要理解一般意义下的：流失模型、信用模型、欺诈模型、交叉销售、增量销售、KPI、RFM模型、市场细分、效果模型、满意度模型、选择模型等等各种模型的基本思想。
Q9:坛友lzguo568：
沈老师你好，供水企业面临一个问题是入户难，检表难。表出户改造是一件耗资巨大的工程，但煤气表也在室内，没听煤气公司提出将煤气表改在室外。于此同时供水企业又是垄断行业，不存在客户流失问题。由于有抄表员抄表环节的存在，导致很多基础信息不实，例如，营销员不去抄表，在家进行推估表指针，造成表存量，推估量，漏收现象。我个人感觉信息系统唯一真实的数据就是交费信息，我分析过用户交费行为，一次缴纳水费50元，100元是众数。表存量20吨是众数，48吨是中位数，一件推估量平均水量102吨。我们的系统积累12年的用户交费，水量调查信息，累计用5千万条记录。个人认为值得深入研究的是预存水费如何管理的问题。如何对上述信息进行那些其他方面的数据挖掘，请沈老师指点一下。谢谢！
供水、供电企业可真是大数据土豪型企业，过去用在内部经营分析上，但主要个人理解是报表或计费上，并没有用于经营优化或大数据挖掘。美国根据每个家庭的状况可以个性化提供每个家庭能源报告，您就会看到与您一样的家庭、电器、生活习惯该如何降低用电，带来整个社会的节电。供水是同理，当然要解决数据采集问题，要明确一点：大数据不是为了挖掘采集的，而是商业自动化导致海量存储，现在理解了大数据的价值，在商业采集信息的过程应该收集更多数据，比如APP，传感器，一定要走自动化和用户自愿签到登陆才行，否则？现在插座都可以app遥控了
Q10:坛友jiangbeilu：
沈老师，您好！
我觉得大数据也是分行业的，如果传统行业想应用大数据，还是需要一定的时间的，主要的行业还是互联网行业，电子商务这块。当然，新闻行业也开始应用大数据分析，来做报道了。
我想问一下，对于传统行业，该怎么样利用相关的大数据来为自己的企业谋取更多的利润呢？
现在谁是传统行业呢？大家都在互联网思维，大数据时代是工作、生活和思维方法的改变！尽管互联网等行业是大数据活跃的，但是大数据挖掘其实落地就是早年的数据挖掘技术，只是偏向文本挖掘、语义挖掘、网络分析、空间地理和可视化技术。过去银行、金融、保险、健康医疗、税收、电信、移动零售都是现在海量数据的传统行业啊！
Q11:坛友：
沈老师，您好，大家都在讨论大数据，但实际操作中知道如何去做的却非常少，而且在领先优势下的Google，Facebook等，都在面临对公众隐私侵犯的问题，用户的偏好和私人信息已经无形中成了利益链条的牺牲者，如何解决这种数据收集中可能存在的伦理性和合法性问题呢？
隐私是大数据所带来的一个重要的，也是心理感受的一个严重问题。当然隐私不是单单因为大数据才有的，所有大数据在定义隐私，保护隐私和暴露隐私都有作用。今天的社会，人在社会上就要与人交流，得到他人服务，这些都必须让度一些隐私，当然啥是隐私呢？有的人洗澡都希望别人看到，有人啥都不希望别人知道，所以因人而定。当然ZF和企业要制定最低准则保护，要有底线。但我先拥抱大数据、隐私问题针对具体问题具体分析！
「就学高端版」APP：随身顾问，立即就学！
期刊投稿----核心期刊编辑帮您了解投稿、审稿规则，提高投稿命中率！
考研咨询----国内经管名校研究生，为您解答疑惑、分享经验！
高考择校----高校老师为您介绍学校、专业情况，助您成功选择理想大学！
扫描下方二维码下载并注册APP
本文关键词：本文论坛网址：
您可能感兴趣的文章
本站推荐的文章
本文标题：
本文链接网址：
1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责；
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性，不作出任何保证或承若；
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。专题专栏>大型调查>人口抽样调查>课题选编');" >
专题专栏>大型调查>人口抽样调查>课题选编');" >
您当前所在的位置：&>&&>&&>&&>&
大数据时代做好人口抽样调查的思考——基于浙江2015年1%人口抽样调查
　　随着“互联网+”与传统产业的飞速融合，我们迎来了大规模生产、分享和应用数据的时代。当前，运用大数据推动经济转型升级、完善社会治理、提升政府服务和管理能力已成为趋势。2015年9月，经李克强总理签批，国务院印发了《促进大数据发展行动纲要》，全面系统部署我国大数据发展工作。2016年2月，浙江省人民政府印发了《浙江省促进大数据发展实施计划》，把打造全国大数据产业中心，大力推动大数据发展和运用作为发展信息经济的重要目标。作为人口统计专业人员，如何在大数据时代更好地开展人口调查工作，值得研究和探索。&
　　一、什么是大数据&
　　笔者认为大数据是互联网发展到现今阶段的一种表象或特征，它基于“云计算”为代表的现代信息技术，以自动记录、储存和连续扩充的方式，使一切可记录的信息数据化。然后通过对这些原本很难收集和使用的数据进行整合分析，得到与研究问题相关的有用信息。随着互联网与各个传统行业的融合不断深入，大数据将逐步为经济社会创造更多的价值。它主要具备以下三个特点：&
　　1.大数据信息量巨大，为多维度的数据分析提供了选择空间。&
　　传统抽样调查获得的样本数据，是以特定研究为目的，依据严格设计的抽样方案而获得的结构化数据。不仅数据量有限，对方案设计和采集过程都提出了极高的要求，若抽样方案的设计不够合理，采集过程偏差较大，样本数据就不能满足使用要求；同时，受到方案的限制，样本数据的分析空间也十分有限。以1%人口抽样调查为例，由于样本量的控制，方案设计时考虑更多的是样本对各市常住人口的代表性，抽中样本的分布在各县（市、区）间差异较大，自然无法满足测算区县一级常住人口的要求。&
　　大数据则是一切可记录和存储、源源不断扩充、超大容量的各类型数据汇总，除了结构型数据，更多的是非结构型数据、半结构型数据或异构数据，很多数据难以用传统的统计指标或统计图表加以体现。大数据的大体量与多样性，弥补了抽样调查中由于样本有限，对某些规律、弱小信息捕捉不力的缺陷，为多维度、多层次的数据分析提供了可能性。&
　　2.大数据结构复杂多样，无法按传统方法分类统计。&
　　随着大数据的迅速发展，数据结构变得更为复杂，大部分数据信息都已经脱离出数据结构的范畴，属于非结构化数据，包括纸质信息与数字化的视频、音频、邮件、图片等等。各种数据格式之间互不兼容，给数据的提取、存储、管理和应用带来了很大困难。&
　　传统的结构化数据已有一整套较为完整的数据处理方式，量化的结果可直接用于各种运算与分析。但大数据是杂乱、不规整、良莠不齐的，传统的量化方式已无法直接处理非结构化数据。我们需要将统计研究的对象范围从结构性数据扩展到一切数据，重新思考数据的定义和分类方法，并以此为基础发展和创新统计分析方法，做好大数据与传统结构化数据的对接。&
　　3.大数据重视相关性而不是因果关系。&
　　大数据已然逐步占据当前信息社会的中心舞台，也使得传统知识观中的因果规律遭到极大的挑战。大数据的核心在于预测，它通过各种复杂的数学算法处理海量数据来预测事情发生的可能性。这是一种从相关性着手，通过对过去的理解，释放出对未来预测的新型思维方式，它从本质上改变了传统数据的开采模式。另外，尽管大数据能够非常好地检测相关性，但其自身无法告诉我们哪一种相关性是有意义的。譬如，在互联网上大数据的收集是根据关键词搜索来统计的，然而很多关键词看似与研究的问题相关，实际上相差甚远。如果在收集数据的过程中缺乏严谨的审核条件，大数据的量级规模会扩大这虚假的相关性，导致我们做出错误的判断。&
　　二、什么是1%人口抽样调查&
　　在社会经济发展过程中，人口始终是一个重要因素，其年龄、性别、受教育程度结构和生育、就业等因素对一个国家或地区的经济发展潜力、社会进步状态有全面而深远的影响。人口变动情况是人口统计的重要内容，国务院2010年颁布的《全国人口普查条例》明确规定，人口普查每10年进行一次，尾数逢0的年份为普查年度。我国作为世界上人口最多的国家，经济发展速度快，社会流动规模大，经过10年的发展，人口结构必然会发生很大的变化，所以又建立了在两次全国人口普查之间的1%人口抽样调查制度，又称为“小普查”。开展全国1%人口抽样调查，能准确、及时地掌握各地区的人口变动情况，对研究未来人口发展趋势，保障、改善民生，以及制定各项政策都具有极其重要的意义。&
　　1.调查目的和内容。&
　　2015年全国1%人口抽样调查的目的是了解2010年以来我国人口在数量、素质、结构、分布以及居住等方面的变化情况，为制定国民经济和社会发展规划提供科学准确的统计信息支持。调查标准时点为2015年11月1日零时，调查内容主要包括姓名、性别、年龄、民族、受教育程度、行业、职业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等。&
　　2.抽样方案的设计。&
　　在传统调查的数据获取过程中，由于受技术、时效性以及经济成本等原因的限制，抽样调查作为一种科学的采样方式，得到了广泛的应用。在调查经费一定的情况下，样本量和抽样方法的确定主要考虑以下两个方面：首先要保证各市调查的样本量对本市有较好的代表性，主要指标的相对误差控制在10%以内；再者要保证落实到各县（市、区）调查样本量差距不大，调查的最终样本规模与其人口规模大体一致，便于组织实施。&
　　2015年1%人口抽样调查，以全国为总体，以各地级市为子总体(其中各地级市的样本量来自于各地级市常住人口的平方根占所属省的比例乘以1%人口抽样分配到该省的样本量)。我省采取分层、二阶段、概率比例、整群的抽样方法，共抽取了2602个村级调查单位，调查设计样本量为65万常住人口，约占全部常住人口的1.18%。在1%人口抽样调查中，采用二阶段抽样：第一阶段抽取村级单位，第二阶段抽取调查小区。平均每个调查小区常住人口数为250人，80户左右。在第一阶段抽样时，抽取方法为分层、概率比例抽样。&
　　分层抽样的原则是尽可能使层内各单位之间人口变动指标的差异减少，各层人口指标差异增大，以降低抽样误差。分层后，按抽样比和各层人数等比例分配每一层的样本量。由于每层调查的人数是按人口比例分配的，层与层之间调查的人数差异很大。根据分层原则：一是充分利用人口普查的资料，依据城乡属性、外出人口比例、外来人口比例、非农人口比例等多个经济发展指标，将所有村级单位细分为24层（包括开发区、大学城等特殊层）。二是在层内按比例抽取村级样本单位。各层按与村级单位数成比例的PPS系统抽样方法抽取村级单位，其中各层样本村级单位数按该层村级单位总数占全部的比例分配。在每个抽中的村级单位中，采用简单随机抽样抽取一个调查小区样本。&
　　分层、概率比例抽样使得每一层抽中的概率与其人口估计规模成正比，即人口少的层被抽中的概率小；在抽中的村（社区）里，无论规模大小，都选择一个常住人口250人左右的调查小区，使抽中概率小的地区，每一个人被抽中的概率增大；这一大一小的概率乘积，使得全市每个人被调查的概率保持不变。这种抽样方式既保证了每个地级市每一层中的村（社区）有同等被抽中的概率，又兼顾不同层间被抽中样本的规模与全市的分布大体一致，因而对11个市具备了更好的代表性，也能够如实反应全省的情况。&
　　3.调查数据的质量。&
　　通过2015年1%人口抽样调查的原始数据与2010年第六次人口普查数据进行结构比对，我们发现，这次1%抽样调查的数据质量是相当高的。从图1来看，两次调查的分年龄人口占比的曲线惊人的一致，波峰与波谷正好向后顺延了5年，只是70岁以上的曲线略有不同，这主要是老年人口样本量较小导致的抽样误差。图2的分年龄性别比的曲线也说明了这个问题，2015年1%抽样调查70岁以上的性别比都略高于2010年人普的同年龄段人口，95岁以上的性别比甚至出现了奇异值，再次证实抽样调查样本量越小，数据越容易发生偏差。&
图1 &2015的1%与2010“六普”分年龄占比
　图2&& 2015的1%与2010“六普”分年龄性别比
三、人口抽样调查的局限性&
　　1.抽样调查的误差不可避免。&
　　抽样误差是抽样调查中的一个特有概念，是随机抽样中因偶然因素引起的样本不能完全代表总体所产生的误差。在抽样调查中，用任何一套样本的调查数据推断总体，都不可能得到确切的总体真值。抽样误差是不可避免的，是绝对存在的。1%人口抽样调查采取的是分阶段抽样，每个阶段都会产生误差。就第一阶段抽取村级单位来说，全省近32000个村级单位，平均每村（社区）户籍人口为1522人，而抽中的2603个村级单位，平均户籍人口有2200人，很显然，抽中的村相对规模较大，情况更复杂，代表性也愈强。但从推算总体的角度来说，肯定会产生偏差。&
　　同时，调查中的人为误差也一直存在，尤其在目前统计与政体没有分开的情况下，将调查数据与政绩挂钩，必然会在统计数据上出现虚报和瞒报的行为，基层统计调查都不同程度受到过行政干预。同时基层调查员经过层层培训，对指标的理解把控，以及对工作的责任心都参差不齐，也会造成数据偏差。&
　　在这种背景下，就需要通过技术加权、部门数据佐证，大数据补充等多种方法多角度评估抽样调查的数据质量。&
　　2.抽样调查无法满足多层次统计信息需求。&
　　抽样调查一般只能满足单层次的统计信息需求。如以省级为总体进行样本设计时，抽样调查数据只能解决省级的代表性，而无法满足省级以下各级政府使用数据的需求。2015年的1%人口抽样调查在进行样本设计时，以全国为总体，以各地级市为子总体，所以对全省和11个地级市都有代表性；但细化到县（市、区）一级，由于样本量少且分布不均，分县的常住人口推算是完全没有代表性的。&
　　随着户籍制度的取消和人口流动的频繁，常住人口将替代户籍人口越来越多地被应用于各级政府行政决策的方方面面，因而会有更多的数据需求。由于经费和人力的限制，政府不可能每年都进行全面的人口调查。如何在抽样调查的背景下做好分县常住人口的测算，是各级统计机构面临迫在眉睫的问题。&
　　四、如何做好大数据时代的人口抽样调查&
　　抽样调查是一种有严密理论依据的科学调查方法，其理论与方法体系主要依托于概率论，概率论起始于十七世纪，至今已发展得相当成熟。作为一种非全面调查方法，抽样调查在小数据时代以最少的人力成本，最小的采样数据在社会统计中得到了广泛的应用。它的经济性、准确性、灵活性和时效性等优点在实际调查工作中受到充分认可。当然，每一种调查方法都存在着一定的缺陷，在大数据时代，抽样调查也面临着诸多机遇与挑战。经过多部门收集汇总的大数据库就像一座待开发的宝库，不论对产业环节的实践者还是对公共服务部门都有极具诱惑力的价值。但由于研究问题的复杂性，大数据有时并不能如实地反应总体情况，&
　　大数据具有不确定性，较强的复杂性。从抽样调查的角度来讲，大数据更多的功能是一种辅助信息，并不是真实的总体信息，离开抽样调查的大数据将失去可靠的基础保障。在大数据时代，抽样调查与大数据应该实现相互佐证，互为补充的功能。&
　　在大数据时代，做好人口抽样调查，笔者认为有以下三个值得推进的举措：&
　　1.运用信息化手段采集调查数据。积极推进移动智能终端综合管理平台的应用，充分利用PDA、智能手机、联网直报等现代信息技术和设备采集统计调查数据，从程序角度，更大提高人口抽样调查数据质量。&
　　2.共享政府各部门的电子化行政记录和综合统计数据系统。人口问题涉及社会的方方面面，公安部门的流动人口登记情况、卫计部门的出生人口数据，社保部门的保险缴纳情况等等，都可以依托政府统一的政务数据交换平台，实现实时传输与共享。这对分析人口的结构数据，把握人口发展趋势都很有借鉴意义。&
　　3.开发对大数据的挖掘与分析功能，整合各类非结构化数据资源。随着“互联网+”的高速发展，人作为一个社会属性，很多信息在大数据中都有体现，譬如淘宝网上某地级市用户群的年龄结构，铁道部门“春运季”车票的销售情况等等。统计部门应不断提高大数据分析技术，对各类非结构化数据资源进行多目标、多角度、多层次的加工、整合，推进大数据在人口抽样调查评估分析中的应用。&
　&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 　&&（人口就业处& 赵静）
【信息来源: 】您所在位置： &
&nbsp&&nbsp&nbsp&&nbsp
互联网与大数据思维的文最献综3述.doc 13页
本文档一共被下载：
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性，不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值，立即自动返金币，充值渠道很便利
需要金币：150 &&
你可能关注的文档：
··········
··········
【题名】互联网和大数据思维
【作者】郭大蕾
【系别】11级广播电视新闻学
“大数据”的提出由来已久，由于互联网和信息技术的进步，各个领域的数据量都在迅猛增长，而通过数据的分析、开发和整合，人类现在可以发现新的知识、创造新的价值，从而带来“大知识”、“大科技”、“大智能”、“大利润”和“大发展”。伴随我们的理念、思维方式、营销方法论势必也要进行变革，即所谓的大数据思维。而“美丽说”作为大型女性时尚社交网站?，可以说是大数据思维运用中新型互联网社交网站的典型案例。
大数据，既是“因为小所以大”，也是“因为大所以小”。因为小所以大，是大数据的“有”。因为互联网上有很细节、很海量的数据，在互联网的社会环境下可以通过技术方法在经济可承受的前提下把数据找回来。而因为大所以小，是大数据的“用”。由于有了丰富的数据，各类互联网媒体、服务才可以针对某一个特定用户，给他提供更精准的服务，将传统的“一对多灌输式的广告”变为“个性化推荐”。
“大数据”，其实并不是新的概念和现象。早在1980?年代，美国就有人提出了“大数据”的概念。30多年来，由于互联网和信息技术的进步，各个领域的数据量都在迅猛增长，美国的企业界、学术界也不断地对这个现象及其意义进行探讨。最近这一两年，“大数据”这个概念在美国变得越来越流行、越来越重要。2012年3月，美国联邦政府宣布投入2亿多美元启动大数据的研发任务，并把大数据定义为和历史上的互联网、超级计算同等重要的国家战略。之所以上升到国家战略的层面，是因为随着数据的爆炸，数据的收集、保存、维护、共享、使用等等任务，都成为横跨各个领域、牵一发而动全身的现象和挑战。但这些现象和挑战的重中之重，还是因为人类分析和使用数据的能力大幅提高，通过数据的分析、开发和整合，人类现在可以发现新的知识、创造新的价值，从而带来“大知识”、“大科技”、“大智能”、“大利润”和“大发展”。?
???而我们一直生活在数据的世界里，但以往受限于技术，主要应用抽样、局部、片面的数据，或者在不能获得实证数据的时候依赖经验、理论、假设等去发现未知领域的规律。而现在，互联网推动了大数据由后台走向前台。?
互联网时代最大的意义在于可以做全流量的监测。随着各类社会行为迅速向互联网迁移，物联网、云计算、移动互联网、车联网、手机、平板电脑以及遍布各个角落的各种各样的传感器，使互联网承载远超以往的数据量。面对互联网的海量信息，数据的作用将远远超出以往。
大数据具有导航仪的功用。对于营销者来说，目标受众、目标客户是“谁”已经不重要，重要的是TA的偏好特征和传播相关信息的时机——根据数据判断TA在什么时候需要什么。
我们也经常把大数据比喻成显微镜，因为大数据提供了从更细的颗粒度层面认知世界的可能和条件。真正的大数据，让人类第一次有机会把来自不同地方、不同类型的数据联结起来形成对一个事物的完整描述，就像显微镜一样从更细的颗粒度层面认知世界。亚马逊则将大数据喻为“纠错器”：“长期以来，亚马逊一直通过大数据分析，尝试定位客户和和获取客户反馈。在此过程中，你会发现数据越大，结果越好。为什么有的企业在商业上不断犯错？那是因为他们没有足够的数据对运营和决策提供支持。一旦进入大数据的世界，企业的手中将握有无限可能。”
互联网时代，大数据还是发动机。互联网不再只是媒体，更是用户不断转化的平台。相应的，营销由独立转为系统性工程，而数据在营销全程中扮演的角色也必然要由参考工具转向驱动发动机。数据驱动的精准营销引擎，将颠覆传统的营销决策模式及营销执行过程，给网络营销行业乃至互联网及传统行业带来革命性的冲击。我们已看到，网络营销的大数据应用正在加速前进。虽然以大数据支撑的RTB，实时竞价)还在起步阶段，垄断媒体形成卖方市场、广告主决策过程并非百分百取决于业务层面价值仍对RTB形成阻力，但RTB应用越来越成熟，越来越成规模，百度、阿里等也都推出了自己的RTB平台，都足以让我们相信，RTB一定会成为未来网络广告的主流。而国内的互联网行业，特别是腾讯、阿里、百度等领头企业更在其他业务层面搜集、挖掘数据，进行大数据应用的准备和尝试，更使大数据向网络广告之外的领域渗透。
随着大数据时代的来临，抽样调查的主导地位将会被大数据思维之下的全样本调查所取代，并被逐渐边缘化。我们将有更高的机率准确认识、预测我们想要了解的事物，大至奥巴马竞选、奥斯卡奖项，小到客户的购买倾向、网络营销，海量的大数据中隐藏着我们想要知道的一切。但是，伴随着方法的变革，我们的理念、思维方式、营销方法论势必也要进行变革，即所谓的大数据思维，这对我们来说也是一种巨大的挑战。
在互联网时代下的今天，大数据思维已不仅是一种潮流和趋势，更被具有前瞻性的企业引用到营销中去，而“美丽说”作为大型女性时尚社交网站?，可
正在加载中，请稍后...
605页500页804页36页754页160页634页225页76页194页}

杰西卡呢吗信息网