66顺娱乐平台

新闻中心

主页 > 新闻中心 > 娱乐资讯 >

66顺娱乐数据多样性—全方位补齐缺失的核心信息

发布时间:2018-07-13  作者:www.hainosta.org.cn
    而在大数据时代,由于数据采集入口的自动化,至少在某一领域获得无限接近研究总体的数据量是有可能的。例如,过去想采集全部居民的面部信息是几乎不可能完成的任务,但是在今天则可以做到。通过身份证管理系统、新生儿管理系统、学生证、士兵证、社保、驾驶执照等各种系统,就可以获得几乎覆盖全部居民的标准正面相。这样就不仅可以回答“中国人的典型相貌是怎样的”这样一个问题,还可以进一步地深入回答“上海出生、原籍四川的未婚‘90’后女性,其相貌特征是怎样的”这种高度个性化的问题。只要数据量足够完备,理论上对无限细分之后的层级也能够给出足够高精度的分析结果,这就使分析结论的代表性大大增强了。
    66顺娱乐数据多样性—全方位补齐缺失的核心信息
    除了对总体做尽量精确完整的描述之外,大数据还可以全方位地补齐被刻意隐藏起来的、难以直接获取的关键信息,而这类关键信息往往都存在巨大的商业价值或者其他价值(或许因此才会被刻意隐藏)。
    能做到这一点是因为大数据的一大特点是多数据源,即数据采集范围不会再限定于指定的那些变量里,而是“漫无目的”地顺便收集各种各样的信息。因为变量之间多少都具有相关性,当某一个核心变量缺失时,只要集中采集了足够多与其相关的变量,就可以通过统计方法将该变量的数据以足够高的精确度估计出来,即使这些采集到的变量和核心变量只是弱相关性。
新浪微博 腾讯微博 66顺娱乐平台