采集记录足够多的数据,使工作更加针对化和精准化,这是大数据吗?这不是大数据而只是数据化。
什么是大数据呢?例如洛杉矶警方曾对以往的刑事案件做了统计,通过算法得出了第二天的高概率犯罪地点,然后有针对性的派警察去该处巡逻,从而使得当地的犯罪现象下降20%。这是大数据。
再比如,经济学家都认为股票无法预测,而一位剑桥大学毕业的博士搞了个公司,对有史以来几乎所有的证券交易的数据进行记录,然后通过算法进行分析。
他对什么国家政策、公司业绩、行业走向等等一眼都不看,100%地排除主观意志的,只根据计算结果来进行投资,最后赚了大钱。这是大数据。
大数据的精髓并不在于数据的精准和数量,而在于对内在规律的挖掘和对未来趋势的预测。其思路是:一个结果是有很多原因的,原因作用的强度可能是随机的,我们对其中作用的机理并不清楚。
我们难以找出规律性,但知道规律性就蕴含在结果数据之中,如果我们能建设合适的模型,写出好的算法,就有可能把这个规律性提炼出来,从而能科学地发现真相和预测未来。
今天上午在贵州省大数据中心看到了大数据应用的事例。
金润建设和鹏润达这两家企业分别投标200多次,一次也没中过,依然积极地投。投标是要成本的,这两家公司那里来的动力?
通过大数据的知识挖掘技术,发现了它们总是陪着固定的一家公司一同招标,最后总是那家公司中标。围标、串标、陪标的秘密被大数据挖掘出来了?
数据蕴含着无穷的价值,大数据就是“钻石矿”,但必须善于挖掘。
关于大数据,只需要了解这几点。
第一:什么是大数据
简而言之,大数据是指大数据集,这些数据集经过计算分析可以用于揭示某个方面相关的模式和趋势。数据量不在多,只要足以得出可靠的结论即可。
第二:如何获取大数据
大数据无处不在,随着时间的推移,一个简单的Google搜索就能够找到几乎所有的数据存储库。里面不知道有多少数据可用于访问和分析。我现在这里提供一个可供学习的数据集列表:()
第三:用这些数据做什么
数据采集、数据存储、数据清洗、数据分析、数据可视化
1.数据采集
在发生任何事情之前,需要一些数据。这可以通过多种方式获得,通常通过对公司Web服务的API调用。尤其是我们在工作中遇到的数据很多都是来自系统内的数据,来自数据库的数据来自日志的数据。
数据采集常用的手段有:SQL/Python,其中SQL是数据分析的必备技能,Python是加分项。
2.数据存储
大数据的主要难点在于如何管理数据的存储。这完全取决于负责建立数据存储的预算和个人具备的专业知识,因为大多数需要一些编程知识来实施,一个良好的数据库能让我们直接地存储和查询数据。
3.数据清理
采集来的数据一般是不规整的,字段缺失或者有错误是常有的事情,如果我们不对这些数据进行清洗,分析出的结果就会出现各种异常。在数据清洗这一块就需要用到一些简单的统计学基础。
4.数据挖掘
数据挖掘是发现数据库内的见解的过程。这样做是为了能用掌握的数据提供预测和做出一些正确的决定,这部分往往涉及一些算法,也是最困难的部分。
5.数据分析
一旦收集完所有数据,就需要分析以寻找数据的模式和趋势,发现一些不同寻常的地方,比如异常点或增长点、下降点。
6.数据可视化
也许最重要的是数据的可视化。这是先完成所有工作并输出理想情况下任何人都能理解的可视化的部分。最常使用某种编程语言(如Plot.ly、d3.js)或软件(Tableau)来完成。
第四:就业前景
就根据教育部近日公布的2017年度高校本科专业备案和审批结果显示,新增2311个专业中,“数据科学与大数据技术”、“机器人工程”等专业热度最高。大数据和人工智能一定是未来有美好前景的专业。从谷歌搜索热度看,自2010年左右热度只增不减。
欢迎各位或者各位的孩子们加入数据分析师的队伍!