企业信息

    石家庄普翔人力资源有限公司

  • 11
  • 公司认证: 营业执照已认证
  • 企业性质:私营企业
    成立时间:
  • 公司地址: 河北省 石家庄 桥西区 *大街88号翰林观天下22号楼715室
  • 姓名: 陈士伟
  • 认证: 手机未认证 身份证未认证 微信未绑定

    供应分类

    自动计算—披着商业模式外衣的数据科学

  • 所属行业:商务服务 教育培训 职业培训
  • 发布日期:2015-08-28
  • 阅读量:128
  • 价格:8800.00 元/次 起
  • 产品规格:不限
  • 产品数量:25.00 次
  • 包装说明:
  • 发货地址:河北石家庄桥西区  
  • 关键词:项目数据分析师,大数据,河北

    自动计算—披着商业模式外衣的数据科学详细内容

     我今天的题目是“自动计算—披着商业模式外衣的数据科学”,我想利用这个机会只是想表达一件事,我们在谈所谓大数据或者数据科学的时候,统计建筑师是非常重要的,何主任表达的最后那个案子非常好的展示了通过数据科学来做建模以及由此做出很精准的分析,这是非常好的事情,但事实上我认为一个好的数据科学家,可能还要和IT结合。我这里想展示一下我们只会统计可能还不是很好,我们还要更基本的IT技术来做更多的理解,这只是表达一下前端工程师的基本技术。
      我简单自我介绍一下,我目前在闽台科技大学当教授,同时是中国人民大学的兼任教授,已经创建了三家公司,一家工厂加两家公司。现在是云图科学计算的创始人兼数据科学家,实际上我的专业是消费者营销,大概这个背景,所以会走上数据科学和大数据这条路来。
      一开始想跟各位思考一个问题,我们谈数据科学,就我很浅薄的理解,我从两个维度看这个事情,**个维度,我们怎么对待这所谓的信息,怎么搜集、面对它?*二个维度,我们怎么利用这个信息,我们把这个信息做什么用,怎么处理它,怎么让它发挥作用。从这个维度看的时候事实上我们发现很多很有趣的一些真正的商业应用,我个人其实非常同意整个数据科学的核心关键,应用面是在商业上。
      所以各位可以看到比如较右下角这个地方,我们对待信息是学习这样的,但我们利用这个信息的形式假定是基于模型的自动计算,我个人非常崇拜一些目前国际上一些非常了不起的数据科学成就,比如facebook,如果各位翻墙的话可以上去看一看。我先讲一个小例子,其实我有一个小孩,今年还不到3岁,在他1岁大的时候,我**次把他的照片放在这个社交网络上,马上弹出一个标签,要写上这个标签,说这是周庭锐吗?这个很牛对不对。所以你看这里面发生什么事情,事实上我们理解facebook背后的算法是深度学习的算法,通过这个深度学习在这么快速的时间里把人脸识别出来,而且通过对人脸的模型,这是一个基于模型之后的计算,可是前面对这么多照片的理解,他更多的关注是在做学习和理解。所以通过学习和理解建了模,较右下角的框里呈现了这个世界目前人脸识别较**的成就。
      再举个例子,各位好朋友们我们现在读一个期刊《自然》,我们知道人类之中目前较**的期刊,一个是《自然》一个是《科学》。里面有一篇文章我觉得很了不起,通过一个模型,深度学习有一种正向反馈的深度学习的模型,通过这个建模他干了一件事情是这样的,基于这个模型的算法写出一小段电脑脚本,然后去训练60种人类经常玩的街机,电脑玩具,他选了60种人类较常玩的游戏,代表人类较擅长的游戏,去教会这个游戏怎么玩,结果5分钟学会之后和人类PK,**战胜人类。各位觉得这个可怕吗?它的这个东西真的只是游戏而已吗?更重要是我在做无人驾驶汽车,智能汽车,你想想一个无人驾驶汽车在路上行走的时候,突然路上出现一个小孩,跟这个情况是一样的。
      我个人目前也有参与一些车联网的工作,车联网里面的信息,那个量可以取得信息的总类大概五六百种,我所能接触到的,其中大部分信息取得时间的数量,大概是小数点以下5位左右,每秒钟取出来数据的量是10万个,你取出五百个变量就好了,每秒处理这么大量的数据是很可怕的。这个我认为也是偏向右下角的框框。
      我们在谈谈大学里学到的统计学的东西,可能更多的是左上角的东西,做完之后再人工干预,那么一开始表达这个事情是说我们所谓数据分析的时候,是在两较的事情,你越往左上方走的时候,它越像是科研,越往右下角走的时候,越像是行业可以落地的尺度。所以每一个数据科学家可能在这个线段两端挣扎,因为对一个受过非常扎实训练的人,他很可能往左上方是比较容易的,但它真正的行业落地是比较差的,但你要往右下角靠的时候,难度是很大的,因为兼具了统计建模、业务知识、IT能力,这是我个人的看法。我后半生较大的努力就是往右下角靠,这是很挣扎的过程。但这是一个过渡的过程,我个人有一个想法,将来的数据科学会变成一个伪命题,它将会不存在,就好像各位觉得电脑很厉害,都知道电脑开关在哪里,都会用word、excel,将来电脑会走进寻常百姓家,因为一切都会智能化。在那个时候我们数据科学家会是什么样,大家可以自己去想像一下,这里我就不多说了。
      这里特别着重分享一个比较浅的部分,单纯自动计算的部分,从三个维度谈。**个部分,我们日常的生活中很经常看到的日常计算,可是我们容易忽略它。因为算法决定人生,算法决定思想,算法决定今天能做什么事情,这一切目前我们这些数据科学家可以在背后做,经常上facebook的人就很有感触,因为facebook较近一两年一直被美国联邦法院起诉,起诉的重点之一就是背后的数据科学家通过算法去干扰人类的行为,太多的美国人他能看到的行为,**个闪烁的行为都是被数据科学家背后算法经过自动计算之后数据操作,所以每个人所接受的信息是如此被操控的话,自然他的思想结构也会因此被改变,这是某种形式的洗脑。也就是我们日常生活中存在太多的自动计算,可我们往往会忽略它。一个简单的自动计算可能背景是简单的,可我们后面可以把它变成复杂,后面设置模型来进行自动计算。
      给大家举一个现在看到的较简单的日常被忽略的自动计算例子,这是我参与的一个项目。不知道你们家里的空调会不会跟着人走?你在家里走的时候,空调的风是跟着你吹的,这种空调你想买吗?有点意思对不对,这些背后的机理非常简单,是较简单的自动计算,上面装上一个传感器,我们可以理解一个物体三维定位,知道这个人在屋内行动轨迹的时候,风自然走过去,所以它就变得非常简单,这个样子,这就是一个应用。而这个应用用到了独立计算吗?其实没有,它就是个追踪而已,所以没有云计算,什么都没有,只是一个小小的有计算能力的芯片装在空调里,很简单。
      各位有移动手环的都可以知道自己的睡眠,你们觉得一个手环对企业落地有什么意义呢?**个较简单的大家都想买这个产品,觉得很炫,随着手的摆动就可以知道我的浅睡、熟睡分别多少比例,多少小时。但你们知道吗,当你举着手腕的时候,其实很有可能,你会在哪里睡觉,你有几个家,它都能分析出来。所以这个时候你会发现很多时候我的自动计算背后隐藏更多的阴谋。再举个例子,小米手环,你戴着它到处走,在这个自动计算下其实是追踪数据,在你本地的手机里做某些计算,去跟云端连接,云端只是存储而已,它不做计算。但这样一个设施对企业的意义是什么?我如果能知道在座这些贵宾们你们都带着我的一个手环每天在城市中走来走去,我可以对你做交叉销售你信不信,我会捕捉到你的行为特征,知道你喜欢去哪些店,哪些店停留多久,总是走哪些路径,最后回到哪个家。于是我从这个地方对你的生活形态做一个很深刻的摸底,于是背后可以卖东西很多了。我们在看数据科学的时候必须把你的脑袋调到这个位置你才可以理解科学对企业的意义是什么,这个调整非常重要。再看个例子,我猜大部分朋友电脑里都有装电脑官家,每次开机都提醒你,你的开机速度打败了多少多少,它在明白告诉你我透露了电脑的某些信息,请你不要介意,因为我偷这个信息可以带来很大的心理上的反馈叫做骄傲,你不觉得吗?这个拉走的背后信息多大啊。像这样一种自动计算,它背后一定与某种商业模式是挂钩在一起的,只有这个商业模式可以跟这样的技术相挂钩的时候,这是数据发生真正的价值和用途。
      所以像这些我们生活中常见的,你往往忽略掉的自动计算,其实背后的计算非常简单。比如刚才讲测量睡眠好不好,只是看你翻身几次,半夜有没有上厕所。你一离开,一移动,就一个很简单的判断,你刚才处在什么状态,太简单了。我之前买一个美国的运动手环,发现非常不耐用,两个月就坏掉了。我后来自己写了一个手机APP,每天晚上随机的偷录我的呼吸声一小时,来判断我到底是熟睡还是浅睡,这好像比较靠谱是不是。发现真的是用统计的方式去判断我们到底深睡还是浅睡,它的差别在哪里?我们说简单的计算,你要做到这一点是有条件的,必须要相对很明确的一个应用的对象,然后它的流水是很固定的,更简单的可能一个函数问题而已。它每次输入数据的结构必须一致,如果做到这一点,它甚至可以做到机器反馈。举个例子,中国之光,深圳某某科技,本来只是小朋友到中国香港科技大学去读个硕士,回来之后把他的硕士论文和伙伴做成一个公司,就可以造玩具直升飞机,已经可以在**市场上占到70%。它能把持在空中飞行稳定,不管环境发生什么巨大的变化,风一吹就这样反向回到原地还是乖乖静静的站好。它背后基本方式是这样的,实际上是通过四个螺旋桨,里面转的方向去决定这个无人机的移动。
      再举个例子,我也参与一些远程医疗的事情,我目前是在闽台,我们大概有两千多**的历史病例,这种东西就可以做很多模型,一开始很像何老师做的统计的研究,但后来落地的时候不一样,你必须要有办法同时取得大量的数据马上做一个快速的计算,这是我们做的有关糖尿病的,最后还是一个科研,可是当它变成要落地的时候,可能是APP或者是某种形式,它能在当下通过你的APP,加上对你生活作息的问卷回答,马上判断说你什么时候要死掉了,不想这样,你就要注意不要再吃什么什么东西,要运动,就不会死掉。在很复杂的事情,比较复杂的自动计算,它的对象明确,可是应用很多样,就像刚才讲的例子。它会使用很复杂的东西来做一些拟合和估计,而且数据来源很复杂。比如看北美*三大手机运营商,其中之一是基于线上线下六千万的注册用户,每一个用户收集何时到位、何时有危险,这个就涉及到比较复杂的自动计算。
      最后一个是柔性自动计算模型,它的特征是应用对象不明确的,流动成不固定的,而且数据结构是可变的,代表我输入的数据存在非常大的变化,这种变化里面各种设计就不再是很单纯的一个统计模型可以解决的问题,它的很大的幅度必须要配合到很多属于IT技术的问题。
      比如我们讲零售业,是闽台真实的资料,它只是一个交易资料,取得方式因为闽台的发表非常普及,任何人买东西都有小票,每一个人都是要扣税,这个发票为了鼓励全民用发票,让这个发票可以兑奖,所以你为了兑奖就愿意向厂商索取发票,一索取每两个月兑奖一次非常麻烦,我们就开了一个手机APP,只要拍电子发票二维码,就可以看中没中奖,去刷二维码看有没有中奖是很简单的自动计算,重点是取得他在哪里买的东西,买了多少这样的信息,单价多少这样子。
      它的UID没有个人身份识别,但是一个APP有一个手机号绑定。另外每一家门店用的产品名称都不一样,我们要先写一个算法把它匹配出来,比较厉害的是我们判断这个人的家里有什么人,比如家里有没有女生,或者他是不是女生,家里有没有老人,有没有养宠物,有没有买车这样的东西,这是一个简单的模型。这是我用函数写的,我去呈现他家有女性,而且是年长女性的概率是多少,然后按概率排出去,我们就可以马上算出来这些数据里究竟哪些人是满足条件的,可以把概率算出来。比如她经常买包大人尿片,那就是一个年长女人,她经常买苏菲,那肯定是一个女人,他经常买奶粉的,家里有宝宝,就类似的。你要自动选择统计方法,把模型找出来,我们做完这些就可以生成报告,你要选择一些自动分析的统计模组有很多常规的规则在背后,简单讲整理出来把它实现出来这样子。
      谢谢大家。
    

    http://hbcpda.cn.b2b168.com
    欢迎来到石家庄普翔人力资源有限公司网站, 具体地址是河北省石家庄桥西区*大街88号翰林观天下22号楼715室,联系人是陈士伟。 主要经营我们公司是cpda河北授权中心,7月25号开班,报名从速。。 单位注册资金单位注册资金人民币 100 万元以下。 你有什么需要?我们都可以帮你一一解决!我们公司主要的特色服务是:cpda,项目数据分析师,数据分析等,“诚信”是我们立足之本,“创新”是我们生存之源,“便捷”是我们努力的方向,用户的满意是我们较大的收益、用户的信赖是我们较大的成果。