中文·English

大数据论坛

2016年11月17日 地点:垄行厅

  时间:2016年11月17日14:30-18:00

  地点:垄行厅

  议题:大数据论坛

  【2016-11-17 14:48】

  主持人:尊敬的各位专家、各位来宾、各位朋友,女士们、先生们,大家下午好!欢迎大家来到美丽的乌镇,参加第三届世界互联网大会大数据论坛。我是中国科学院办公厅副主任高春东,很荣幸由我担任本次论坛的主持人。

  主持人:大数据论坛是第三届世界互联网大会“互联网创新”专题的重要组成部分,也是首次由中国科学院主办的世界互联网大会专题活动。本次论坛由中国国家互联网信息办公室和浙江省人民政府指导支持,中国科学院主办,中科学院信息工程研究所承办,数据中心联盟协办。

  主持人:本次论坛邀请了国内外著名专家、学者和企业家,围绕“大数据的发展与安全”这一主题,从大数据技术发展展望、大数据安全风险及防控、大数据产业发展与行业应用三个角度,进行广泛和深入的研讨。相信本次论坛对大数据技术和产业发展将有一定的促进作用。

  主持人:出席本次论坛的嘉宾有:图灵奖得主、卡内基梅隆大学雷伊·雷蒂教授;澳大利亚科学院院士、工程院院士、墨尔本大学饶·寇他科里教授;中国工程院院士、中国科学院计算技术研究所倪光南研究员;中国科学院院士、中国科学技术大学常务副校长潘建伟教授;中国工程院院士、中国银联股份有限公司执行副总裁柴洪峰研究员;中国通用技术研究院学术委员会主任黄殿中先生;浙江省委常委王新海先生;中国科学院秘书长邓麦村研究员;另外,还有来自国内外学术界和企业界的嘉宾朋友们。首先,请中国科学院秘书长邓麦村先生致辞。大家欢迎!

  【2016-11-17 14:52】

  邓麦村:尊敬的各位专家、各位来宾、各位朋友,女士们、先生们,大家下午好!欢迎大家来到历史悠久、粉墙黛瓦的浙江乌镇,参加第三届世界互联网大会大数据论坛。在这里,请允许我代表本次论坛的主办单位中国科学院,向远道而来的各位嘉宾、各位朋友表示热烈的欢迎!向论坛的指导支持单位中国国家互联网信息办公室以及浙江省人民政府表示衷心的感谢!

  邓麦村:当前,以信息技术为代表的新一轮科技革命方兴未艾,信息技术与经济社会发展深度交汇融合,数据迅猛增长成为重要的基础性战略资源。大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要而深远的影响。如何突破大数据关键技术,如何运用大数据推动经济发展、完善社会治理,如何在推动大数据发展的同时确保信息安全,已成为世界各国和各行各业普遍关注的热点问题。本次论坛以“大数据的发展与安全”为主题开展研讨,就是希望能对相关领域的技术和产业发展有所促进。

  邓麦村:中国科学院作为中国自然科学最高学术机构、科学技术最高咨询机构和自然科学与高技术综合研究发展中心,按照国家经济社会发展和科技创新总体部署要求,秉承“三个面向、四个率先”的办院方针,一直重视大数据基础研究和技术攻关,以及科学大数据的开发利用。邓麦村:在大数据前沿技术研发与应用方面,为应对终端接入规模、海量数据处理性能、能耗和安全等四大挑战,中国科学院于2012年启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,组织二十多个研究所的科研力量协同攻关,现已形成以人工智能芯片“寒武纪”、代数处理器芯片、深度可编程网络、三元融合安全技术、海云大数据系统等为代表的一系列原创性成果,在智慧城市、社会治理等领域得到了成功应用。

  邓麦村:在可信大数据技术、大数据安全通信、大数据访问控制、身份认证授权等大数据关键技术上,以及量子通信技术上已取得重要突破,成为国家大数据安全领域的中坚力量。同时,在数字地球、全球变化、高能物理、基因组计划、深空探测等领域,利用大数据技术驱动科技创新,也取得了一些重要成果。

  邓麦村:在科学大数据积累与应用方面,上世纪70年代,中国科学院就开始建设专业数据库。经过几十年的持续部署和推动,中国科学院现已建成服务全国科技界的“中国科学院数据云”,整合了各学科领域的1340个数据库资源,共享数据达655TB,年均在线访问超过千万人次。此外,中国科学院的网络安全工作也得到了行业主管部门和业界同仁的肯定。

  邓麦村:按照《中国科学院率先行动计划》和《“十三五”发展规划纲要》,未来一段时间,中国科学院将在大数据领域加强相关基础科学问题研究和软硬件关键技术开发,继续引领国家科学大数据建设,为国家大数据发展和大数据安全保障体系建设作出应有贡献。

  邓麦村:借此机会,我愿向大家提三点倡议:第一,推进大数据基础研究和技术攻关。大数据的快速发展提出了许多新的科学问题,仍有很多关键技术亟待突破。我们应深入开展数据科学研究,在大数据理论、方法及关键应用技术等方面进行探索,不断提升数据分析处理能力、知识发现能力和辅助决策能力,形成安全可靠的大数据体系。

  邓麦村:第二,加强大数据专业人才培养。发展大数据,人才是关键。大数据的快速发展对专业人才提出了非常急迫的需求。我们应创新人才培养模式,建立健全多层次、多类型的大数据人才培养体系,重点培养专业化数据工程师等大数据专业人才,大力培养具有统计分析、计算机技术、经济管理等多学科知识的跨接复合型人才,积极培育大数据技术和应用创新型人才,注重培养网络信息安全专业人才。

  邓麦村:同时,还应依托社会化教育资源,广泛开展大数据知识普及和教育培训,不断提高社会整体的认知和应用水平。

  邓麦村:第三,深化大数据国际合作交流。大数据的快速发展给世界各国都带来了共同的机遇和挑战。我们应坚持平等合作、互利共赢的原则,建立完善国际合作机制,积极推进大数据技术的交流与合作,充分利用国际创新资源,共同促进大数据相关技术和产业发展。

  邓麦村:中国科学院愿意同国内外同行和社会各界朋友一起,在新一代信息技术和服务业态蓬勃发展的浪潮下,共同为大数据发展与安全贡献力量!最后,再一次对国内外同行和社会各界对中国科学院科技创新工作的支持表示衷心的感谢!

  【2016-11-17 15:02】

  主持人:感谢邓麦村秘书长的致辞,接下来请图灵奖得主、卡耐基梅垄大学机器人研究院创始院长雷伊·雷蒂教授,以“人工智能和大数据服务社会”发表主旨演讲,大家欢迎。

  【2016-11-17 15:20】

  雷伊·雷蒂:大家下午好!我今天下午发言的题目是“社会服务中网络驱动的人工智能和大数据应用”,这一届的世界互联网大会的主题考虑进去之后,我其实把我的题目已经变长了,原来没有那么长,就变成了“社会服务中的网络驱动的人工智能和大数据应用”。

  雷伊·雷蒂:也就是说未来社会的发展,会有更多的大数据、AI方面的应用。但是如果我们没有高速的网络,所有的一切都是白搭。而高速的网络,如果我们没有计算机能力的指数级的增长,又是不可能实现的。每十年我们就会有100倍的增长,在过去的50年当中,我们应该是100的五次方,以这样的数级每年在增长,所以你想100的五次方,是怎样一种指数级的增长?

  雷伊·雷蒂:不是说我两倍三倍还是百分之多少,而是指数级的增长。所以我今天想跟大家说,如果没有这样的增长,我们就不可能实现所有互联网的一切。

  雷伊·雷蒂:我要跟大家分享的不光是说企业的精英、社会的精英,而是世界上的每一个人给我们带来互联网领域的机会。我会给大家讲一些大概的主题,首先很大的一个主题就是互联网,互联网已经有50岁了。阿帕网络诞生于1968年左右,1977年的虚拟网络,互联网诞生于1977年左右,互联网50年来飞速的发展,主要归功于什么呢?

  雷伊·雷蒂:就是它的指数级的增长数据处理效率内存带宽都指数级的增长,高速的互联网推动了人工智能、机器学习、大数据分析的发展,催生了各种各样的服务。而所有的技术和大数据的发展,让我们可能去做金字塔底端的低层人群都能使用的全社会性的数字应用。

  雷伊·雷蒂:接下来跟大家讲一下30年来计算效率、计算能力增长了数以百万倍,就是指数级的增长。在过去的30年当中,计算效率增长了数以百万倍,这些增长源于每一个个人电脑,每一个工作站,微型计算机。我们期盼未来30年有新的重大的突破,让每一个人都拥有带宽、内存、计算效率的变化,而且花费比一杯咖啡还低的费用。

  雷伊·雷蒂:这张图给大家看一下计算机的增长,从1900尤其到四十年代之后,到现在的2011年,其实是我们人类领域计算能力增长的一个急剧上升的阶段,我们看百万级的增长是什么意思呢?计算效率也以百万级别的增长,另外要给大家看一下硬盘的容量的变化,比如说我1972年我可能要花一百美元才能买到40G的储存容量,现在你买一个40G的容量,是不是100美金都不需要?

  雷伊·雷蒂:就是百万美金到一百美金这样的变化,每15个月硬盘的容量就会翻倍,光纤革命甚至每天都在发生。也就是说每一个人,比如说每一个手机以后有1T的容量很快我觉得是没有问题的。我们每光纤以后可以达到怎样的数量呢?

  雷伊·雷蒂:100、200、250的带宽已经非常的让人惊讶了,而且在接下来的五年、十年、二十年当中,增加的速度会更加的快,更加的惊人。大家要做好准备,所有的公司所有的企业都要准备好这一切,我给你100G的速度,你做什么?

  雷伊·雷蒂:给大家看看我们有了大数据,有了人工智能深度学习的突破,可以做什么?它可以催生金字塔底层人群使用的新的应用程序,这个非常非常重要。我们看一下金字塔,在过去的30年当中计算的效率增长那么快,让底层的人群有可能使用新的应用程序。世界上大家都没有意识到有这么多的人,其实是属于底层。有30亿的日收入低于2.5美金金字塔底端的人群,他们几乎是半文盲,不能阅读写作,也不能读写任何的语言,不会使用键盘,不会使用触屏计算机,如果是半文盲,沟通的唯一途径如果是讲话的话,你没有键盘,没有触屏,什么东西都没有。

  雷伊·雷蒂:你想象一下,沟通通过什么途径呢?你跟同事怎么沟通?当然是说话、讲话。我们未来跟计算机也要进行这样子的互动,非常直接的你就像对待一个人一样,对待你的电脑,你不需要去触屏,不需要打键盘跟它互动,你的电脑就像一个人一样,就是一个人,你跟它进行类似于对人一样的互动,这是一个电子人。你想,电子人它不是人,如果你要能够读懂一个电脑的话,你现在需要一个很受教育的人,而未来如果它是一个电子人一样,就像一个真正的人,有一样功能的话,世界上所有的人民都可以使用计算机了,这就是人类巨大的一个进步,可能在中国网络的普及率还是非常高的,但是大家要记住,世界上还有很多很多人,是没有使用电脑,是买不起日常生活用品的。他们还在贫困线下挣扎,你想每天生活的水平低于1美金的话,这样的人怎么可能去买电脑呢?

  雷伊·雷蒂:30亿人是什么样一个概念?他们每一个人只要花一美金的话,那就是30亿的容量。所以我今天的话题就是语音处理。互联网通过人工智能和大数据应用能够帮助30亿金字塔底端的人民。云处理到底可以做什么呢?我们连接之后,有了互联网可以做什么?可以娱乐,可以网上购物,网上购物是文盲的人很好的一个计算机应用,他们用的东西,如果他们想要,但价格很高,那就买不到。但是如果网络购物对他们来说变成现实的话,那你就有了一个万亿的新市场。但是他们没法读写。你要记住,他们怎么上亚马逊、上淘宝去买东西或看所有的信息呢?这里就是我们可以进行革命的地方了。我不用去亚马逊,比如说我有钱,我看不懂字,没关系,我让我的助理去买一样东西,去任何地方买一个东西,但是如果我们的计算机可以实现这一点的话,我不需要我的助理一个人去做这样的事情,我可以让我的计算机作为一个电子人去帮我变现这样的事情,甚至可以在全球的范围内进行购物。

  雷伊·雷蒂:如果技术可以在他们平民身上进行应用的话,甚至说英语这件事情,比如我在这儿说英语,机器可以帮你翻译成中文,而且用非常简洁的英语告诉你是什么意思,在2012年的时候已经实现了英汉互译技术,但是实时进行笔译,已经实现了。但是还有没实现的是什么呢?就是我们有很多很多的孤语,非常小的语种,可能一百万人讲这个语言的人口都不到,所以说是非常小众的人。这个事情现在还没有做,这个市场现在还是空白的,如果我们可以实现语音到语音的翻译,比如说从定语的语言翻译成本地的语言,这会给你提供很大的市场。

  雷伊·雷蒂:没有一个公司能为研发小语种应用投入大量的资金,我们需要做什么呢?我们不可能比如说很小很小的语言,比如说广东话、上海话,本地的方言,你要去识别,是非常重要的,现在还没有人做。这一点完全是可以实现的,如果我们有了这样一个技术,我们要做语言的研发和翻译,那么可以一起来做,我们最重要实现的是不需要触摸键盘,不需要电脑触屏就可以实现,我们就要考虑到政府的合作,很多底层人民的需求。下一个案例跟大家讲的信息是叫认知增强器和安全护卫天使,因为因特网带来人工智能和大数据的应用,这里面比如说可以非常的智能,并且保护你。这个就是我们说过的数据,现在慢慢的收集起来就应该利用起来造福社会。比如说你可以根据天气的原因,或者你睡眠的原因,睡眠的深度来决定你的手机要不要叫醒你等等,我们希望这些应用可以深入到我们的日常生活。

  雷伊·雷蒂:这里我举两个例子,一个叫认知增强器,什么意思呢?比如说我们到银行说我要付账单,那你去银行付了账单,这是你必须要做的这件事情。但是我的意思是说,如果你在家里,网上做这件事情,你想我没有时间去银行,你就叫你的助理去做这件事情,那么如果以后的认知增强器就像这么一个小助理的话,你必须要做这件事情,在一定的时间内。你必须要完成,你就可以让你的电脑去完成你本来可以做但没有时间去做的事情。

  雷伊·雷蒂:我本来想给大家讲一下架构的问题,很多程序是具有学习能力的,学习能力哪里来呢?来自大数据,手机的大数据,这些大数据不是给我用,而是给每一个人所有的大众都可以用。比如说亚马逊,你要去买一个电脑来看。那么有一些比如说底层人民我还不知道怎么样在网上付这个账单,如果你不需要这么一个交易的过程就可以完成账单的支付,你需要叫一个人支付,这是一个未来的增长潜能。如果机器有学习能力,你就不需要让程序员再去写一个新的程序,而是机器可以跟你直接进行互动。因为它有学习的能力,这个就叫深度学习,这个是我们未来发展的方向。

  雷伊·雷蒂:未来几十年我们相信会有新的重大的要素突破,带来计算效率的有几万倍的增长,从而使相同成本情况下效率达到更高,相同成本情况下成本变得更低。个人的数据已经被政府和企业收集在安全的范围内将数据进行分析即刻义得到合理的分析,寻找他们的规律通过纠错进行学习,通过阐述来学习。每个人都能获益于语音人工智能的助手深度学习机器学习是我们未来的趋势。就像你的助理在你身边学习你做的事情,并且帮你代理一样,机器未来就可以通过计算大数据来做这些事情。谢谢。

  【2016-11-17 15:34】

  主持人:谢谢雷伊·雷蒂教授,让我们再一次用热烈地掌声对雷伊·雷蒂教授精彩演讲表示感谢。接下来有请中国工程院院士、中国科学院计算技术研究所研究员倪光南先生,以“大数据在电子政务中的应用实践”为主题演讲。大家欢迎!

  【2016-11-17 15:35】

  倪光南:大数据很多人说大数据是财富,这里我们说把它作为生产力,生产力肯定能够产生财富,但是生产力是不是比财富更合适?因为一些经济学家告诉我们,生产力是最基本的,生产力决定生产关系,至少有一些经济学家是这么说的,今天的理论是这么说的。所以我们把大数据作为生产力,可能比大数据作为一种财富更好、更全面一点。我们强调大数据生产力,会推动生产关系的发展,推动社会的发展,当然会创造无穷无尽的财富,供大家参考,我们喜欢说把大数据作为生产力,进入大数据时代意味着进入了一个新的生产驱动时代,所以将来对于我们整个思维的发展将会造成很大的变革。

  倪光南:大数据的四种能力,或者说大数据的四个价值。第一个是融合Fusion。当然包含了集成,集成意味着数据的物理上的聚集,量的聚集。这里更加强调的质的变化,当而数据汇聚起来融合以后,它的价值会更加提升,远远比原始数据简单的算术相加要多。所以我们用了融合的意思,在中文上融合可能把它理解成汇聚加融合,就是数量和质量的提升,是大数据给我们提供的能力或者提供的价值。

  倪光南:第二,云计算Cloud。当大数据达到这样大的量的时候,你要迅速的利用它,在我们需要的时候随时能够利用,传统计算架构已经不适用了。这时候应用的是Cloud而云计算,云计算提供这种能力,对于大数据相适应的,云计算是为大数据而生的,或者说大数据和云计算相辅相成,两者之间互相推动,应该说互相促进,是一个非常典型的例子。

  倪光南:第三,Insight,意思是我们可以说明察秋毫,当你有了大数据,世界万物的关系你可以分析出来,很多人说我们不在意什么因果关系,我们在意的是关系。谁和谁能够够相关性,不管怎么样,我们有了大数据,直到世界万物之间可以发生过去没有想象到的,过去我们在商业上面啤酒和药物之间发生关系了,现在我们大数据会结合一些新的规律,人类可以发现一些新的规律、新的原理或者新的科学的创造。毫无疑问,通过理论分析,通过计算机到大数据,这是万物之间关系的方式。

  倪光南:第四,预见性。Foresight大数据给我们一种预示性,可以更进一步。我们预测到将来什么时候会发生什么事情,非常有可能发生一些什么事件的预测,可以通过语境分析可以预测时间上的推进。这四个要求、四个价值、四个能力是大数据给我们的,以前是没有的,对我们非常有意义,对政府做科学治理体系的建设非常有价值。

  倪光南:政府利用大数据来做信息建设,这里是用一个部委,某一个部委,可能有相当类似,从顶层到中央政府到地方一直到基层,一个部委的信息化的建设,作为一个中央的部委,他将会命令一个什么要求,达到什么目的,大致上有相当的普遍性。底层我们要对待的是什么呢?四大块。第一块毫无疑问,大量的数据,你将要面临的一个部委的数据,我们知道比如说中国从地方来讲,应该有200多个地级市,2800个县镇乡,我们相信中国部委的信息化大数据系统难度要比目前世界上任何国家的信息系统或者电子政务系统更难。

  倪光南:第二,我们是一个异构,因为与历史的关系,我们不可能在现在作为一个新的系统,我们是要集成历史上的信息系统。这些数据,这些信息系统可能是不同时期做的,不同公司的,很多公司的,所以你发现异构是相当清楚的,是完全不同的异构系统,你要把它融合起来,是一个很大的挑战。

  倪光南:第三,应该是部门上的保护,各个部门之间很难融合。此外还有地级,毫无疑问,东南西北不同的地区差别都很大,而且地理位置的差异,这是我们面临的挑战。我们要做一个电子政务大数据,我们未来要达到什么目的呢?根据三个需求,我们要把它汇聚起来、集成起来、融合起来,就是刚才说的意思,我们要把这些信息大数据资源融合起来;日常工作。审计、监管,政府部门要做这些事情,我们大数据是用来支撑当前工作,使它更有效地完成得更好;这可能以前做不到,现在可以做到,如果大数据我们可以有科学决策。一个政策将会产生什么效果?应该可以预测,可以看到这是可行还是不可行,包括怎么改进。这是对于政府的科学决策,给予科学的工具来支持。所以我想大概无非是这几个地方比较重要,我们分别来讲这三块。

  倪光南:第一块融合是很难的地方,当你要建造一个信息系统,你不能把政府工作停下来,因为信息化你能说我这个部门关掉,等我两年以后做好了再开吗?不可能。每天还要继续工作,不可停顿。第一业务是不可以停顿的,信息系统必须在保证正常工作情况下进行,所以这是采用什么对策呢?其实我们要把数据的获取的手段用一种很巧妙的方式,在它运作的时候,我能抓取它,不是停下来我把它拷贝下,把政府的数据库清理出来把数据拿过来不行。政府照常工作,在政府运营的工作中谁去抓取数据,这套办法就是这个例子,具体操作上大家知道怎么做数据库,不断地提取,不影响你正常工作,这是第一个挑战。

  倪光南:第二块,所有的政府部门是遍布全国的,这个比较简单,实际上采用的在中国的网络,也是有几家运营商,我们要谈合作一起做,并行的做。这个基本上可以想像代价多一点,此外比较难的,我们知道数据结构,就是因为历史上这些数据都不是一次建的,不同厂家,不同规格这个是很难的。比如说面临的数据,我们知道你可能是不同的结构,你的数据库不同厂商,你的资源定义是不一样的,你的数据模型是不一样的。所以当你要用一个数据的时候,你会发现在这个数据库要用,用这些方法收集组合,但另外一个又是完全不同的。这里提出了智能的数据切片,实际上用一种相当于影射,没有一个地方我投影投到一个地方,不同的数据库投到另外的投影,最终效果一样,最终是新的办法解决。最后我们的数据我们知道并不是很好的,有的数据很多垃圾,不是很合理的,你需要用一些很灵活的模型,各种演化的方法不断的改进。

  倪光南:我们看到最后的效果,用这样的方式我们支撑了1700个服务器,遍于全国的1700个服务器支撑这个系统。大量的数据在200个城市里能够有3个PB的数据,但是我觉得大概一年无非增加1是个PB,不断增加,而且大概覆盖到98%,还是相当大的覆盖。应该说是一个足够大的规模,这是目前的效果。

  倪光南:刚才讲未来满足监管审计的要求,相对来说比那个简单一点,我们知道原来上报数据,就是给领导上报,比如一星期我们知道每个部门不一样,一周也有,半个月也有,一个月也有。现在来讲就可以自动实时上报,不需要报表,实时的可以从系统里抓取你的数据。过去政策性很难保证,现在没有问题。以前你很难知道它变化,现在是实时数据,这点没有问题,现在可以有权限地分配,更加合理的应用,这个大家可以想象,有这样的数据信息系统以后对于信息监管毫无疑问有很大的影响。

  倪光南:达到的效果这里讲的10秒,可以在10秒钟把任何的数据提取出来,这对于管理来讲有很大的效果。此外我们知道所有的历史变化你也可以得到。而且我们知道权限可以明确地分配,就是谁可以获取哪些数据,这个是很重要的,不同的权限可以看到不同的结果。包括系统管理应该是看不到重要的数据,这个是需要有很好的权限分配,这是效果,这是当前管理效果。最后是我们对预测的效果。过去这种信息系统是大数据系统所做不到的,我们希望未来要实现过去信息孤岛的问题,现在我们已经通过融合的手段可以把数据统一起来,使整个的权限数据可以互联互通,另外我们过去来讲历史数据不一定有,今后的历史数据应该永远发展下去,永远保留下去。过去有一些东西会删掉,现在这些会不断地积累下来。此外,过去的数据会滞后,现在可以动态的实时分享,业务也可以联系起来,综合业务决策不是单路的决策。谢谢大家。

  【2016-11-17 15:48】

  主持人:谢谢倪光南院士,我们再一次用掌声对倪光南院士精彩的演讲表示感谢。接下来有请澳大利亚科学院院士、工程院院士,墨尔本大学终身教授饶·寇他科里先生,以“大数据分析的前沿技术”为主题进行演讲,大家欢迎!

  【2016-11-17 15:56】

  饶·寇他科里:首先我来讲一下笼统的概念就是深度学习以及它的应用,什么是最先进的深度学习,那就是用最先进水平的技术可以非常稳定的来采取数据来实现人工智能来解决一些人工智能的问题。比如说进行自然语言的加工,李世石已经被谷歌的AlphaGo打败了,它就成为世界上最厉害的围棋手,这个是非常典型的深度学习的典型象征。我相信在未来的几年过程当中,我们就可以用系统来进一步的开发,我们都知道谷歌的Alphago它是怎么样的一个神经网络呢?

  饶·寇他科里:这个是他们背后的逻辑,也就是说我们理解背后的逻辑以及语言的网络,最后可以用在我们的其他的成功案例过程当中。这个就是我们所使用的最典型的一个架构,这个架构看到了一些图片的处理,语言的处理、语音的处理等等,还要基于问题处理其他的东西,不光是图片、语音,我们需要有识别,我还是给大家看一些挑战,我们有什么样的挑战呢?我们叫把它叫做ILSVRC,就是说一个图片,它在大规模大范围视觉认知的时候,会遇到各种各样的挑战,比如说你看到这个图片,你去摄影它的时候需要对象识别,这个图片到底是告诉你这是一只鸟还是一只青蛙,这个地方就会有难度,所以你需要有对象的定位,所以这就涉及到对象的识别和定位,这个图片也是。到底是一个人一条狗还是一个椅子?这个就是计算机识别的基准,我们遇到大规模视觉识别的挑战。大规模视觉识别挑战,还有这样一个统计的数据,就是最难的五个图象处理,ImageNet方面的五大错误,这个错误率当然是一年比一年降低,而且降低的速度也是非常非常快。

  饶·寇他科里:到2014年,我们基本上已经把错误率降到很低很低的,到了2015年,现在计算机已经跟人眼所识别到的东西水平是完全一样的,这就是我们神经语言网络可以帮我们做到的水平。当然人类还需要更多的东西,比如说图象字幕的抓取,这也是我们想做的一件事情。

  饶·寇他科里:另外一个案例很有意思,两个图片,比如说下面一个,你给他下面一个图片,然后机器会给你一张很漂亮的图片,就是右边的这个。另外一个机器学习的案例呢,就是你给它两张,一张照片,一个花图,最后出来一个非常漂亮的图片。其他的也一样,这也是我喜欢的图片,马和面条结合出来这么有艺术感的图象。这个就是我们了解的神经语言网络,最后出来了这么一个特征图,也就是说它会把这些图片的特征都有机的,或者用艺术的感觉把它连接在一起。

  饶·寇他科里:这个就是深度学习的应用,包括计算机的视觉,包括标注、计算机、无人驾驶汽车这里面都是需要用到计算机视觉,比如说你把我的名字输进去以后,给你各种各样我的图片以及我这个人涉及在一起的各种各样的图片。自然语音加工是深度学习应用的另外一个案例,然后是现场翻译,我觉得现场翻译亚马逊翻译等等,以后都是可以实现的,包括大城市的数据,车辆的数据等等。

  饶·寇他科里:接下来,给大家讲一下对抗性样本和无法识别的样本。神经网络易受的干扰就是对抗性的噪音干扰。比如说这里面有123456789,如果你加进去一些肉眼看不到的声音进去以后,最后一模一样的图片出来的数据,就变成了6332931这样的,完全不一样的数据。其实这个数据还是123456789,也就是说有一些声音,虽然我们人是完全感知不到的声音,而这些声音输入到机器当中,计算机会非常非常的敏感,会干扰它对图象的识别。这个就是机器所敏感的噪音,另外我们还做了一个随机大容量噪音,随机大容量噪音不是非常细微,而且大家都一样,在每一个数据上面都加入了大容量的随机噪音,出来的结果影响并不是很大,只有一个数据错了。

  饶·寇他科里:再比如说,我们看所有的图片,大家看这个图片,它会识别出来的时候都是蘑菇,如果加了噪音以后,识别出来的结果会不一样,所以声音对图形的识别是很有意思。我们加入过程当中,我们怎么样去做对抗性的干扰,对抗性的声音?对抗性的声音我们用的是分类器,我们用不同的每一次识别的时候,我们都输入X,它的矢量也会不一样,对抗性和概率也是不一样的。

  饶·寇他科里:最后这个问题,是通过梯度下降实现噪音的对抗性干扰。对抗性干扰,样本的属性应该是非常特别的,刚才我说到的普遍性,就是需要用这样的分类器和基本的线性模型和良好的训练。它的概括性和普遍性是可以通过我们的干扰来实现的。不管你做什么,他们都必须要非常得小心,我们要有很多很多的技术,这个比较专业。比如说基本信息模型,良好的训练分类器等等,抵抗力方面,我们需要正规化,需要降噪建筑,需要对抗性的训练,还有同时发声、共振等等。还要进行一定的预处理,比如说低通滤波器,有源探测等等,普遍性的应用是刚才汽车的例子,这个概化属性的案例比如说语意解释,是像这样的图片过程当中,我们在这个图片的输入过程当中加入噪音,让机器变得疑惑,这个到底怎么样,它会退出来。对抗性的样本是数据部分固有的,是固定任何模型的。说到无法识别的样本,机器跟人最大的区别,就是我们觉得没有问题的东西它会觉得无法识别。这些东西到底是什么呢,需要输入一定的干扰才能够识别。

  饶·寇他科里:最后这个问题,是通过梯度下降实现噪音的对抗性干扰。对抗性干扰,样本的属性应该是非常特别的,刚才我说到的普遍性,就是需要用这样的分类器和基本的线性模型和良好的训练。它的概括性和普遍性是可以通过我们的干扰来实现的。不管你做什么,他们都必须要非常得小心,我们要有很多很多的技术,这个比较专业。比如说基本信息模型,良好的训练分类器等等,抵抗力方面,我们需要正规化,需要降噪建筑,需要对抗性的训练,还有同时发声、共振等等。还要进行一定的预处理,比如说低通滤波器,有源探测等等,普遍性的应用是刚才汽车的例子,这个概化属性的案例比如说语意解释,是像这样的图片过程当中,我们在这个图片的输入过程当中加入噪音,让机器变得疑惑,这个到底怎么样,它会退出来。对抗性的样本是数据部分固有的,是固定任何模型的。说到无法识别的样本,机器跟人最大的区别,就是我们觉得没有问题的东西它会觉得无法识别。这些东西到底是什么呢,需要输入一定的干扰才能够识别。

  饶·寇他科里:我们的结果是蓝色的这一部分,大家看Epochs,数据可以学习的周期,,可以学习的数量越来越大,学习成本会越来越低,错误率会越来越高,蓝色的就是错误率的降低。当然我们会有一些比较危险的,你输入太多噪音干扰的话,会有一定的风险。我们看到Net1和Net2,Net1是生成噪音的地方,Net2是我们的目标系统。我们看一下稳定性、稳健性,以及怎么样对抗这些样本的稳定性,我们也可以看到输入一定的噪音干扰之后可以降低三分之一的错误率,这个就是神经语言网络学习,当然大家需要去理解这些理论,我们如果知道背后的理论才能够进一步的利用它,减低错误的机率。我们在实验的过程当中,也发现了随机系统是非常稳健的,可以做到非常高度的随机性,99%的随机性,可以看到神经系统随机语言可以达到百分之百的随机性。在整个系统的稳定性方面,基本上可以达到90%的提升。接下来会做什么呢?我们用随机投射,进一步利用到回界回脑的架构当中,我们会继续利用这一点,然后是对抗性的扰乱或是干扰。谢谢大家。

  【2016-11-17 16:00】

  主持人:谢谢饶·寇他科里教授。接下来有请中国科学院院士,中国科学技术大学常务副校长潘建伟教授,以“新量子革命:用于更安全和高效的大数据分析”为主题的演讲,大家欢迎!

  【2016-11-17 16:44】

  潘建伟:很高兴能够参加今天的论坛,我的话题是新量子革命或者量子飞跃,为了能够更加安全和有效地进行大数据分析,我们为什么需要大数据分析,刚才几位非常杰出的学者都做了比较好的阐述。一方面从各式各样的资源进行数据收集的时候,我们是需要有互联网的安全性,希望数据能够被安全的收集。同时我们采集到数据之后,希望也能够对数据进行有效的挖掘,我们需要很强的计算能力。

  潘建伟:但是在这些事情当中,我们有几个挑战。第一个就是互联网的安全性,其实我们在服务器的终端,在我们的信息的传输的过程当中,和服务器当中都存在着各种各样的漏洞,所以都有一种潜在的威胁,觉得我们的信息有可能被泄露。但是为了解决这个问题,我们可以用加密的算法,比如说通过身份认证来确保用户的合法性。同时在传输的过程当中,通过对数据的加密来保证信息不会被窃取。与此同时也通过数字签名,可以比较好的保证我们的数据在传输的过程当中不会被篡改。但是在所有的传统做法当中,都是依赖于加密算法,通常加密算法是依赖于计算的复杂度算法。我们把全世界的计算能力收集起来看一下,要对某个数据库进行搜索的话,它只能对一个2的80次方数据库进行搜索,密码破解的时候,我们在收集的过程当中,破解的能力是非常有限的。

  潘建伟:非常有意思的是,量子力学从前是为经典技术提供非常好的方案,我们芯片各种各样的期间有赖于量子力学的发展,量子力学研究的本身,也为了解决刚才所讲到的这些问题提供了可能性的解决途径。

  潘建伟:具体的来说,运用了量子力学的基本原理。我们都知道,在量子力学里面,我们说比特可以用一只猫的死和活两个状态来看,比特在微观世界里面,在物理上怎么来实现呢?我们可以用光子的极化,比如说电磁波在真空当中传播的时候,沿着水平的偏正,未知的量子态是不能被精确复制的,这是这个定理告诉我们的。

  潘建伟:比如说利用所谓的当光子不可分析性,单光子一颗一颗的,对于量子不可克隆的定理,如果存在窃听者,这个方法是不能做的,只能进行复制或者测量。测量完之后就会引入噪声,就会觉察。用这样的方法,在两个之间建立安全的密钥,这样的安全的通信方式是依赖于物理学的基本原理,而不是依赖于计算的复杂度。这样的话,我们就能够保证由物理学基本原理所保证的互联网的安全性。与此同时,当我们利用量子纠缠的概念,拓展到很多粒子的时候,我们就可以涉及一些特殊的量子算法,利用量子叠加原理,我可以分解一个300位大数,目前的ClassicalTHz15万年,用量子的1秒钟就可以了,从这样的角度讲,量子的计算功能是比较强大的。

  潘建伟:还可以举另外一个例子,在求解方面,利用目前最广的太湖之光,相当于100个24个方的线性方程组100年左右,用量子计算机需要0.01秒完成了。但是真正的把这样的机器研制出来,我们还是需要比较长的时间,所以目前对我们物理学家来说,我们主要的精力是集中在量子模拟上面。利用这样可控的量子系统,我们可以来计算一些目前的每天的计算机所算不了的事情。比如说可以来求解一些方程,专门求解高温超导里面的机制或者霍尔方面相关的研究,这是我们这个领域里面的一些基本原理。

  潘建伟:总体上来讲,目前我们估计上正在做这么一件事情,就是说为了实现这么一个大尺度的LargeScale,首先用光纤构建各种各样的网,这个技术是比较成熟的。同时利用所谓的Scale将各个城市之间连起来,两个连接起来会比较有效,到了更广的时候来实现广域的LargeScale。有了这些事情以后,我们可以比较好的来做未来的一些发展。目前在我们中国,比如说我们已经在2012年的时候,已经能够相关的技术覆盖到6000平方公里的来支持千节点、万用户的相关需求了。这么一来,这样的系统目前比如在北京,已经投入永久使用了,来进行一些相关的安全的使用。除此之外我们目前也在构建所谓的北京到上海之间的量子通讯网络,就是骨干网络,骨干网络昨天正好是上海到合肥之间所有的设备开通了,昨天正好在国际会议上给国外学者做相关的展示,这是700公里光纤,这个到今年年底也会完全开通,开通之后可以用于一些银行的转账等等。

  潘建伟:另外我们也在开展一个相关的工作,是跟量子卫星紧密结合的,我们其中的主要任务,希望能够实现一个高速率的,卫星和地面之间的密钥的分发。我们在今年的8月份,量子卫星正式发射之后,已经开展了相关的实验。相关的实验,我们在星龙地面站,这是我们卫星的轨迹,这是我们地面对天上进行跟踪,我们曝光是5到10秒钟,天上的信号是完全可以看到的,点就变成一条线了,到目前为止非常好的建立了天地之间的链路,目前的速率大概每妙钟传输的密钥是在20000个左右,所以基本上可以满足一些安全信息传输相关的需要。

  潘建伟:在量子计算方面,因为我们目前很难想象计算机到底是一种固态的?还是业态的?还是气态的?大家都不清楚,相当于从前我们讨论说我告诉你有一台有非常好的算法能够算的很快,大家会问你你这个计算机到底是用珠子玻璃做的?还是竹子做的?还是木头做的?经常会问我们将来的计算机到底是用原子做的还是什么做的?目前回答这个问题还太早了。目前我们这个领域有用离子的、光子的、Cavity-QED等各种各样的系统,我们来进行相关的研究,希望能够找到一种适合于进行量子计算的体系,在这个过程当中,我们有几个任务是需要完成的。

  潘建伟:第一个需要能够对量子的状态进行高精度的支配和操纵,能够让它有很长的存储和相关时间。如果计算都还没计算完,如果就死掉了,那你就很难获得正确的结果了。为了让计算能力越来越强大,所以需要把好多粒子纠缠起来。只有这样我们才能够进行有效的量子计算。

  潘建伟:目前比如说在我们的体系里面,我们已经做了一些相关的演示,比如说做各种各样的量子算法的演示。我们可以用我们的量子算法来有效地求解线性方程组,我们知道方程组的求解在信号处理,在经济学的分析,在计算科学和物理学方面是广泛应用的,求解这么一个方程组的话,相当于做这么一个反向的求解,找到一个A负的矩阵,把X等于多少求解出来。找到这么一个矩阵,首先找到A的本正值engenvalues,大概需要这么多步。有了这个方案之后,就可以构造所谓的矩阵。

  潘建伟:假定我们有这么一个方程组,这是一个非常简单的游戏机一样的,我们构建这么一个比较小的所谓的Serqute,之后我们就可以在实验上来验证我们确实有这么一种计算可以在小的步骤里面完全量子计算。但是这个过程的话,我们也可以把它用到所谓的机器学习里面。在这个地方对一个数据进行分类,我们这里有很多Samplevector,有好的Vector,还有坏的Vector。

  【2016-11-17 16:50】

  主持人:谢谢潘建伟院士,让我们再一次用掌声对潘建伟院士的精彩演讲表示感谢。

  主持人:尊敬的各位来宾,女士们,先生们,接下来请电器和电子工程师协会可拓展计算委员会主席陈金俊先生,以“大数据—大应用”为主题进行演讲,大家欢迎!

  【2016-11-17 16:54】

  陈金俊:各位领导,各位嘉宾,大家下午好!现在很多人都在谈大数据,各个国家、各个企业、各个地方。有的人会说数据和石油一样,是重要的资源,也有的人会说数据加人才是现代企业很重要的决定性的力量,有很多包括Bigdata等不同的,关键的核心点都是类似的,就是从大数据当中找到有用的信息,对于企业来讲新的产品、新的机会,对政府来讲新的管理模式等。

  陈金俊:对大数据的看法有很多种,不同的人有不同的看法,还有人从投资的角度,不管你怎么看大数据,最基本的概念是要有价值要有Value,没有价值,不管数据多么大,其实没有太多的意义。从Value的角度讲,关心的是能不能从大数据分析出更多有用的信心,比如说新的产品,相比较传统的企业单个分析数据,跨行业,不同种类的数据分析,可能会令人更加的激动。过去几年云计算的普及以及深度合作,拥有很多不同种类的数据成为可能。不像以前我们只能设想我们有很多种数据,现在因为云计算很普及,大家把数据放在云上,拥有不同种类的数据成为现实。

  陈金俊:当然单个领域数据的分析缺失是很重要的,比如说一个超市的零售业,你对用户购买兴趣消费的分析很有用,不同种类的数据分析,不同种类的数据因为云计算的普及,因为大数据成为可能。我们的观点,对企业家来讲分析不同种类的数据。

  陈金俊:一个真实的例子,在澳大利亚跟我合作的企业,有订飞机票的企业,还有超市的企业,原来他们是两个不同的企业,他们各自管理各自的数据,现在因为云计算的原因,他们把数据放在云上,比如说有人经常晚上买东西,这样的人你就应该推荐晚上的飞机票。把不同种类的数据之间微弱的关系找出来,这种微弱的关系往往意味着新的市场、新的产品,这个在以前大数据之前,在云计算之前不是很容易想象的。因为那个时候你并没有把不同种类的数据放在一起。

  陈金俊:对于做研究的来讲,我们知道要做大数据,首先得有大数据,因为要但量多,数据更新特别的快我们知道对大多数研究者来说我们没有真实的数据,企业不太愿意跟我们分享他们真实的数据,可能基于各种各样的原因。所以我们只能用一些官方的数据,对于研究者来讲,如果要更有效,我们要接触真实的数据。如何接触真实的数据?要更多的要跟企业合作,解决他们的问题,可以访问他们的数据。否则的话,我们访问的网上公开的数据往往并不是实的。

  陈金俊:在这个阶段上,无论从企业来说,分析不同种类的数据,对科研人员来讲的话,要接受真实的数据进行分析,在目前的阶段大数据更多的是应用。你现在去定义大数据科学,其实并不是一件很清楚的事情,什么是大数据科学?更多的是应用。从应用当中产生一些数据的科学,然后解决问题。基于这个出发点,我们跟很强的跟企业合作,现在最典型的两类行业,零售业和航空订票的行业,就是因为把不同种类的数据放在一起,找到他们微弱的关联性。

  陈金俊:这种微弱的关联性刚才说了,比如很多人晚上出去买东西,你就给他推荐晚上的飞机票,还有把医院的数据和保险公司的数据放在一起分析,分析过去两年医院的健康的情况,然后可以帮助保险公司设计出更好的保险产品,这是两个真实的例子。总的来讲,就是把不同种类数据放在一起找出不同的关联性,产生新的商机,是企业关心的,这是大数据带来新的机会,在云计算普及之前只能设想不同的数据放在一起,现在因为云计算数据放在一起产生大数据,拥有不同种类的数据成为现实。

  陈金俊:跟企业合作的时候,企业常常问我们的问题非常简单,尤其是一些传统企业,他们并不关心你跟我讲的大数据,就告诉我能得到什么。另外一个问题是你说把我这些数据不同种类的放在一起,医院的数据,保险公司的数据。比如说订票的会员数据,还有超市的数据放在一起进行分析,你怎么保证他们的隐私?这是他们直接问我的。

  陈金俊:做企业大家知道,并不关心三年、五年,我要的就是现在。所以他一定要很快速的,相应的就在这三方面做分析,不同种类的数据之间把关联性找到非常微弱的关联性往往意味着新的商机,如果关联性非常强并没有太大的意义,你能看到的机会别人也可以看到。大数据不同种类的数据分析出来找到微弱的关联性,就像刚才医院和保险公司一样即刻帮助保险公司提供更好的产品。就像刚才说的超市和订票公司一样,可以告诉订票公司更好的推进产品,不同种类的数据觉得因为云计算过去的普及产生的,因为大数据产生的新的比较集中的点,这并不意味着单纯的一个点不重要,是重要的。

  陈金俊:另外关于隐私安全,做隐私知道的,隐私的问题是非常主观的问题,什么隐私?什么不隐私?如何基于应用设计出考虑到设计、空间,主要是隐私,昨天我生病了,昨天是隐私,今天我好了就不是隐私。最后的结论点就是说大数据不管怎么看它,最终还是回归到价值,一定要有价值,从价值的角度看它。如果没有价值,这个数据再大也没有意义。

  陈金俊:从应用的驱动产生价值,在这个阶段应用驱动会更恰当一些,考虑什么是数据科学。更加令人激动的是不同种类的数据找到它的关联性意味着新的商机对企业来讲及因为云计算的普及,大数据不同种类的数据成为现实,是一个新的点,是一个比较激动的点。这是我们一个观点,也是我们正在做的,谢谢大家。

  【2016-11-17 16:58】

  主持人:谢谢陈金俊先生,让我们再次用掌声对陈先生的精彩演讲表示感谢。接下来有请中国信息通信研究院总工程师余晓晖先生,以行业自律推动建立大数据流通信任体系为主题进行演讲。大家欢迎。

  【2016-11-17 17:01】

  余晓晖:各位专家,各位来宾,大家下午好,很荣幸在这儿有一个机会跟大家分享我们对大数据流通信息体系的思考。全球也是同样,我们中国也非常重视大数据的发展。我们知道国际上有一个说法,数据进行创新成为我们经济社会发展范式转型很重要的驱动力,在中国把它看成非常重要的战略位置。我们面对一个很大的问题,在我们释放大数据潜能的时候,怎么能保持这样的数据的安全和可信任。如果我们要把大数据的潜能发挥出来的话,很重要的是我们怎么建立信任体系当然这是覆盖各个环节的信任体系,能够保持我们有效的合法的应用,今天汇报的是从流动环节说。

  余晓晖:三个部分的内容,首先是简单提一下目前中国大数据发展的情况,这个是大数据产业基本的认识,这里面分为两个部分。一个是从数据本身的分析存储交易安全所形成的产业,我们叫核心产业。一种是跟大数据相关的观点产业。按照IDC的预测,大体上我们可以看这个图,大体上到2020年的话,这样加起来的话有2500亿美金的规模,大概增长20%。我们中国信息研究院有一个关于中国市场的预测,大体上也是2000个人民币,增长是30%。我个人觉得我们的增长预测保守一点,大体上可能到未来几年,我们有几千亿的市场还是非常有可能的,这个市场很小的,相比中国的信息产业的市场,我们中国信息产业现在有16万亿,这个并不是很大。这里面一定代表我们很大的方向。

  余晓晖:在这样的情况下,我们去看这个产业的各个环节,我们说从数据的生产到数据的流通和数据的应用,其实每一个环节里面都有非常重要的问题需要解决。当然我今天给大家分享的是我们觉得在数据流通的环节里面,是连接数据的来源和数据应用里面非常关键的承上启下的环节。所以这个环节的安全可信任,对发展是非常重要的。

  余晓晖:从国际上来说,我们也观察到,可能主要的国际上的国家里面有很多的企业上在数据的流通方面做了很多的工作。当然这些工作我觉得对大数据的商业化的成功是非常有意义的。回到中国来说,我们可以看到中国也非常重视这样的环节,2015年,去年我们国内第一家是贵阳大数据交流所正式运营,到现在为止,到今年9月份超过10家的大数据交易所,所以这个发展是非常快的。有这么多的国内大数据交易所的建立,它的目的是想建立说怎么把数据和应用连接起来,能够真正地把数据的潜能发挥出来。

  余晓晖:这是我们的一个基本的态势,最大的挑战是怎么能保护数据的合法利用,怎么保护每个们的隐私?这是一个非常重大的挑战。那么从数据的各个环节里面,比如说我们从数据的收集会面临数据的不透明性,或者收集很多超量的收集,从数据的分析来说,会出现过度的数据分析和挖掘,每个人画像等等。还有数据流动环节里面,有这么多环节在里面的时候,怎么控制数据按它的权限合法的使用,这个是非常难保证的。这个是我们面临的非常大的挑战,我们怎么去解决这些环节,保证我们数据可以充分的利用。

  余晓晖:关于规则方面来说,我们其实要建立一个交易的规则,这个交易的规则里面,我们怎么确定数据的权属?怎么进行定价、评估,怎么进行监管?从事前、事中和事后,我们怎么建立一个全闭环的安全可信任的体系?这是我们中国,甚至全球来说都是一个处于探索阶段的事情。我们知道每个国家的情况不太一样,关于大数据的战略,大家都非常得重视。但是关于大数据的流通和大数据保护方面也有很多的探索,我们知道现在做的最严格的是欧盟今年推出的GDPR,一般的数据保护条例,对数据的保护流动做了很多的规定。美国也有类似的,但是没有欧盟的严。

  余晓晖:关于规则方面来说,我们其实要建立一个交易的规则,这个交易的规则里面,我们怎么确定数据的权属?我们怎么进行定价、评估,怎么进行监管?从事前、事中和事后,我们怎么建立一个全闭环的安全可信任的体系?这是我们中国,甚至全球来说都是一个处于探索阶段的事情。我们知道每个国家的情况不太一样,关于大数据的战略,大家都非常得重视。但是关于大数据的流通和大数据保护方面也有很多的探索,我们知道现在做的最严格的是欧盟今年推出的GDPR,一般的数据保护条例,对数据的保护流动做了很多的规定。美国也有类似的,但是没有欧盟的严。

  余晓晖:最后,我们就回到另外一个层面,就是说我们的大数据的法律体系毫无疑问,需要我们的人大,需要我们中国的法律体系建立这个环节,但是我相信跟全球一样,建立这样一个能够平衡好发展和隐私发展保护的关系的法律环境恐怕不是一天两天能建成的。在这个过程中,我们还有一个非常重要的工作,怎么让我们的行业自律?我们这么多企业里面自发的形成一个体系,能保证我们的大数据可信任的流动和交易。这是我们国内正在推的一个工作。在这里面怎么建信任体系?什么样的大数据产品的服务值得信赖的?事前对用户所关注的所有问题里面。有一个真实的承诺,把这个承诺实现。怎么通过第三方的评估监督和信息公开使它这样的服务是透明的,我们是能够符合它的承诺的。

  余晓晖:事后如果出了问题以后,我们有一个风险的赔偿机制,能够弥补救济,这是三个环节要考虑的内容。我们从数据的安全来说,包括数据的可靠性,数据的隐私保护等等,这是我们需要考虑的。从服务质量来说,我们对数据的使用者来说,或者说接受方来说,必须保证数据的质量。所以这样数据的质量管理方面也是非常重要的,还有权益的保护里面,可能也是比较重要的。

  余晓晖:在这样的情况下,我们也是中国信息通信研究院和我们中国业界一起正在推动和建立我们中国大数据行业的信任体系,数据的流通行业我们现在目前可以考虑的数据应用范围,授权的要求和流程,可交易的数据类型,交易的方法和定价指导,目前我们已经发布了数据流通行业自律公约,4月份发布了第一版,7月份发布了第二版。

  余晓晖:下一步重点开展基于《自律公约》进行第三方的评估和测试。这里面是我们的一些主要内容,网上也可以看得到,准则和数据的权益,从合规采集权益协调进行规定,数据流通流向管控和数据保护,包括认证和附则。我们也和一些企业合作,包括阿里巴巴、360、中国电信、中国联通等等,这是非常好的基础。意味着中国的企业可以通过自发的努力,构建一个可信任的数据应用和流通的环境,我想这对中国的大数据探索和发展是非常关键的。我们是希望借助这样自律的方式,结合中国的法律体系和监管,构建一个中国大数据发展很好的环境,推动整个数据在中国经济社会发展中的应用,谢谢大家!

  【2016-11-17 17:04】

  主持人:谢谢余晓晖先生,让我们再次用掌声对余晓晖先生的演讲表示感谢。接下来有请邓白氏公司全球高级副总裁、首席数据科学官安东尼·斯格非亚诺先生,以使用现代数据科学解读现代商业行为为主题演讲,大家欢迎。

  【2016-11-17 17:07】

  安东尼·斯格非亚诺:简单跟大家讲一下我们经常说数据、数据、数据,每个人都在说数据、大数据。我想跟大家从商业的角度来看看我们用所有的比如说量子通讯、量子算法,我作为一个数据分析科学官,那我肯定会用这些所有的分析方法来分析的。我觉得我们应该退一步来想,数据到底用来干什么,或者数据代表着什么样的意义?在互联网高速发展的时候,我们到底应该看到的是什么样的信息?

  安东尼·斯格非亚诺:其实现在的常态我们可以把它叫做“新常态”,我们变化的常态,也就是说变化的速度非常快。什么是一直在变化着呢?只有变化是永远不变的,所有的东西都在变。什么是新发生的呢?新发生的也是变化,我们可以看到,比如说网上我们可以分析数据,但是这个数据只有一个部分的数据,所有的手机、电脑、会议、人类活动都在产生数据,比如今天我们现在在这个会议场里面说的所有的话,我们今天的发言,都会产生数据。在网上,大家可以问各种各样的问题,你可以找到客服提问问题,未来或者现在回答你问题的可能是机器而不是一个人,所以我们为自己提出这些问题,我们都不知道怎么去回答这些问题。那这样一种常态我们把它叫做“新常态”。

  安东尼·斯格非亚诺:我们现在到底有什么样新的问题?不管是零售业、销售、政务、物流、后勤等等,所有这些方面都会有各种各样的问题,他们给我们提一个共同的问题,我们都有数据,但是我们拿这些数据在自己的单位里面,并不能使用它。

  安东尼·斯格非亚诺:我们的挑战是什么?在这样的一个“新常态”当中,我们怎么样来利用我们手头的数据呢?我们来看一下现在的世界,比如说数据可以像集装箱一样打包,然后进行运输,企业的地理位置、结构、消费者的现实互动真的变得越来越不重要。你要的是什么呢?我们要的是你的网络行为,我们听到很多网络的东西,网络行为、网络的黑客、网络的风险等等。我们怎么样来回应它?我一般这么回答,你先看一下镜子,你看看镜子里面自己这个人,看看自己的单位,你的公司,你看到了是什么呢?你需要把自己也变成一个新的人来适应这样一种新的常态,那么我们把它叫做新技能,包括数据科学对新技术的掌握与人的消极感知力,语言融合,数据使用的许可,身份的辨识监测等等。

  安东尼·斯格非亚诺:我们不仅仅要考虑到数据,还需要考虑数据之间的相关性。你在自己的公司里面的时候,你肯定不是说我把数据收集回来放在这里,然后我就可以理解它了。不是这样的,我们首先不能把数据放在一个地方,传统上我们用现实的贸易和关联判断实体间的主要方法,现在不行了,现在所有的事情都在变化。不像原来你把一个产品,一种服务放在一个地方,你慢慢地研究它、发现它。现在不是这个样子,现在当你研究这个数据的时候,其他的数据又在发生,新的数据又在产生。

  安东尼·斯格非亚诺:所以我们需要有这样新的思维,建立一种实时的理解。我们的数据方法,计算方法都会不一样,这是我们的现实,现实社会就在这样子发生。我们经常在想这么一个问题,我们如何来应对这样一个真实的世界呢?把数据科学引入到我们的讨论当中。给大家一个例子,在所有的单位、所有的公司,我们所有的每一个公司都需要互联互通,我们需要整合大数据和对结构的理解来探索连通空间,就是一个真正的连通空间,因为数据产生的太快、太多、太大,所以你没有时间来想。比如说现在我们大家之间从来没有互相打过电话没有相互了解过,未来企业也会这样子运营,你有非常非常多的公司,从来都没有相互的交易过,没有相互做过生意。但是他们可以相互使用数据,可以慢慢地,最后形成这样一种共识和合作。

  安东尼·斯格非亚诺:也就是说我们进行与构造类似的图形相混合,类似的图形进行一种融合,各种各样的信息,这个事件、数据、新闻、信号等等,然后我们用抽象维度进行一种假象的场景。我们现在有一个说法,就是要应对黑猫问题,在黑色的房间里面有一只黑猫你看不见它,因为猫也是黑色的,房间也是黑的,一样的,如果机器学习,我们经常在说机器学习,那它到底在不在呢?你不知道它在不在,确实是真的不在那。现在用一种思维方式,我们用信号,我们用系统性的检测方法,我们用异常检测,我把它叫做均质性,也就是说你的某一个方面跟其他的所有方面都是不一样的,这个叫均质性。然后是特性和质量监测,当所有的数据都在那里的时候,你可以去截取跟你一样的部分,或者跟你不一样的部分来用在你的系统当中。这样才可以处理黑猫问题。关于黑猫问题,所有的计算机的课堂上都没有教学,但这正是我们需要思考的问题,我们有这么多的科学家,我们都没有应对这样的问题。

  安东尼·斯格非亚诺:这里就涉及到了创新的问题,什么叫创新?新的产品、新的服务、新的能力。但是我们要记住,创新就是找到大问题,把它大事化小,一个一个的阻击它,解决这个问题,这也是创新的形式,这种创新的形式是我们需要的,我们需要非常得开放,我们需要有一种新形势的创新,我们要有非常开放的思维。今天做了这么多事情,明天就可以产生盈利了,但是我们必须要这样子来做。我们需要有一个新的思维的模式才可以适应这样一种新型的世界。

  安东尼·斯格非亚诺:我们要颠覆现在所有的真理,因为我们知道原来存在的一些可能如此珍惜的东西,嫌它太慢太差,在数字化时代,我们嫌它太有颠覆性了。我们现在要想,所有的可计算的数据是什么呢?我们要去想这些数据我们怎么用?我们怎么样解决新的问题?怎么样把数据用到极致?用到真正有用的地方。比如说有没有人使用大数据去发现石油,有人去买石油吗?没有吧?但是我们大家都把数据比作石油,但是我们需要的是怎么样来用,用才是最重要的。

  安东尼·斯格非亚诺:未来的方向,我们都在说机器会进行学习,怎么学习呢?你需要去教它。我们才是使用的人,我们需要向机器学习,也让机器学到更好的方式,非常有意思的未来。我们当然并不需要去学计算的方法,因为你是这些技术的应用者,是真正的受益者,所以你要知道怎么用,这些数据是哪里来的。

  安东尼·斯格非亚诺:这是一些大型跨国机构中数据的演变,演变是永恒的,我们用所有的技术、科技这是肯定的,然后我们需要有正确的科技来处理数据,来改变我们的思维模式,真正的核心是服务于人,并且思维也是从人发出的。

  安东尼·斯格非亚诺:最后是以数据为导向的组织中,领导力思维的演变,领导力非常得重要,所有的领导需要非常的有启发性,你对技术要有认知,让你的员工有足够的创造力,去启发他们。最后我来引用威廉·爱德华兹·戴明的话,只是尽力做到最好是不够的,你必须先知道要做什么,然后才能做到最好。所以我们首先要寻找先理解,我们到底需要做到的是什么,然后写下来共享、讨论我们这一代是我们驱动自己的数据,应用我们的数据的第一代人。好,非常感谢大家的聆听。

  【2016-11-17 17:12】

  主持人:谢谢安东尼·斯格非亚诺先生,让我们再次用掌声对他的精彩演讲表示感谢。接下来有请奇虎360公司高级副总裁兼首席安全官谭晓生先生,以“数据驱动的安全协同,保护重要信息系统及大数据安全”为主题进行演讲,大家欢迎!

  【2016-11-17 17:20】

  谭晓生:360是一个安全公司,而且是从2009年开始采用大数据方法,用于信息安全的一些防范。去年乌镇互联网大会上面,可以看到展示给习主席全球DDos攻击的全景,那个是随时可以知道全球正在发生的DDos攻击是什么,他们的控制端是什么,打什么端口,DDos打了多长时间?

  谭晓生:无时无刻都在收集网上的信息进行展示,这是我们把它叫做看见的力量。看网络的攻击了解攻击的全貌,讲出来攻击的故事,这是非常典型的网络攻击的故事的模型。

  谭晓生:在这里的我们现在用的方法是什么呢?一个是我们叫做数据驱动,在今天如果是仅仅采集到了一部分信息,今天是远远不够的,可能需要原始流量,比如说网络流的信息,可能还需要用户在终端里面人的行为,程序的行为等等这一系列的东西,我们今天的工作方面已经转向由数据驱动的工作方法。

  谭晓生:这个从2009年年底的时候,360对恶意样本的分析,对人工找特征变成经济学预算法进行自动的分类。到三年多之前,我们对于网络流量,全部采集下来之后,对流量进行还原,试图用统计概率和经济学预算法找出异常。

  谭晓生:第二个是智能的提升,这些年的算法及我们从简单的用SVM这样的分类,演变到后来机器学习更高深的算法。到现在也有用于协议识别和网络外部攻击的判定,这是一个智能的提升,这是主要在算法上的改进。

  谭晓生:第三个产业联合,产业联合更多的是基于情报的交换,我们自己为全球的其他的安全研究人员提供服务,同样其他的安全研究人员他们的数据也会公开给我们,大家会在这方面有情报的交换。在这三个基础智商有一个更高的层面是叫协同,这个协同不仅仅是数据交换是协同比较低的层面,再往上是能力的协同,很多数据量大到根本没有办法交换,交换的时候拿到数据也不知道怎么用。所以对数据的分析,最后出来的结果或者事情的处置会变成更高层面的协同。

  谭晓生:终端安全经过了3、4年前一段时间的低谷,最近两年大家对终端安全更加的重视起来,网络中经过加密的流量越来越多,超过50%。这时候攻击者必然要拿下来某一个终端,这时候的终端是非常好的信息手机装置以及最终产生动作的装置。

  谭晓生:在这里讲到EDR对所有行为,对文件操作,对进程信息,对网络访问,对文件传输和文件内容都可以进行采集。同样的话终端是可以接受控制指令,对某个程序进行阻断,杀死某个进程,组织某个网络操作等等一系列的行为,这是在EDR。NDR网络中间加密的流量越来越多,即使在这样的情况下,在这方面也可以做更多的检测和相应的。

  谭晓生:在这里讲到EDR对所有行为,对文件操作,对进程信息,对网络访问,对文件传输和文件内容都可以进行采集。同样的话终端是可以接受控制指令,对某个程序进行阻断,杀死某个进程,组织某个网络操作等等一系列的行为,这是在EDR。NDR网络中间加密的流量越来越多,即使在这样的情况下,在这方面也可以做更多的检测和相应的。

  谭晓生:因为有终端没有覆盖到,或者终端已经被感染之后,已经不能正常的行使信息的探测和阻断的行为,可以第二个知道系统中发生什么事情的机会。这里面包括了我们对资产的发现,对于一些终端行为的补充的发现,对于网络行为,对于可以在日志等等这样的事情,EDR加NDR现在变成有两个大的数据来源和产生处置的地方。

  谭晓生:最终在应用上面我们分成两个场景,一个是在集团的内部,它需要知道它有什么样的资产,正在发生什么事件,有四张屏,四屏联动,在任何一张屏幕进行操作,其他的屏幕内容感知会推出来你想要的东西,做四屏联动这是一个外部的感知场景。

  谭晓生:举的例子是一个城市,一个城市中间的网络的安全的状况是什么样子的,我有没有什么网站?有没有什么样的威胁?我的基础设施,比如说物联网的设备,工业控制系统等等有没有什么问题?在这里有外部的感知。外部的感知一方面会要有全网的主动的信息探测的能力,还有从某个区域之内,从终端设备到网络设备采集信息上传之后综合的汇总。

  谭晓生:最终我们提出一个理念叫做DataDrivenIndustryCollaboration,我们有数据驱动之下的,有产业基于能力协同的战略合作可能是会解决我们网络安全的一个出路。谢谢大家。

  【2016-11-17 17:25】

  主持人:谢谢谭晓生先生,再次用掌声对谭晓生先生的精彩演讲表示感谢。接下来有请蚂蚁金融服务集团安全管理部总经理邵晓东先生,以“大数据时代的金融安全”为主题演讲,大家欢迎!

  【2016-11-17 17:31】

  邵晓东:各位嘉宾,大家下午好。非常高兴荣幸能够参加这次论坛,听了前面很多位的专家学者他们的讲话,非常认同他们的观点。当然我也会利用这个机会跟大家分享一下我们大数据时代的金融安全应该怎么做。记得两年前,也是在这个大会上,马云先生曾经提过,人类社会已经从互联网时代走向了大数据时代。

  邵晓东:这两年来,我们能够看到的是以利他主义为核心价值的大数据时代正在为每一位从业者、创业者提供着前所未有的机遇。聚焦在我们大数据时代的互联网金融,它是以互联网技术、互联网思维方式以及大数据驱动的,有别于传统金融的新金融模式。它极大地降低了金融服务的交易成本和沟通成本,并且因为它开放、平等的特性,也为我们中小企业和普通的民众提供了普惠的金融服务,是现有金融的有益补充。

  邵晓东:当然,我们看到互联网金融为广大民众带来极大便利的同时,我们也感知到互联网安全日益严重的趋势。现在黑灰产业链正在形成生态,各种信息被贩卖,木马、钓鱼网站正在不断地威胁着我们的网络安全。

  邵晓东:2014年韩国爆发了史上最严重的一个信息泄露事件,四成人口的信用卡信息被泄露,就在刚刚过去的10月份,始于美国东部的DDos攻击席卷了整个美国,包括《纽约时报》在内的网站都没有被幸免。因此,如何保障互联网金融安全,已经是我们必须去面对和要解决的问题。

  邵晓东:我们蚂蚁金服通过多年的实践,在互联网金融领域里面主要会出现有别于传统金融的四大风险:第一,系统风险,互联网系统是包括互联网金融在内所有互联网生态的基础设施,互联网金融的业务开展和安全技术都依赖于互联网系统。所以系统一旦被攻击,我们的用户,金融行业,甚至我们整个社会都会造成混乱。所以我们要保障我们的系统是安全的,只有系统安全了,才能保障我们的互联网金融安全。

  邵晓东:第二,我们的信息安全。互联网金融随着普惠以及与场景紧密结合的业务模式,使我们在业务开展过程当中会积累各种各样的数据。而这些数据又会覆盖商业秘密,用户的个人隐私,所以我们必须在数据的产生、储存、管理、使用各个环节确保信息数据是安全的。

  邵晓东:第三,帐户风险。互联网金融的帐户与传统金融的帐户是有很大区别的,它已经没有了像信用卡、存折这样的中间介质。如何保障帐户背后的人就是帐户使用者本人呢?这已经是摆在我们面前最重要的安全课题,最后是资金风险。

  邵晓东:前面我们讲到,不管我们怎么样去保障我们的系统安全、信息安全以及我们的帐户安全,其本质最终目的都是需要保障我们的资金安全。在这样一个新机遇、新挑战同时又面临着新威胁的环境下,我们在互联网金融领域,如何用新的安全模式保障我们的互联网金融安全呢?我觉得需要有三个“一”。

  邵晓东:首先我们需要一场变革,这场变革就是从被动的防御到主动的管控,为什么这么说?因为在传统金融领域,我们为了保障金融的安全,我们有厚厚的水泥墙和防爆门做一个金库,把资金可以管控起来。

  邵晓东:我们在银行网点之间进行资金运输的时候,我们可以有武装运钞车和武装押运人员,这样不管是谁会在什么时候用什么样的方式,在什么样的地点对我们进行攻击的时候,都能得到相对有效的防范。

  邵晓东:而在互联网金融已经不一样了,我们没有银行网点,甚至很少能看到现金,我们在互联网上也没有地方让你去搭建一个厚厚的水泥墙以及防爆门。那我们怎么样保障我们的互联网金融的安全呢?我们必须从被动的、事后的防御转化到事前的主动管控。我们必须要在行为结果发生之前就要预测到谁可能在什么时候,可能用什么样的方式,可能在什么地点对我们进行攻击。

  邵晓东:甚至于我们要具备主动进攻的能力,才能保障我们的安全。而要实现这场变革,我个人认为最核心的武器就是我们的大数据以及我们的新技术。

  邵晓东:蚂蚁金服经过多年的实践,已经形成了一套完整的风控体系,整个蚂蚁金服集团有五分之一的员工从事直接与安全相关的工作,而这些员工当中,我们的数据工程师和技术工程师占了三分之二,我们用2800多台服务器,数十个模型,上千条规则,搭建了智能风控的平台,而这个智能风控平台可以在十分之一秒的时间从八个纬度对每一笔交易进行一个风险的预测和判断。

  邵晓东:同时我们也特别注重像生物识别技术这样新技术的开发,我们到目前为止,人脸识别技术已经在我们帐户注册、帐户识别以及整个交易过程当中进行了广泛的应用。目前识别的准确率达到了99.6%,整个场景的通过率超过了90.5%。因此蚂蚁金服的止损率远远低于十万分之一。

  邵晓东:举一个案例,有一位黄先生45岁住在深圳,他的帐户突然有一天的晚上,23点35分的时候,在广州,一个从来没有使用过的设备上登录了。并且在0点07分的时候,他的帐户通过短信校验方式进行了修改支付密码的动作。

  邵晓东:同时在0点25分的时候,这个帐户还在试图购买一台苹果手机。在0点25分当他确认支付的时候,其实我们系统已经判定这个帐户的操作行为不是黄先生本人。所以我们当他确认支付的时候,我们失败了这个交易,并且在第二天10点03分,我们的客服人员与黄先生本人进行了沟通,确认黄先生的手机中了木马,然后我们的客服人员帮助他做了必要的安全维护。

  邵晓东:这就是用大数据来实现我们风险控制的典型案例。要实现这场变革,我觉得我们必须要具备一种能力,什么能力?就是保障我们信息数据安全的能力。

  邵晓东:个人觉得数据是要用起来才有价值的,数据是越用越有价值。数据使用它不是简单的一个物理叠加,它是像生命一样,会发生奇妙的变化。同时开源、开放才是使用数据的一个首要条件。刚才有嘉宾也分享到,我们会把保险的数据和医疗的数据整合起来,这需要数据开放。

  邵晓东:但是我这里想说的是,要开放必须知道什么叫关闭,要学会关你才能很好的开,你如果不会收,你没资格谈放。要让我们的大数据在这场变革当中发挥巨大的作用,你首先要做的是要保障你的信息数据是安全的。那么我们蚂蚁金服在这方面也做了很多的工作,做了很多的投入,已经搭建了一套完善的数据安全管理体系,并且获得了多个国内国际的权威认证。

  邵晓东:公安部、信息系统的安全等级保护认证,中国信息安全检测中心的系统安全保障的一级认证,以及国际卡组织颁发的PCIDSS数据安全认证和ISO27001信息安全管理体系认证。

  邵晓东:最后我想讲要实现这场变革,除了具备保障数据安全的能力以外,还必须要形成一个数据生态。我们要通过大数据应用去实现主动的管控,去预测是谁在什么时候可能在什么地点可能通过什么样的方式对我进行攻击。

  邵晓东:光靠一个企业是不够的,我们必须形成各方的合力。我们蚂蚁金服目前正在与中国最高人民法院和各个银行机构共享老赖的名单和风险的数据,这种数据的共享,不仅有效的能够助力我们整个社会诚信体系的建设,同时也极大的提高了我们金融机构应对信用风险的能力,提高我们征信的能力。谢谢大家!

  【2016-11-17 17:39】

  主持人:谢谢邵晓东先生,让我们再次用掌声对他的精彩演讲表示感谢。接下来有请北京亚信数据有限公司首席执行官张灏先生,以“大数据助力中国贫苦治理”为主题演讲。大家欢迎!

  【2016-11-17 17:42】

  张灏:各位嘉宾大家下午好!也很高兴站在这里来给大家分享我们在大数据方面的一些应用的案例,亚信数据是亚信集团的子公司。我们致力于中国民生和帮助政府做民生政务,用大数据解决国家治理提升的问题。贫困这个领域我想应该不一定很熟悉,但是在全球来讲,贫困人口一直是处于不同分布的地区。

  张灏:在中国也有很多的地区处于贫困。我们看到说最近也是在讲说国家治理的能力的问题是制约整个经济发展,特别是贫困地区的核心原因。我们可以看到当治理的微观数据不精准的话,会就是造成你国家可以提供的公共产品和服务能力的不均衡。因此也会导致所谓的贫困的产生。只有全面精准的把数据做微观的采集,才有可能制定出来真正有效的宏观的政策。

  张灏:因此微观数据的采集,对于我们现在宏观政策的制定,其实产生越来越重要的作用。我们也看到说,我们在贫困地区,如果今天讲大数据、互联网的发展趋势非常猛,如果说火车头走到人工智能改善我们生活质量的时候,在车尾的时候,我们很多的地区人口和治理,还没有达到一个到达的状态。

  张灏:我们可以看到大数据要想做到一个任何垂直业务应用的话,都需要有充分数据的基础。对于贫困地区,我们可以看到我们也切实走访了很多的地方,看到基础数据的采集能力是很低的,如何通过四个层面的工作来做。

  张灏:比如说从数据的充分的收集,我们讲精准,如果识别精准都有问题,这个是没有办法去准确的帮助的。由于在贫困地区,包括手机的使用,虽然得到很大的提高,但是现在还是有很大的一些不足。因此我们如何用现代的,包括扶贫的手机应用,包括一些线下的资源去进行有效的对接,我们可以把扶贫工作用大数据实现全面精准这个事情做好。

  张灏:从平台角度来讲,我们有很多的数据可以去抓取,包括贫困户本身基本的信息,空间的信息和时间的信息,这些东西都标志着他贫困的状态和贫困的变化。政府的数据其实非常的多,可以看到各个部委的数据是分散的程度是比较高的。但是如何针对贫困人口扶贫,因为地理位置等等因素导致贫困的原因进行精准的对接,实现对于他们的帮助,这个非常重要。

  张灏:第三方数据,我们也有很多慈善机构,也很多的慈善人士希望对他们进行救助,但我们需要精准地找到谁需要什么,这个问题到现在为止也没有得到一个很好的解决。因此在这三方数据来讲都需要通过数据充分的聚合,来实现用大数据治理的基础。有了这些数据,我们看到底用什么业务支持他们呢?

  张灏:我们可以把土豆产品运出去,通过电商来做,通过教育提升来实现对于互联网使用的方便,通过旅游,通过社会的救助,包括医疗,医疗我们占42%的贫困的原因,到底什么病什么药能够帮助他们,这些实际需要非常精准的对接。把线上和线下打通,这就是可以把业务来实现完美的结合。

  张灏:有了业务的场景以后,就需要更多的去运营,我们看到大数据,如果我们只是拿统计报表的数据,帮助贫困人口也起不了什么作用。如何把他们的生活中的数据真正的采集过来,它的每一次帮助,它的每一次自发的生产,我们用手机其实是在解决贫困户本身是一个被动的状态,变成一种用应用的能力,用移动互联网实现主动参与到扶贫的工作中,这样其实就更像我们城市的人口一样积极的跟上经济发展和科技发展的红利。因此我们在实践中,已经做了很多的场景。

  张灏:这些场景都可以通过充分的互动,扶贫的干部、扶贫的对象充分进行互动,实现很多数据的交互和采集,这个数据越来越丰富的时候,我们可以看到说它不仅是一个帮扶的过程,还是一个新商机的产生。因此我们看到这样的方式是可以真正帮到贫困户的。

  张灏:第四,当有这些数据以后,更好的用数据的价值来驱动政府的治理政策,以及各级政府对于扶贫工作细化的措施,让数据保持鲜活的前提有了以后,包括识别项目的安排、资金的安排等等,包括事后评估的效果,这个真正做到一个平台之下的数据的精准的识别能力。

  张灏:这里举两个例子,一个是我们健康扶贫,现在看到由于过去的方法去采集因病治贫的数据是非常简单粗暴的,包括采集周期也非常慢,一年一次。包括我们可以看到他们自己是小病变成大病的现象非常多,所以如何在早期给他们提供识别可能变大病的可能性,提早进行药品和医疗方法的输入非常重要。

  张灏:同时也把国家对于社保的政策,真正落到这些人身上,来降低他们对医疗成本的负担,让有更大的医疗资源,有效的通过互联网对接到,用大数据找到你的条件和谁最需要,最终能够完美对接的话,这就是一个非常好的效果,目前看这方面是非常值得越是在贫困的地区,越是需要人工智能,越是需要这样精准的识别,这样的效率才有可能是更高。

  张灏:总结来讲,我们看国家这么重视贫困工作,我想中国2020年实现小康社会的目标,其实小康社会核心的问题解决5700万的贫困人口的脱贫,实际上如果我们仅靠过去的方法,用政策和资金的支持是远远不够的。如何让这样的群体能够享受到互联网大数据的红利,通过把国家的资源、社会的资源和慈善志愿者的资源,能够有效的通过大数据来对接,实现全网跨平台的大数据的运营模式,围绕数据驱动的运营模式,我想能够把我们大数据对于扶贫的治理会提升的更好。

  【2016-11-17 17:47】

  主持人:谢谢张灏先生,让我们再次用掌声对他的精彩演讲表示感谢!接下来有请一起作业网CEO刘畅先生,以“大数据,让学习成为美好体验”为题发表演讲,大家欢迎!

  【2016-11-17 17:50】

  刘畅:大家下午好!非常高兴能够参加今天的大数据的论坛。我叫刘畅,来自“一起作业”,是一家K12的在线教育平台。今天我为大家分享的主题叫做“大数据,让学习成为美好体验”,我们知道这几年大数据开始在中国乃至世界教育发挥越来越多的作用。所以今天我更想从学校教育、家庭教育甚至城市教学管理来分别讲述一下大数据对于教育到底产生了怎样的改变。

  刘畅:首先,我们来看第一点,大数据对于学校教育的作用。我们觉得最大的价值,一定是让老师从教书转变到育人。今天,越来越多的互联网工具让老师从非常传统的工作当中解放出来,比如说作业可以自动批改了,老师应该把更多的时间放在育人上。

  刘畅:如果有了数据,让老师更好的了解每一个孩子的性格特点,能够找到每个孩子的特长,真正激发孩子的兴趣,把育人的工作做好了,其实教书就会变得很容易。

  刘畅:看一个真实的中国案例,来自于中国上海今日学校,这个小学是一个农民工子弟学校,90%的学生家庭都并不富裕,而且孩子们的学习成绩参差不齐,这里的主人公老师叫做倪佳青老师,有两个班,一个班称为叫做对照班,另外一个班叫做实验班。倪佳青老师工作非常简单,就是通过“一起作业”后台的数据给全班不同的学生布置了不同的作业和练习,不到三年的时间我们看到数据有了非常的大的变化,我们发现实验班的成绩都非常快的提高。

  刘畅:其实背后的道理和原因很简单,当每一个孩子都能够得到个性化内容的时候,这个时候学生们实际上会获得学习一种最美好的感觉叫成就感。解决了一个学习动力的问题,学习的主动性,学习的分数就会自然地上升。

  刘畅:其实今天,“一起作业”已经连接了137万个老师,上千万的学生和上千万的家长,每天有上亿条的学习数据在产生。数据越多,我们给每个学生的个性化学习路径就会规划的越科学,大数据开始让学习开始成为一种美好的体验。

  刘畅:我相信,大数据对于学校的老师而言,最大的改变是让老师从依赖于经验的教学,慢慢的是靠数据驱动来教学。从解决班级的共性问题,到解决每一个孩子的个性问题。到从帮助孩子学习,到真正帮助每一个孩子进行能力成长,大数据真的可以让老师从教书慢慢的走向老师本应该有的职责,叫做育人。

  刘畅:大数据对于家庭而言,我们认为最大的价值贡献叫做记录成长看见未来。我们看一组来自“一起作业”后台上千万的学生和家长我们分析和统计的数据,数据很有趣,70.2%的家长认为对孩子陪伴不足,下面的数据说给在座的爸爸妈妈们,有93.6%的家长陪孩子的时候看手机,上千万的数据统计,我们看到当父母同时关注孩子的时候,我们后台的成绩可以达到平均分90.21分,如果只有妈妈关注孩子的成绩,平均分是87.13分,如果父母都不关注孩子,很不幸平均分是81.74分。

  刘畅:陪伴对于教育的力量,我们可以举一个非常真实的例子,故事的主人公来自山东青岛,在这个城市当中,有一个家庭离婚了,父母离开了之后,孩子跟父亲在一起,母亲每天很难过,很想了解孩子的一切。他只能及时打电话鼓励自己的孩子,发现小孩儿有哪些单词掌握的不好,有哪些数学题掌握的不好,打电话通过数据给孩子指导,大数据互联网真的没有办法解决两个人物理界面的问题,但是他们的心却连在一起。

  刘畅:大数据互联网实际上对家庭教育的价值远不只如此,我们知道随着越来越多学习数据的收集,包括孩子心里测评数据的收集,我们相信中国的家长未来,包括现在已经开始通过数据越来越科学的帮助家长进行小学阶段兴趣培训班的选择,到了初高中阶段文理的分课,甚至到了大学阶段高中阶段对于大学学科的选择,大数据越来越多的让家长从感性的对孩子的认知转化到更加得理性,更好的通过数据记录孩子的成长,能够帮助孩子更好的判断未来。

  刘畅:大数据对于我们的城市教育,乃至国家教育,我们总结一下,最大的价值叫做数据驱动、教育均衡。我们知道过去受传统的技术条件限制,大多数的区、省是依赖于每学期一次或者每年一次的抽测或者统一考试进行教学评估。

  刘畅:但是这样的数据统计和以天为单位的,每天数以亿计的作业统计对比的话,大量的数据统计对学习的分析变得更客观。第二以每天的数据来对老师进行反馈,这样的反馈恐怕对教学的帮助会更大。

  刘畅:我们来看两个有价值的例子,第一个例子,是来自于对北京市所有的小学听说读写四项技能的数据统计和分析,我们看到非常有趣的是,随着过去的两到三年中国有大量的APP训练小孩语音的软件出现。我们突然发现,中国在北京这个城市为例,好的地区和不好的地区,这四大技能反而差异最小的是“说”这个技能。好的地区和不好的地区,差异4.5%。但是写作的差异高达9.8%。

  刘畅:再举一个例子,“一起作业”也开始响应国家的号召,在后台引入了各种素质作业的内容,我们引入了很多西方的绘本。我们在后台看了各个省、市、区对素质类作业的引入比例,我们发现中国各个地区差距很大。

  刘畅:标注的有北京、上海、广州属于第一阵营,我们惊讶的发现使用相对来说比较差的倒数后面两个省有两个是我们超越我们认知的,一个湖北省和山东省,这两个省都是中国著名的高考大省,高考的压力从高中传导到初中,甚至传导到小学,我们的数据未必全面,但是这样的数据可以方便国家行政主管部门可以更好的通过数据能够管理教育,更好的促进教育公平。

  刘畅:最后,特别感谢互联网大会,感谢大数据论坛给教育一个机会,给教育一个舞台。科技中有温度,数据里有梦想。特别希望“一起作业”可以跟更多的教育互联网公司真正助力中国实现教育的强国之梦,谢谢大家。

  【2016-11-17 17:56】

  主持人:谢谢刘畅先生,让我们再次用掌声对他的精彩演讲表示感谢。尊敬的各位来宾,各位朋友、各位专家,女士们、先生们,刚才11位嘉宾围绕大数据的发展与安全这一主题做了精彩纷呈的演讲,对助力大数据可持续发展可以说有着非常重要的现实意义。在这里,我想用一句话为今天的大数据论坛做总结,我们今日所研讨,正是为了未来更美好的生活。再次向各位参会嘉宾表示衷心感谢。第三届世界互联网大会大数据论坛到此结束,谢谢大家!

  • 高春东中国科学院办公厅副主任
  • 邓麦村中国科学院秘书长
  • 雷伊?雷蒂图灵奖得主,卡内基梅隆大学教授
  • 倪光南中国工程院院士,中国科学院计算所研究员
  • 饶?寇他科里澳大利亚墨尔本大学终身教授,澳大利亚科学院院士、澳大利亚工程院院士
  • 潘建伟中国科学院院士,中国科学技术大学常务副校长、教授
  •                        
  • 陈金俊IEEE可拓展计算委员会主席
  •                        
  • 余晓晖中国信息通信研究院总工程师
  •                        
  • 安东尼?斯格非亚诺邓白氏公司全球高级副总裁兼首席数据科学官
  •                        
  • 谭晓生奇虎360公司高级副总裁兼首席安全官
  •                        
  • 邵晓东蚂蚁金融服务集团安全管理部总经理
  •                        
  • 张灏北京亚信数据有限公司首席执行官
  •                        
  • 刘畅上海一起作业信息科技有限公司创始人、首席执行官
  •                        
  • 潘建伟中国科学院院士,中国科学技术大学常务副校长、教授

0086-571-85311391(参会咨询)

0086-571-85800770-213(参展咨询)

0086-571-85195207 service@wicwuzhen.cn QQ2092919312

世界互联网大会官方微信平台