【数据挖掘巨擘俞士纶:真实数据源不止一个,学习不仅要有深度还要有广度】

  • 日期:11-05
  • 点击:(1785)


雷锋《人工智能科技评论》报道,2019年10月17日至19日,CNCC 2019在苏州金鸡湖国际会议中心举行。雷锋网络作为一种战略合作媒介,覆盖了整个会议。

事实上,当我们谈论大数据时,我们并不是说所有的数据都很大,而是整个数据都很大。通常情况下,我们有来自不同来源的许多(小)数据,这些数据或多或少是相互关联的。如果我们能够集成这些不同的数据源,我们将挖掘出更多有价值的信息。

俞时轮教授认为,首先我们应该同意这样的观点,即所有类型的数据都是可用的,换句话说,没有无价值的数据。问题的关键在于我们如何整合这些数据。那又如何呢?这需要“广度学习”。

所谓“广度学习”,俞时轮教授认为,其本质是如何整合各种数据以获取更多信息。

在采访中,余教授向《人工智能科学与技术评论》强调,广度学习的重点是数据,而深度学习的重点是模型。换句话说,深度学习的“深度”是指数据训练模型层的深度。广度学习的“广度”是指我们的培训模型的广泛数据类型。这两个概念关注不同的点,但是可以在同一个模型中组合。

从具体的技术路线来看,余时轮教授认为,广度学习的类型大致可以分为三类:

首先是学习同一实体上不同类型的信息。这种广度学习包括多视角学习、多源学习、多模式学习等。

第二是学习不同但相似实体的信息。这包括迁移学习。

另一种是学习具有复杂网络类型关系的不同类型的实体信息。这包括融合异构信息网络(HIN)。

对于广度学习,有两个关键任务:信息融合和知识发现。因此,有两个基本挑战。一是找出哪些数据是有用的,以及如何将它们融合在一起。第二是了解您想要挖掘什么(并非所有数据都对特定的知识发现有用),以及如何从合并的数据中挖掘有用的知识。

有许多例子。

例如,药物发现。新药上市通常很贵,因为开发新药的成本非常高,新药在被发现之前可能会失败数千次。然而,如果我们能使用大数据技术进行预测并删除那些不成功的案例,我们就能在很大程度上降低新药研发的成本。然而,一种药物能否治疗疾病不仅取决于药物的化学成分。事实上,这需要许多不同类型的信息或数据。例如,基因信息、器官组织信息、药物传播临床试验信息等。传统的数据挖掘方法只能对一种信息进行深入挖掘,但事实上,如果你想获得更好的结果,就需要整合各种信息。下图结合了多个不同数据之间的关系,这实际上是一个异构网络。

例如,虽然这两个数据不同,但它们相互影响,然后它们可以直接链接在一起。两种化学物质,如果它们有相同的副作用,可以说是相关的。这种联系可以帮助我们决定一种药物是否有用。

俞石闻教授认为,在大数据时代,数据是最宝贵的资源。对于个人和企业来说,大数据的挖掘将是一个颠覆性的机会。大数据有四个“V”,因此挖掘大数据也是一个挑战。余教授的报告主要是解决大数据的多样性,即通过整合异构数据源来进行广度学习。现实生活中的数据通常不仅是一个数据源,而且是多个数据源。因此,有效的学习需要广度和深度。

雷锋网报道。

一点信息可以帮助你跳到原文。