今天,KDD 2024 正式公布了多个重磅奖项,包括创新奖、新星奖、时间检验奖、最佳论文奖和博士论文奖等。
其中,KDD 最大技术奖项“创新奖”由加州大学圣克鲁斯分校杰出教授 Lise Getoor 摘得,她的研究方向为机器学习、不确定性下的推理、数据库和人工智能。
“新星奖”获得者为弗吉尼亚大学电气与计算机工程系、计算机科学系和数据科学学院助理教授 Jundong Li(李骏东),其研究方向为数据挖掘和机器学习,特别关注图机器学习、可信赖/安全的机器学习,以及大语言模型(LLM)。
此外,来自石溪大学、微软亚洲研究院、威廉与玛丽学院和中国科学技术大学等高校和机构的科研团队获得了时间检验奖、最佳论文奖等奖项。如下:
KDD,全称“国际数据挖掘与知识发现大会”(Knowledge Discovery and Data Mining),是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析等概念的会议,每年都吸引着全球最顶尖的研究者和学者的关注。第一届 KDD 举办于 1995 年,今年的 KDD 2024 是第 30 届,于 8 月 25-29 日在西班牙巴塞罗那举行。
创新奖作为 KDD 大会中颇具分量的奖项,旨在表彰在数据发现和数据挖掘领域做出杰出技术贡献的研究者,并对促进理论和商业系统的发展产生持久影响。
今年的创新奖颁给了加州大学圣克鲁斯分校杰出教授 Lise Getoor,她的研究兴趣在于机器学习、不确定性下的推理、数据库和人工智能。其他感兴趣的课题包括:数据集成、数据库查询优化和近似查询处理、实体解析、信息提取、效用诱导、不确定性下的规划、基于约束的推理、抽象和问题重构。她的研究主题是构建和使用结构化、半结构化和非结构化数据的统计模型来执行有用的任务。
今年的新星奖颁发给了弗吉尼亚大学电气与计算机工程系、计算机科学系和数据科学学院助理教授 Jundong Li(李骏东)。
李骏东在加入弗吉尼亚大学之前,先后在浙江大学、阿尔伯塔大学和亚利桑那州立大学获得软件工程学士、计算机科学硕士和计算机科学博士学位。他在高影响力期刊上发表了超过 150 篇论文(包括 KDD、、NeurIPS、ICML、ICLR、IJCAI、AAAI、ACL、EMNLP、NAACL、SIGIR、CIKM、ICDM、SDM、ECML-PKDD、CSUR、TPAMI、TKDE、TKDD、TIST 等),引用次数超过 12000。他获得了包括 SIGKDD 最佳研究论文奖(2022 年)、PAKDD 最佳论文奖(2024年)、NSF 职业奖(2022 年)、PAKDD 早期职业研究奖(2023年)、摩根大通教授研究奖(2021 年和 2022 年)、思科教授研究奖(2021 年)等多个奖项。
时间检验奖旨在表彰过去十年对数据挖掘研究社区产生重大影响,且目前仍被引作新研究分支基础的 KDD 大会杰出论文。
他们提出了一种学习网络中顶点潜在表示的新方法 DeepWalk。这些潜在表示将社会关系编码在一个连续的向量空间中,可以被统计模型轻松利用。DeepWalk 将近期在语言建模和无监督特征学习(或深度学习)方面的进展从词序列推广到了图上。DeepWalk 通过截断的随机游走获取局部信息,将游走视为句子的等价物来学习潜在表示。他们在几个多标签网络分类任务上展示了 DeepWalk 的潜在表示,这些任务针对的是社交网络,如 BlogCatalog、Flickr 和 YouTube。
结果显示,DeepWalk 在存在缺失信息的情况下,表现优于那些允许全局网络视图的挑战性基线。当标记数据稀疏时,DeepWalk 的表示能够提供比竞争方法高多达 10% 的 F1 分数。在一些实验中,DeepWalk 的表示在使用的训练数据减少 60% 的情况下,仍能超越所有基线方法。DeepWalk 也是可扩展的。它是一个在线学习算法,可以构建有用的增量结果,并且可以轻松地并行化。这些特性使得它适用于网络分类、异常检测等广泛的真实世界应用。
SIGKDD 时间检验应用科学奖旨在表彰在现实世界应用中产生真正影响的数据科学研究工作。
城市空气质量信息,如 PM2.5 的浓度,对于保护人类健康和控制空气污染具有重要意义。尽管一个城市中的空气质量监测站数量有限,但空气质量在城市空间中的变化是非线性的,并且取决于多种因素,如气象、交通量和土地利用等。
研究团队根据现有监测站报告的(历史和实时)空气质量数据以及他们在城市中观察到的多种数据源,如气象、交通流量、人类流动性、道路网络结构和 POIs,推断整个城市的实时和细粒度的空气质量信息。他们提出了一种基于协同训练框架的半监督学习方法,该框架由两个独立的分类器组成。一个是基于人工神经网络(ANN)的空间分类器,它以空间相关特征(例如,POIs 的密度和高速公路的长度)作为输入,来模拟不同地点空气质量之间的空间相关性。另一个是基于线性链条件随机场(CRF)的时间分类器,涉及时间相关特征(例如,交通和气象)来模拟一个地点空气质量的时间依赖性。
结果显示,他们的方法在四类基线方法上具有优势,包括线性/高斯插值、经典扩散模型、决策树和 CRF 等知名分类模型以及 ANN。
ACM SIGKDD 博士论文奖旨在表彰数据科学、机器学习和数据挖掘领域当年或前一年优秀博士毕业生的杰出工作。每届会议一般会评选出一个冠军、至多两个亚军和若干荣誉奖。
文本表示学习在赋能涉及处理、分析和利用人类生成文本数据的自然语言处理(NLP)任务方面发挥了关键作用。这些表示通常通过深度神经网络(如 Transformers)将原始文本转换为向量来获得。大语言模型(LLM)的最新进展展示了学习适用于广泛应用范围的通用文本表示的巨大潜力。这一成功得益于两个关键因素:(1)在预训练和微调过程中使用大量文本数据来训练 LLM,(2)将 LLM 扩展到包含数十甚至数百亿个参数。因此,训练 LLM 涉及巨大的成本,包括获取大量标注数据和支撑这些大模型的基础设施。受这些挑战的启发,该研究旨在开发高效有效的文本表示学习方法,涵盖以下几个关键子主题:
这些工作共同促进了文本表示的更高效和有效的学习,解决了训练和使用 LLM 资源密集型本质所带来的挑战。
最近的深度学习方法能够将其参数中融入大量的世界知识。然而,它们在执行对记忆知识的符号推理方面仍然有限,例如回答需要数值和逻辑推理的复杂问题。另一方面,符号人工智能(AI)在推理任务上表现出色,但在适应新知识方面效率低下。现有尝试将这两个领域结合起来的工作通常集中在构建基于解析的神经符号系统上。由于符号模块不是可微分的,这些基于解析的系统不能从原始数据端到端训练。相反,它们通常需要大量标注中间标记程序,并呈现出重大的扩展挑战。
该论文最终研究目标是使神经模型能够以可微分的方式与符号推理模块交互,并且无需中间标签就能端到端地训练这样的神经符号模型。为了实现这一愿景,作者进行了以下工作:
设计新颖的推理模块:设计可以执行符号推理的可微分神经模块,包括知识图谱推理和复杂的逻辑推理。
通过符号自监督学习:通过结构化和符号知识库的自监督来训练神经模型,无需额外的标注。
跨领域泛化:神经符号系统由于其模块化设计的本质,有助于更好地泛化到分布外,词汇外,跨语言和跨类型。
将这些部分结合起来,作者正在追求构建具有推理能力的端到端神经符号系统的终极愿景,向着真正的人类智能迈进。
监测和预测流行病是政府官员、企业和公众进行决策和规划的重要工具。在许多方面,尽管我们在理解疾病如何在人群中传播方面取得了多项进展,但我们对流行病如何传播的理解仍处于初级阶段。许多主要挑战源于其他复杂的动态,如流动性模式、政策遵从性,甚至数据收集程序的变动。由于努力从新来源收集和处理数据,关于许多这些变量的细粒度数据变得越来越可用。然而,这些数据集利用传统的流行病数学和基于智能体的模型方法很难发挥作用。另一方面,流行病学中的人工智能(AI)方法面临着数据稀疏、分布变化和数据质量差异的挑战。AI 也缺乏对流行病动态的理解,这可能导致不切实际的预测。本研究利用多个示例来展示,将 AI 的数据驱动表现力引入流行病学,可以使得流行病的监测和预测更加敏感和精确。
作为一种可解释技术,广义加性模型(GAMs)采用神经网络单独为每个特征学习非线性函数,然后通过线性模型将这些函数组合起来进行最终预测。尽管 GAMs 可以在特征层面上解释深度神经网络(DNNs),但它们需要大量的模型参数,并且容易过拟合,这使得训练和扩展变得困难。此外,在具有许多特征的现实世界数据集中,基于特征的解释对人类来说可解释性会降低。
为了解决这些问题,最近的研究转向了基于概念的可解释方法。这些方法试图在做出预测之前将概念学习作为一个中间步骤,用人类可理解的概念来解释预测。然而,这些方法需要领域专家广泛地用相关名称及其真实值标注概念。
为此,研究团队提出了 CAT,这是一种新颖的可解释的基于概念的泰勒加性模型,以简化这个过程。CAT 不需要领域专家标注概念及其真实值。相反,它只要求用户将输入特征简单地分类到广泛的组中,这可以通过快速元数据审查轻松完成。
具体来说,CAT 首先将每组输入特征嵌入到一维的高级概念表示中,然后将概念表示输入到新的白盒泰勒神经网络(TaylorNet)中。TaylorNet 旨在使用多项式学习输入和输出之间的非线性关系。在多个基准测试上的评估结果表明,CAT 可以在减少大量模型参数需求的同时,超越或与基线竞争。重要的是,它可以通过高级概念有效地解释模型预测。
序列推荐(SR)系统是现代推荐系统的重要组成部分,因为它旨在捕捉用户不断变化的偏好。为了提高 SR 系统的能力,已经付出了巨大的努力。这些方法通常遵循以模型为中心的范式,涉及基于固定数据集开发有效的模型。然而,这种方法常常忽视了数据中潜在的质量问题和缺陷。在数据中心化人工智能(AI)的推动下,研究团队提出了一个新颖的数据中心化范式,用于开发理想的训练数据集,使用一个名为 DR4SR 的模型无关的数据集再生框架。这个框架能够再生具有卓越跨架构泛化能力的数据库。此外,他们引入了 DR4SR+ 框架,该框架结合了一个模型感知的数据集个性化工具,以专门为目标模型定制再生数据集。为了证明数据中心化范式的有效性,他们将框架与各种以模型为中心的方法相结合,并在四个广泛采用的数据集上观察到显著的性能提升。此外,他们还进行了深入分析,以探索数据中心化范式的潜力,并提供有价值的见解。
研究团队推出了一个部署的大规模图神经网络框架 LiGNN。他们分享了在 LinkedIn 上开发和部署大规模 GNNs 的见解,提出了一系列算法改进,以提升 GNN 表示学习的质量,包括具有长期损失的时间图架构、通过图密度化、ID 嵌入和多跳邻居采样实现的有效的冷启动解决方案。他们解释了如何通过自适应采样邻居、分组和切割训练数据批次、专门的共享内存队列和本地梯度优化,在他们的 LinkedIn 图上构建并加速了 7 倍的大规模训练。他们总结了通过 A/B 测试实验获得的部署经验和教训。这项工作为工作申请回复率提高了大约 1%,广告点击率提升了 2%,Feed 日活跃用户参与度提高了 0.5%,会线%,以及人员推荐带来的周活跃用户提升了 0.1%。
毅力号火星漫游车代表了在火星上可以进行的测量规模的代际变化,然而这种分辨率的提高为探索性数据分析技术带来了新的挑战。漫游车上的多个不同仪器各自测量科学家感兴趣的具体属性,因此分析潜在现象如何共同影响多个不同仪器是非常重要的,以便理解全貌。然而,每个仪器都有其独特的分辨率,使得重叠数据层之间的映射变得复杂。在这项工作中,研究团队引入了嵌套融合(Nested Fusion)方法,它能够结合不同分辨率的任意层次的数据集,并在可能的最高分辨率下产生一个潜在分布,编码不同测量和尺度之间的复杂相互关系。他们的方法适用于大型数据集,即使是在未见数据上也能进行推理,并且在现实世界的火星漫游车数据上,性能超过了现有的降维和潜在分析方法。他们已经在美国宇航局喷气推进实验室(JPL)的一个火星科学团队中部署了该嵌套融合方法,并通过多轮参与式设计,极大地提升了真实科学家们的探索性分析工作流程。
作为国内外大模型行业的领航者,智谱AI 有多项研究成果被 KDD 收录,技术团队也将在 poster 环节,进一步与现场参会者分享研究成果。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。