推广 热搜: 三农  工业机器人  乙方  二手数控车床  上海进口报关公司  二手工程机械  二手挖掘机  二手反应釜  2022  二手机械进口报关 

Serge Belongie:计算机视觉和机器学习领域的杰出科学家

   2024-08-02 网络整理佚名770
核心提示:虽然上述论文鲜为人知,但Serge本人是计算机视觉和机器学习领域极具影响力的科学家,主要研究对象识别和图像分割,他各类论文引用总量为178971万次。

虽然上述论文鲜为人知,但 Serge 本人是计算机视觉和机器学习领域颇具影响力的科学家,主要研究物体识别和图像分割,其论文累计被引用次数达 178,971,000 次。

Serge Belongie 是哥本哈根大学计算机科学教授,也是丹麦人工智能先锋中心主任。此前,他曾担任康奈尔科技学院副院长以及 Andrew H. 和 Ann R. Tisch 计算机科学教授。

最值得一提的是,Serge 是 MSCOCO 的主要作者。

MSCOCO数据集是计算机视觉最著名的大型数据集之一。2000年,Serge和Jitendra Malik(现加州大学伯克利分校计算机系教授,计算机视觉领域著名学者)共同提出了“形状上下文”的概念,这是计算机视觉和物体识别领域广泛应用于一种形状特征描述方法。

2004年,Serge被《麻省理工技术评论》评为35岁以下青年技术创新者;2007年,他与Jitendra Malik一起获得马尔奖荣誉提名;2015年,Serge获得ICCV亥姆霍兹奖,该奖项主要颁发给在计算机视觉领域做出基础性贡献的论文作者。

Serge 还是多家公司的联合创始人,包括 Digital Persona(2014 年与 CrossMatch 合并)、CarCode(被 Transport Data Systems 收购)、Anchovi Labs(2012 年被 Dropbox 收购)和 Orpix。

目前,Serge的团队正在探索社交网络分析的新维度——从大量此前未受关注、不适合传统事实核查的琐碎言论出发,分析社交网络上的议程设置与“叙事操纵”。

这在当前具有特殊意义:

世界反法西斯战争之后,无论是技术突破还是瓶颈交替,都随着时间的流逝在历史画卷中跌宕起伏,如同在时空坐标系中展开的《清明上河图》,充斥着从古至今的万千景物和形形色色的人物。

以下是A女士和Serge之间的对话。

1. 可证伪性受到挑战

实践中的研究人员经常受到他们喜欢或不喜欢的叙述的影响——有点类似于 Instagram 上的热门话题。

A女士:“不可证伪的,就不是科学”,已经成为科学界的普遍共识。然而,不少哲学家对此提出质疑,认为可证伪性原则可能引发无休止的科学争论。可证伪性是科学进步的必要条件吗?

塞尔吉:根据普遍的看法,科学理论必须是可证伪的。

A 女士:这是一种流行的观点,但是可证伪性是当今流行的范式吗?

Serge:过去 15 年来,机器学习文献呈爆炸式增长,每天都有大量论文发表和引用。在这些论文中,相关工作经常引用其他论文,但引用的论文不一定是与其工作最相关的论文。这是因为论文数量巨大,研究人员实际上是在回应该领域的主流叙事。

我们常常认为自己是卡尔·波普尔 (Karl Popper) 式的科学家,只受可证伪断言的影响。然而,科学研究中也存在一些趋势,例如生成对抗网络和 Transformers 等技术。虽然这些论文旨在遵循科学传统,但研究人员在实践中往往会受到他们喜欢或不喜欢的叙述的影响——有点像 Instagram 上的热门话题。

A女士:你的意思是,自从机器学习以来,科学家已经开始偏离可证伪性的常态了?

Serge:科学家往往声称自己不受这些事物的影响,认为自己是客观的,但他们毕竟是人,也会受到这些流行观点的影响。我们认为这不是科学的,而是一种直觉和观点。

A女士:您如何定义社交媒体中不可证伪的言论?

Serge:我们首先需要讨论关于事实核查的文献。例如,哥本哈根大学的 Isabelle Augenstein 教授开发了一种方法,该方法首先确定声明的验证值。我们选取一个声明,并在 0 到 1 的范围内确定其验证值。

例如,加州首府是萨克拉门托这个陈述非常适合语法和句法检查,因为它可以在多个结构化知识库中找到。我们可以检查这样的陈述:“加州首府是萨克拉门托”,并给它一个可能接近 0.99 的可验证性分数。然后我们将其提交给结构化知识库以确认答案。这个基于深度学习的可验证性系统处理大量语句和训练数据,以评估不同语句的验证值。

但有些说法,如“移民加州不好”,更多的是个人观点,不太适合进行事实核查。相比之下,诸如“加州移民数量自2020年以来持续增加”等说法则具有较高的验证价值。

因此,我们特别关注难以核实的言论——无法直接核实但在社交媒体上引发有意义对话的言论。多次检查可能有助于我们做出更好的判断。

A 女士:在您的研究中,使用了哪些具体技术或工具来识别和分析不可证伪的主张?

Serge:我们使用自然语言处理(NLP)技术、聚类和分组算法以及机器学习方法。

我们的目标是创建一个全球叙事信息设施(GNIF)来研究和组织社交媒体内容。

这些技术和工具的结合使我们能够更好地理解和处理大量叙述内容,间接帮助识别不可证伪的主张。

我们分析所有形式的文本,从推文到 Reddit 评论,使用 NLP 来提取和理解内容中的叙述和主题。

其次,我们使用了聚类和分组算法,这有助于我们将大量社交媒体内容组织成不同的主题或叙述。

例如,我们发现,在数百万条推文中,有数千条推文非常相似,因为它们都涉及相同的基本叙述。

通过叙述聚类和断言分组,我们将大量内容组织成较小的集群,让事实核查人员能够更高效地处理它们,而不必逐一检查每一项。这样,即使是不可证伪的主张也可以通过聚类和分组来识别和分类,从而更容易进一步分析和处理它们。

我们接受两个输入,例如两条推文,并根据不同的叙述方面来衡量它们的相似性——主题例如核能和绿色能源之间的争论,或婴儿配方奶粉和牛奶的讨论。

网上有很多热议话题,通常是虚假信息宣传的结果。这些宣传可能非常模糊。我们试图了解的是这些不同的陈述如何以语言或模因的形式表现出来,这些语言或模因可能包含图像、文本、音频陈述等,这些陈述看起来是完全不同的内容。社交媒体平台上可能收集了数百万条关于某个主题的讨论,但所有数据可能只暗示了几十种观点。我们试图通过大型语言模型、深度度量学习和其他技术来理解这些现象。

社交媒体的假新闻__社交媒体时代定义

人工注释对的可视化。子图 (a) 显示正对,即人工注释的相似或一致叙述对。子图 (b) 显示负对,即人工注释的不相似或不一致叙述对。来源:在不可证伪的声明中寻找结构

2. 超越“真或假”

并非所有主张都值得核实,也并非所有事实核查都会产生真实或虚假的结果。

贾女士:您创建的 MSCOCO 数据集是计算机视觉领域最著名的大型数据集之一。您是如何开始的?

Serge:15 年前,我们开始研究物体检测,当时我们有一个小型数据集 CUB200,里面有 200 多种鸟类。COCO 数据集最初是我博士生 Tsung-Yi Lin 在微软研究院的一个暑期实习项目,当时他的导师是我的另一位博士生 Piotr Dollá。这个项目逐渐发展成为一个由学术界和工业界研究人员组成的联盟。他们希望创建一个数据集,可以详细描绘自然环境中的日常物体,并准确注释这些物体的名称和空间位置。

Ms.A:你把数据集命名为MSCOCO,我很喜欢Coco,它的英文名也是Coco。

Serge:是的,我们都喜欢“COCO”这个名字,它很有趣而且容易记住。

贾女士:MSCOCO数据集出现后,计算机视觉领域的发展如火箭般腾飞。

Serge:是的,我们围绕 COCO 组织了越来越多的知识社区,COCO 已经被数百万人使用。我们从小处做起,最终发展出了一个影响深远的研究领域。

我参加的第一个计算机视觉会议是 CVPR 1994,也是在西雅图举行的。那是三十年前的事了,当时大约有 300 人参加。现在,2024 年,西雅图有 12,000 人。

答:已经 30 年了。是什么驱使您对计算机视觉和人工智能研究始终保持热情?

Serge:从我记事起,我就对模式和分类事物很感兴趣。在中学时,我做过一个关于对螺丝、螺栓和其他紧固件进行分类的课堂项目。在大学里,我开始对音频模式感兴趣,尤其是生物声学,比如鸟叫声或鲸鱼叫声。在图像中,指纹和人脸真的让我着迷。

我研究过视频中的唇读。我对这个问题的各个方面都很着迷:音频和视频的融合、不同说话者之间的差异以及计算挑战。20 世纪 90 年代初,数码相机刚刚问世,但它们还没有任何形式的计算理解。今天,你可能会认为取景器中的面部检测框或相册软件可以智能地整理你的整个家庭照片,但当时还不存在这些。

我觉得这项技术的需求量很大,我也喜欢它背后的数学。我喜欢这些领域使用的技术,但我不想主修数学或物理。例如,复杂的数学用于解决声音、视频和图像处理中的问题。

我一直觉得我在这个世界上的使命就是做这样的工作。

Ms.A:您在今年的 CVPR 上做了哪些学术报告?

Serge:我的团队在 CVPR 主会议上提交了几篇论文,我也在两个研讨会上做了演讲。其中一个演讲关注的是计算机视觉研究的历史,主要帮助年轻学者了解经典的计算机视觉技术,也就是深度学习和 transformers 之前的技术。我还介绍了 Visipedia 项目,该项目始于 2011 年发布的 CUB200 数据集的扩展版本。目前,Visipedia 的研究内容已经扩展到数以万计的植物、动物和真菌,为自然界中的物体识别提供了重要的研究基础。

另一篇报道是我今天采访想重点分享的,它与叙事、舆论、虚假信息有关,特别是在社交媒体发展的背景下。

A女士:您的工作给这个领域带来了什么创新?

Serge:虚假信息和社交媒体领域的经典问题是事实核查。例如,哥本哈根大学就有很多相关工作。一般的做法是,对于某些需要验证的陈述,我们利用人工智能系统搜索相关事实,并根据事实预测一个介于 0 到 1 之间的真实性分数。

女士 A:这种方法面临什么挑战?

Serge:这种方法本身没有太大问题,挑战来自于问题本身。并不是所有的说法都值得进行事实核查,也并不是所有的事实核查都能得到真或假的结果。例如,“熊猫是中国的国宝”这个说法可以通过结构化知识库和大量数据来训练模型来验证。然而,“搬到加州”这句话就不一样了。

女士 A:那么您认为后者这样的声明具有研究潜力吗?

Serge:后一类言论研究得不多,但同样重要。这些言论可能没有严格的真/假定义,但会在社交媒体上引发大量讨论。在我们只需要对新闻媒体进行事实核查的时代,这种挑战并不存在。在当今高度发达的社交媒体中,那些引发热烈讨论、难以科学定性或无法证伪的话题变得非常值得研究。

答:您能举一个产生实际影响,甚至导致更激烈冲突的案例吗?

Serge:很高兴你问了这个问题,我们举一个有趣的例子。当你在公共卫生间洗手时,你有两种方式来擦干双手。我不确定哪种方式在中国更常见,但在欧洲,你可以拿出纸巾或使用热风烘干机。

答:这两种方式在中国也是最常见的。

塞尔吉:烘干机制造商和纸巾制造商通过与任何连锁餐厅签订合同都能赚到很多钱。整个市场可能会产生数十亿美元的收入。但现在欧洲许多人对这两种方法的区别有非常强烈的看法。很多人说一种方法可能会传播疾病,而另一些人则说使用大量电力或制造纸张会浪费树木并造成环境破坏。大多数持有这些观点的人都不是公共卫生或环境专家。

女士 A:这些陈述本身是正确的吗?

Serge:我们其实并不关心这些说法的真实性,因为社交媒体上的许多话题都无法被严格证明或反驳。但提出这个话题是因为少数人想让公众相信一种方法比另一种方法更好。他们可能已经制造了数十万个机器人来生成相关内容。现在如果你在社交网络上搜索关于纸巾和空气干燥器的讨论,你会发现数以百万计的评论。我们的研究重点并不是严格比较两种方法的优缺点并给出事实核查结果。我们更关心的是检测这种设计好的话题。

3.社交媒体中的 COCO 数据集

避免做出草率的决定。

贾女士:您的研究开辟了另一个维度,传统的事实核查关注的是语义的真实性,而您的研究关注的是陈述或主张的语用学。预测的目标不仅限于是否真实,而是延伸到社交网络上部分用户或大量机器人出于特定目的而创建的话题讨论。您知道这个研究意味着什么吗?

Serge:是的,我们正在创造一种全新的东西。我们所知道的大多数相关研究只关注事实核查。但我们正在尝试使用与主题相关的自然语言技术对社交媒体上的讨论进行分组和聚类,以帮助个人、公司和战略家了解社交媒体上正在发生的事情。我们不对这些主题和讨论内容做出价值判断,而只是客观地展示每个问题是如何提出的。

贾女士:要实现这个目标,我们首先需要一个数据集。建立这个数据集应该是一个很大的挑战。当你开始计算机视觉研究时,你从一个小的鸟类数据集扩展到 COCO。这次你是如何开始的?

Serge:这种社交网络行为通常有一个特点,一个话题可能有上百万条相关推文,看上去有成千上万个账号参与讨论。但通过分析,我们可能会发现其中 10 万条推文其实发的是一模一样的东西,叙述非常相似甚至完全相同。但还是要记住,这并不意味着这些讨论是对是错。我们让用户看到不同表述的集群和群组,让事实核查人员和社交网络分析师更容易处理和理解大量内容,而不必处理突然涌入的数百万条推文。

A女士:这个系统能实时处理社交媒体上各种有争议的话题吗?

塞尔吉:我认为可以,我希望如此。假设两艘来自俄罗斯和美国的船只在地中海相遇。社交网络开始讨论,一个故事就此诞生。每隔几个小时,就会出现新的信息,可能是某位船长的声明,也可能是其他人发布的手机录音。在这种情况下,一些故事和问题会引起关注,而其他故事和问题可能会变得无关紧要。

A女士:您想实时捕捉主题吗?

Serge:还有其他信息。为了帮助专业外交官,我们希望创建一个仪表板,提供全面的相关信息,并将这些事件置于世界背景中。这个系统可以防止人们做出草率的决定。我想强调的是,系统本身不会决定哪一方是正确的,而是全面地组织信息。

A女士:为了实现可靠的功能,需要解决哪些困难?

Serge:有传统的挑战,也有新的挑战。传统的挑战包括语言文化的影响和情感偏见。

例如《小美人鱼》和《丑小鸭》都是丹麦作品,但迪士尼版本的故事已被改编成美国文化。由于社交网络上美国叙事比丹麦叙事更占主导地位,安徒生童话的原版在许多其他国家的网民中几乎无人知晓。

在数据标注过程中,尤其是标注社交网络数据时,受语言和文化的影响更大。比如情绪分析已经是事实核查的重要一环,而情绪预测模型本身在训练中可能存在很大的偏见和刻板印象。AI模型训练是一个垃圾进,垃圾出的过程,很难解决训练数据本身带来的问题,所以我们必须了解模型用了什么训练数据。可以说,没有人类参与的事实核查是不存在的(是不可靠的)。

A女士:有什么新的挑战?

Serge:语言模型生成的虚假内容是我们面临的新挑战。以前的虚假社交媒体账号往往遵循非常简单的模式。但借助 GPT 和图像生成模型,虚假账号创建者可以生成更复杂、更自然的虚假资料,然后伪造看似真实的社交媒体账号。这些账号不容易被传统的虚假账号识别模型发现。这些生成式 AI 模型也给传统的事实核查任务带来了相应的挑战。因此,生成式 AI 创造虚假信息和识别虚假信息将是这个时代的猫捉老鼠游戏。

4.人工智能的未来

他们(OpenAI)可能还不知道我们的计划。

贾女士:这些挑战似乎不是简单地通过模型就能解决的,可能会上升到人工智能与人类合作的维度。你似乎总是在新的维度上发现新问题,然后从简单的方法来解决它们。

Serge:是的。我们的新想法可以与维基百科进行比较。人们过去认为维基百科只需要不同语言的页面,并且对于同一节点具有相同的语义。实际情况是,不仅仅是语言不同。

语言、文化、价值观、传统,所有这些因素都混合在一起,出现在同一个条目的不同页面中。例如,原子能和化石燃料在不同语言和世界不同地区被涵盖得非常不同。所以这提醒我们,我们试图构建的 AI 系统并不是纯粹自动的,也不是一个独立运行的模型。这是一个人类参与的系统,这意味着你需要世界各地的许多不同的人类社区来注释和组织数据,并考虑所有不同的部分。这是一个深刻而大的问题,因为偏见总是存在的。

A女士:所以就像MSCOCO一样,组织尽可能全面和公正的数据是这项研究本身的目标。

Serge:这是将所有不同类型的社区组织起来的过程。世界不同地区不同年龄的人学习不同的学科,比如文学、历史和科学,每个领域都有自己的故事。为了使我所描述的研究取得成功,我们需要大量了解各种主题的注释者。他们不必是专家,但他们需要对要注释的内容有一定的了解,比如核能、创业精神或加密货币,以便知道叙述和主题之间的相似之处。因此,最大的挑战是社区的组织,而不是 AI 基础计算和存储设施。

答:Sam Altman 或 Yann Lecun 对你的想法有评论吗?

塞尔吉:他们可能还不知道我们的计划。

A女士:我仿佛见证了一项创新努力的初始阶段:在更高的维度上发现问题,并找到最直接的切入点。

Serge:如果我们开发这种用于主题检测的基础设施,就像许多技术一样,它可以用于好事,也可以用于坏事。因此,与许多商业 AI 不同,我们试图开发开放、透明和可审计的系统。因此,我们将拥有一个完全透明的知识库,用户可以在其中查看数据的编辑历史,包括数据收集的时间和使用了哪些注释器。

A女士:如何保证数据的准确性和客观性?

塞尔吉:简而言之,我们无法保证这一点。

但我们能做的最好的事情是创建一个系统,吸引成千上万对不同讨论领域感兴趣的人来注释。尽可能多的注释者可以帮助我们实现统计上的客观性。维基百科也有一些为透明度和问责制而设计的机制,我们也会这样做。

女士 A:这项研究将如何影响政策制定者、教育工作者和技术人员?

塞尔吉:你可以把我们所做的看作是对逻辑或事实推理的补充。

假设一家公司希望提高其多样性、公平性和包容性。因此,他们的董事会召开会议,讨论雇用更多女性或少数族裔。这类讨论在许多公司都很常见,例如,在一所大学,可能没有很多女性学习电气工程,而该部门希望采取措施改变这种状况。在这些会议中,可能有很多讨论没有知识或信息支持。

有些人会表达偏见,比如女性不擅长数学。这时就需要一个系统来帮助需要领导这些讨论的部门主管、首席执行官或老师。他们可以从系统中提取一组叙述来构建讨论。此外,一旦系统开始工作,它就会将这些陈述索引并解析为预先存在的叙述。通过这种方式,首席执行官、老师或会议主持人可以避免低质量或混乱的对话,并拥有一个有效的结构和分类系统来指导讨论并防止多余的对话。

A女士:您认为未来社交媒体叙事和问题分析的技术发展的潜在研究方向是什么?

Serge:不同的领域都有各自独特的挑战。其中一些是经典问题,例如处理大量数据以及如何标记它们、如何减轻偏见等。但在可视化方面,我们也面临着巨大的挑战。

我们刚才提到了不同语言和文化所面临的差异。每个特定主题都有许多不同的视角,不同的标注者会由于自身的偏见而提供不同的标注。从信息论的角度来看,试图压缩这些多样的记述可能会导致信息的丢失或损坏。这类问题会贯穿整个项目,我们会频繁遇到这些问题。

A女士:您认为哪些最新的视觉技术进展将对未来产生深远的影响?

Serge:现在越来越多的研究者开始关注多模态数据,在一个模型中同时处理图像、文本和音频等多种数据类型。这种方式通常使用 Transformer 等模型架构来解决复杂的实际问题。我相信这种趋势会持续下去,未来人工智能领域的新人会发现,同时掌握多种专业技能比单独深入一个领域更为自然,比如自然语言处理或计算机视觉。

我个人认为,虽然有些人声称人工智能将完全取代医生,但这种说法有些夸大其词,但我确信在放射学、皮肤病学和组织病理学等领域,人工智能辅助系统将变得普遍并造福于每个人。

至于自动驾驶汽车,尽管过去曾有人预测视觉技术和人工智能的进步将使自动驾驶汽车成为现实,但我认为这不太可能发生。除非政府采取措施将传统汽车限制在某些车道上或完全禁止它们,否则自动驾驶汽车在美国成为常态的可能性极小。

A女士:我很喜欢你的论文,我也有类似的想法,技术的发展同时也在解锁新的认知维度,最有价值的方法论恰恰是切入点最小却能辐射全球的方法论。

塞尔吉:你最感兴趣的方法是什么?

A女士:我举个小例子,科学沿着可证伪的路径,会走上一条不断反复的否定之否定之路……回到我们熟悉的科学革命结构。

(周航对本文亦有贡献)

由于本文涉及学术讨论,这里先简单介绍一下作者:

甲子光年创始人张一冀,2013年毕业于北京大学数学学院,获得国家发展研究院经济学双学位,曾获中国数学奥林匹克金牌,入选国家集训队,研究领域为金融数学、博弈论,同时担任北京大学数学学院院长。

甲子大脑负责人周航,2019届毕业生,北京大学数学科学学院;研究兴趣为稀疏优化、非凸优化。

参考:

在不可证伪的声明中寻找结构.pdf

978-3-319-10602-1_48.pdf “Microsoft COCO:上下文中的常见对象” MSCOCO 数据集:Serge 被引用次数最多的论文。

托马斯·塞缪尔·库恩,《科学革命的结构》

社交媒体时代定义__社交媒体的假新闻

 
举报 收藏 打赏 评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-48
Powered By DESTOON