新闻

报料热线:81850000

您当前的位置 : 中国宁波网  >  新闻中心  >  宁波  >  时政·经济
新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题
2024-06-25 19:42:00 稿源: 中国宁波网  

  宁网编前语

  随着宁波国家级互联网骨干直联点的开通,5G、5G-A的加速推广以及超算中心的加快建设,稳步推进的宁波网络基础设施,正不断优化营商环境,更好服务保障高质量发展。

  6月3日起,中国宁波网推出“新基建智‘绘’未来”系列报道,从企业、市民的角度出发,寻找宁波网络基础设施赋能经济社会高质量发展的新故事。

  中国宁波网记者 殷聪 王嘉彬

  你能想象吗?在公共视频领域,也存在“盲人摸象”问题。由于摄像头的角度,单个摄像头看到的场景都有自己的局限性。

  “我们要做的就是通过大模型,对多个场景跨摄像头的视频进行分析,将每个摄像头‘看’到的局部场景串联起来,反应出‘大象’的全部面貌。”6月25日,在演示“风华·苍鹭”视频场景理解大模型的过程中,宁波大学研究生院副院长钱江波透露出他的雄心壮志:要加快场景应用,早日兑现公共视频数据的价值。

钱江波正在和同学讨论大模型相关问题。

  据钱江波介绍,随着数字媒体的普及,视频已成为市民生活中不可或缺的一部分,被用来记录、传输和展示。因此,对于视频的处理和理解变得越来越重要。虽然深度学习以及神经网络技术的发展,使得视频场景理解取得了一定的进展。但现阶段视频训练数据大多来源于网络视频,多局限于日常拍摄的小场景,数据量以及类型十分有限。针对不同监控场景,视频场景理解大模型缺位明显。

  比如,某个摄像头拍到两个人正围着一辆电瓶车互相推搡,你的第一印象可能是一起普通的交通事故;而另一个摄像头拍到两人追逐,你的第一印象可能是打闹。但结合两个摄像头的视频,将信息串联起来就能判断出这可能是一起抢劫事件。

马路上常见的摄像头。

  “单个公共视频的数据虽然有用,但将其由点及面,进行数据的分析,意义更大。”钱江波说,为破解公共视频“盲人摸象”的瓶颈,由郑纬民院士指导、宁波大学钱江波教授等多位老师共同参与研发的“风华·苍鹭”视频场景理解大模型,通过构建视频大数据库,可在多个场景实现跨摄像头的视频分析,解决了视频“盲人摸象”的问题。这也是全球首个基于昇腾AI的视频场景理解大模型。

  与国外的视频场景理解大模型不同,国外公共视频数据大多以水平拍摄为主,而国内的公共视频数据以俯拍为主。“因此,建立拥有自主知识产权的视频场景理解大模型显得更为重要。”钱江波说,大模型的发布仅仅是个开始。未来,他们需要大量的视频资源,不断训练大模型,并对其进行持续的迭代与更新。

钱江波。

  由于视频的数据量巨大,原本学校购买的计算能力已远远满足不了大模型迭代发展的要求。随着宁波人工智能超算中心的上线与扩容,成功补上了宁波城市级大型超算中心缺失的短板。拥有300P的智算算力以及5P超算算力的超算中心,自然成为了宁波大学大模型迭代升级的“最优解”。

  “1P算力代表超算中心每秒可进行1000万亿次的浮点运算。”钱江波说,以智算为例,在图像处理领域,1P算力可提供每秒约10万张图片的处理能力,可同时为约500辆汽车提供道路实况分析。

  钱江波给记者算了一笔账:同样的数据量,在超算中心内计算只需要花费100个小时,与此前相比提升了百余倍。与超算中心的合作,将加快大模型的迭代速度,不断优化和提升它的性能与稳定性。

  “风华·苍鹭”,未来可期。

编辑: 应波纠错:171964650@qq.com

扫一扫,中国宁波网装进手机

中国宁波网手机版

微信公众号

中国宁波网(宁波甬派传媒股份有限公司)版权所有(C)

Copyright(C) 2001-2024 cnnb.com.cn All Rights Reserved

互联网新闻信息服务许可证:3312017004 信息网络传播视听节目许可证:1104076

违法和不良信息举报电话:0574-81850000 举报邮箱:nb81850@qq.com

新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题

稿源: 中国宁波网 2024-06-25 19:42:00

  宁网编前语

  随着宁波国家级互联网骨干直联点的开通,5G、5G-A的加速推广以及超算中心的加快建设,稳步推进的宁波网络基础设施,正不断优化营商环境,更好服务保障高质量发展。

  6月3日起,中国宁波网推出“新基建智‘绘’未来”系列报道,从企业、市民的角度出发,寻找宁波网络基础设施赋能经济社会高质量发展的新故事。

  中国宁波网记者 殷聪 王嘉彬

  你能想象吗?在公共视频领域,也存在“盲人摸象”问题。由于摄像头的角度,单个摄像头看到的场景都有自己的局限性。

  “我们要做的就是通过大模型,对多个场景跨摄像头的视频进行分析,将每个摄像头‘看’到的局部场景串联起来,反应出‘大象’的全部面貌。”6月25日,在演示“风华·苍鹭”视频场景理解大模型的过程中,宁波大学研究生院副院长钱江波透露出他的雄心壮志:要加快场景应用,早日兑现公共视频数据的价值。

钱江波正在和同学讨论大模型相关问题。

  据钱江波介绍,随着数字媒体的普及,视频已成为市民生活中不可或缺的一部分,被用来记录、传输和展示。因此,对于视频的处理和理解变得越来越重要。虽然深度学习以及神经网络技术的发展,使得视频场景理解取得了一定的进展。但现阶段视频训练数据大多来源于网络视频,多局限于日常拍摄的小场景,数据量以及类型十分有限。针对不同监控场景,视频场景理解大模型缺位明显。

  比如,某个摄像头拍到两个人正围着一辆电瓶车互相推搡,你的第一印象可能是一起普通的交通事故;而另一个摄像头拍到两人追逐,你的第一印象可能是打闹。但结合两个摄像头的视频,将信息串联起来就能判断出这可能是一起抢劫事件。

马路上常见的摄像头。

  “单个公共视频的数据虽然有用,但将其由点及面,进行数据的分析,意义更大。”钱江波说,为破解公共视频“盲人摸象”的瓶颈,由郑纬民院士指导、宁波大学钱江波教授等多位老师共同参与研发的“风华·苍鹭”视频场景理解大模型,通过构建视频大数据库,可在多个场景实现跨摄像头的视频分析,解决了视频“盲人摸象”的问题。这也是全球首个基于昇腾AI的视频场景理解大模型。

  与国外的视频场景理解大模型不同,国外公共视频数据大多以水平拍摄为主,而国内的公共视频数据以俯拍为主。“因此,建立拥有自主知识产权的视频场景理解大模型显得更为重要。”钱江波说,大模型的发布仅仅是个开始。未来,他们需要大量的视频资源,不断训练大模型,并对其进行持续的迭代与更新。

钱江波。

  由于视频的数据量巨大,原本学校购买的计算能力已远远满足不了大模型迭代发展的要求。随着宁波人工智能超算中心的上线与扩容,成功补上了宁波城市级大型超算中心缺失的短板。拥有300P的智算算力以及5P超算算力的超算中心,自然成为了宁波大学大模型迭代升级的“最优解”。

  “1P算力代表超算中心每秒可进行1000万亿次的浮点运算。”钱江波说,以智算为例,在图像处理领域,1P算力可提供每秒约10万张图片的处理能力,可同时为约500辆汽车提供道路实况分析。

  钱江波给记者算了一笔账:同样的数据量,在超算中心内计算只需要花费100个小时,与此前相比提升了百余倍。与超算中心的合作,将加快大模型的迭代速度,不断优化和提升它的性能与稳定性。

  “风华·苍鹭”,未来可期。

编辑: 应波

纠错:171964650@qq.com