内容审核,靠人工还是靠机器?
去年开始,快手、火山小视频等数十家短视频社交平台在数月内相继被网信办约谈,短视频社交平台从此迎来了一系列大刀阔斧的整改篇章。不久前,网信办会同有关部门对吱呀、语玩、一说FM等26款音频社交平台进行新一轮全面集中整治,新兴的音频社交平台迎来不少质疑。
在一年多的时间内,互联网的UGC内容审查方向均在走向人工强干预,业界甚至有人认为,真正靠AI审核内容可能还需要5-10年的窗口期。现实已经表明,只有督促互联网公司承担社会责任,强调算法的价值观,在产品设计上创新未成年人保护措施,加强内容安全监管,才能杜绝短视频社交平台中的种种乱象。
人工干预已成行业共识
得益于算法技术的发展,互联网公司通过用户画像实现了相对精准的信息推送。但如果不对信息的分发加以干预,诸如强烈性暗示、虚假信息、软色情等内容就会在推荐网络中蔓延,科技界、媒体界由此展开了关于“算法有没有价值观”的讨论。
字节跳动创始人张一鸣曾发表公开信,表明为纠正机器与算法的缺陷,将原有6000人的运营审核队伍,扩大到10000人。2018年4月被网信办约谈后,快手官方表示,将原有2000人的审核团队扩充至5000人。在“算法有没有价值观”这一命题上,快手和字节跳动最终作出了少有的共同选择。
今年4月,探探因整改下架,在其后陌陌第1季度财报会议中,唐岩表示将加大内容审核业务上的资源投入。最新一轮开展集中整治的26款音频社交平台中,社交应用Soul也公开回应称将严格审核相关功能和内容,其整改措施中同样包括加强审核团队建设,将会增招大量内容审核及主管级人员。
如今的探探,在其朋友圈发表动态会进入长时间的审核状态。而在Soul,其动态内容审核据称已全面覆盖除机器判定外的两道人工审核流程,在未来新版本中当动态内容判断为涉嫌违规时也会直接给予用户提醒。
上述四款应用的整改措施都在强化人工审核在内容审查机制中的主导作用,从一个侧面印证了机器分发的局限性。
机器审核只能辅助识别
得益于音视频技术的发展,音视频匹配通话、音视频直播、音视频信息流等新型媒介走进人们的数字屏幕,给人们带来崭新的通讯体验和娱乐视听上的享受。音视频内容技术审核要求高,完善审查机制耗费较大人力财力,但这并不代表一筹莫展。
音频内容的机器审核方案中,音频识别转文本匹配关键词是目前通用的基础方案。先识别音频中的语言语种,语音识别转化为文本信息后索引出关键词,在这一过程就可以植入现有文本识别中的上下语义分析,机器识别出与模型相似度最高的垃圾内容进行剔除。但正如机器与算法的缺陷,目前业界的音频识别技术能力尚未到达可以完全代替人工审核的阶段,特别是在处理方言、有不同音轨的杂音等场景时。
视频内容实则由音频内容、视频画面内容两个对象组成,视频画面内容的机器审核,业界目前常采用截取画面帧上传识别,最终复用的是图片识别通道对场景、人物、物品进行判断是否违规。但以常用的24帧标准为例,一个60秒的视频就多达1440个画面帧,要实现覆盖全画面帧的机器审核则会耗费极大的资源,故此常见的审核设计是设定视频的截取时段选取部分画面帧进行机器审核。在无法覆盖全画面帧的审核的条件下,自然就出现了视频内容“闪现”色情违禁内容的风险,更有甚者,一些人通过画面内容隐晦表达,图片的机器审核难以理解表义。
其实无论什么载体的媒介,在真正的AI时代来临之前,所有的机器审核都只会是人工的辅助。在流程设计上,机器审核可以做到的就是帮助运维者先行剔除大量确切违规的内容,剩下的人工审核流程可不能说省就省。举个例子,一张人像图片,可以划分为“色情”、“性感”、“正常”三个维度,机器审核可以根据肉体裸露的程度进行判断,实际上信息的表义可没那么简单,究竟该怎么定义“性感”?全无裸露的人体通过场景与动作的表达能不能达到人们对“色情”的认知?
人生而爱美,如果说“性感”可以从性暗示程度、信息接收者的舒适度作为标杆,那么定性标尺就掌握在网站运维者手上,各社交平台的编辑责任制也诞生。
围绕重点开展技术创新
今年3月,国家网信办组织抖音、快手、火山小视频试点“青少年防沉迷系统”,其主要功能在于独立分发未成年用户的专属内容,以及限制其使用时长。
防沉迷系统最初应用于游戏行业,而短视频新媒介具有沉浸式体验强、占据用户时长的特点,将防沉迷系统适配到短视频里,在业界起到了理想的标杆效应。
今年“六一”儿童节前夕,国家网信办指导西瓜视频、好看视频、哔哩哔哩、微博等14家短视频社交平台,以及腾讯视频、爱奇艺、优酷、PP视频等4家网络视频平台统一上线“青少年防沉迷系统”。