猫猫狗狗都在说啥?让AI来翻译一下!
大模型开发/技术交流
- LLM
5月20日555看过
你是否曾好奇——
猫咪边伸懒腰边看你是什么意思?
每次在你身边发出咕噜声都是什么意思?
狗狗舔你的脸又是在表达什么?

百度最新AI专利公布,用AI拆解动物语言
↓↓↓

那么,它是如何做到的呢?
第一步:多模态数据采集
把“主子”说的“喵喵、汪呜、嗷嗷嗷……”
全都录下来!

用摄像头拍下狗子摇尾巴、打滚、蹦蹦跳跳……

甚至心跳、体温、微表情……都不放过~
动物不会说话,但浑身都是戏!
只有把叫声、动作、心跳这些“身体弹幕”一起翻译
才能更好地了解TA们在说什么
就像你同时看字幕+听语气+观察表情
才能真正听懂朋友的“潜台词”!

第二步:多模态数据预处理
给收集到的数据“洗澡”
过滤掉风声、说话声,P掉背景里的杂乱画面

把各种叫声、动作、心跳
……
通通翻译成计算机专用暗号

更重要的是,它能实现时序对齐
当设备检测到的叫声、动作时间对不上
AI可能会误解情绪——
以为狗狗在几秒钟内经历了大喜大悲↓

但实际是同步发生的
该专利技术会把心跳、叫声、动作
全标记为“14:00:03事件”

时序对齐,就是调整这些数据的时间戳
让它们同步
经过清洗及融合后的数据
则为下一步的情感识别打下了基础
第三步:情感识别
第三步:情感识别
该专利采用了深度学习模型
对融合后的多模态数据进行声音特征提取
视觉动作特征提取,以及体征变化分析
得到多模态特征向量
采用生成对抗网络
对多模态特征进行情感分析
得到动物的情感识别结果
额……比较难懂对吧

举个例子:
当你家狗子突然压低嗓子“呜呜”低吼
浑身肌肉绷得像石头
眼睛瞪得铜铃大

这时,该专利会启动“破译程序”——
先翻出《狗狗行为图鉴》

然后对比叫声频率、炸毛程度、心跳数据

综合判断:“这货不是凶,是太紧张了!”
(快摸摸TA吧)

第四步:语义翻译
使用预训练的语言模型和深度学习技术
将动物的情感特征与人类语言中的相应表达
建立对应的关系
识别出动物的情感意图
然后用语言生成器转化为人类语言
简单来说就是将动物的语言、行为转化为人话

不仅如此
该专利还能实现动态更新样本数据
AI遇到不懂的叫声或行为时
会提醒用户输入标签

学习后的AI会更新优化,举一反三
越教越聪明~

大胆的想象一下!
未来,狗狗的吠叫、猫咪的咕噜
各种动物的微表情、行为……
通通能翻译成人类语言!比如——
宠物诊所内兽医看着翻译结果:“牙疼等级★★★★,建议立即治疗!”野生动物保护区研究员手机弹出:“象群情绪紧张,可能有暴风雨!”动物园互动游客扫码听解说:“长颈鹿说:今天的树叶不够新鲜!”
或许未来
我们能真正实现与动物的“对话”
而不仅是“单方面的翻译”
百度正尝试将AI技术应用于动物交互的方方面面,并申请了数十件相关专利,包括:宠物走失寻回、野生动物识别、动物状态检测……用AI技术拉近人类与动物的联系。
截至2024年底,百度在全球29个国家和地区累计公开人工智能专利申请突破2.7万件,其中,中国专利申请量达2.2万件,授权量达1.2万件,连续7年位居国内第一。
评论
