logo

百度 AI & Rokid 智能眼镜 — 沉浸式多语言学习系统— 沉浸式多语言学习系统

bilibili演示视频
bilibili.com/video/BV12tPpzTE5W/
一、项目愿景
Memora是一款基于 Rokid Glasses的沉浸式学习系统,通过视觉、听觉与轻
交互将“背单词”转变为一种自然的日常体验。我们强调“零干扰、零心理负担”的学
习哲学:在光的引导下让记忆顺势发生,在“感知一强化一回忆”的循环中逐步形成
长期记忆。
二、用户痛点与机会
核心痛点:
手机端学习易被短视频/社交打断,专注时间难以形成。
复习以“数量导向”居多,缺少基于遗忘曲线的时序化安排。
单一感官输入为主(只看或只听),缺少输出环节导致记忆易衰减。
碎片时间没有被充分利用(通勤、排队、步行)。
机会判断:
Rokid Glasss 具备“低干扰、近感官、可随时启动”的载体优势。
LLM/TTS/ASR 技术成熟,低成本生成高质量学习素材与反馈。
教育内容进入“穿戴化/场景化”阶段,非娱乐型AR 应用存在蓝海。
三、产品定位与价值主张
Meora=“沉浸式英语记忆系统+个性化 AI复习教练”
专注:眼镜端 HUD呈现核心信息,避免无关刺激。
轻学:长按+头控+语音的极简交互,随时开始、随时暂停。
页脚 1强记:结合跟读评分/听写/写等输出方式,多通道巩固。
高效:AI 自动编排复习节奏,遵循艾宾浩斯与个人表现双重曲线。
四、学习流程与场景设计
1)Spark(初识):建立高效短期记忆
• 展示词汇+音标+例句关键词;同步播放TTS。
可语音指令“慢读/再读/换音色”;可标记“重点/忽略/生僻”
上下班通勤、等电梯等短时场景优先触发。
2) Echo(回响):多通道强化
Slent Mode:不出声的环境使用“听写/注视选择/手写联动”
Speak Mode:可出声时进行跟读,ASR实时评分并可视化反馈。
引入“肌肉记忆”(抄写/空写)与“语音输出”,提升巩固强度。
3) Flow(巩固):AI 间隔复习
结合遗忘曲线(多阶段)与个人正确率/响应时长,动态决定复习批次与顺序。
错题与低分项自动加入“高频短间隔复习池”
提供“被动复习广播”模式:步行/洗漱时系统自动播报并轻问答。
页脚 2五、眼镜端交互规范
启动:长按触控一学习菜单(最近付计划/复习役置)。
选择:长按进入选择态,AB/CAD 固定映射上/下/左/右,头控指向松手确认。
语音:唤醒词或长按触控触发,支持“下一条/播加加入重点” 等指令。
HUD:只显示“词汇/标/例句要点评分条”,避免堆叠信息。
六、手机端功能结构
(1)学习数据与质检
学习时长、完成量、正确率、跟读评分曲线、响应时长分布。
词汇掌握雷达图(拼写/韵/语义/例句理解)。
复习热力日历,支持一键回看“今日/本周/本月” 关键词组。
(2) 计划设置与词库管理
选择词库(CET4/6、IELTS/TOEFL、商务英语等),设定每日目标与时间窗。
复习强度可调:保守衡/进取三档(影响间隔与题量)。
重点/黑名单词库:重点高频循环,黑名单暂不出现。
(3) AI会话区
逐词讲解、语音纠错、个性化例句生成(支持限制词汇级别)。
页脚 3错题重构:基于同义/近义混淆词生成新题,避免机械记忆。
场景任务:如”出差英语”
一周训练营(每日10分钟)。
七、技术架构(概览)
设备端:Rokid Glases(UI/HUDAMU/麦克风/扬声器/本地缓存)。
移动端:Memora App(用户管理、数据面板、计划设置、支付与订阅)。
云端服务:
1.LLM
内容生成引擎:基于大模型生成例句、解释与测验题;
2.TTS
语音合成:调用Rokid 灵珠语音服务生成自然发音;
3.ASR
发音评测引擎:评估用户语音,给出音素级评分与建议;
4.Memory
Scheduler结合用户表现与遗忘曲线生成个性化复习计划。
八、灵珠平台(LingzhuPlatform)集成设计
灵珠平台是 Rokid 基于 Coze Studio推出的官方 Al Agent框架。Memora 将灵
珠作为智能中枢,通过 Agent来实现语音理解、意图识别与技能执行。Agent 是系
统的“大脑”,可以理解用户的语音、解析指令并自动调用对应功能模块。
(1)Agent 模块结构-Definition(角色定义):
例如“你是一位英语学习助手,帮助用户在Rokid眼镜上记忆英语单词”;
Skill(技能模块):包含播放语音、生成例句、启动复习、发音打分等函数
页脚 4Knowledge(知识库):词汇表、用户历史数据、学习日程;
Plugin(插件):绑定外部接口(TTS ASR、LLM、云端AP);
Tricger(触发词):“开始学习”
“复习昨天的单词”
“检查发音” 等语音触发
指令。
(2) 指令交互流程
用户:“开始学习今天的单词”➡ Agent解析意图一调用TTS播放单词 JHUD 展
示➡ 启动 ASR等待用户跟读。用户:“我刚才发音怎么样” Agent调用AS3 发音评
测➡ 返回得分与纠错建议➡ HUD 实时显示反馈。系统事件触发➡ Agent自动唤起
复习提醒➡ 推送学习任务至手机端同步更新。
(3)通信架构
用户语音输入➡ Rokid OS 灵珠 Agent层(意图解析/Skill 调用/插件接口)
Memora应用本地显示层➡ 云端数据服务。Agent承担核心逻辑调度作用,使系统
具备持续学习、自适应调整与实时反馈能力。
(4) 开发与部署流程
1.在灵珠平台创建 Agent,定义技能、触发词与知识库路径;
2 绑定插件接口(TTS、ASR、LLM);
3.使用灵珠可视化调试器测试指令链路;
4.部署至 Rokid Glasses, 配置 Weohook 与云端同步 Token。
(5) Agent拓展方向
多Agent作机制:如“学习教练”
“语音纠错师”
用户可在 Rokid灵珠市场中选择不同版本(CET4版、IELTS版等);
“复习督导”;- Agent市场化:
页脚 5自学习反馈:Agent可根据用户习惯调整语气与响应逻辑,形成个性化学习体
验。
八、复习调度算法(示例逻辑)
输入:词条掌握度S(0)、最近正确率R、平均反应时T、最近复习距今At。
输出:下一次复习时间tnext与题型组合P。示例:tnext= base_interva(S)
x f(R)× dT)x h(误差权重);当R』或T个时,缩短间隔并提升“输出型题目”
(听写限读);当 S>高阈值且稳定,延长间隔并降低题量。
支持用户手动干预:标记“必背/暂缓”,即时重排。
九、指标体系与A/B实验
核心KP:7日留存、30日留存、周学习时长、中位复习间隔达成率、词条长期
掌握率。
学习质量指标:跟读中位分、反应时下降幅度、错题回归率。
实验方向:被动广播模式的触发频率、不同题型混排比例、音色偏好的对学习
质量影响。
十、商业模式与路线图商业模式:
订阅:基础免费+会员(A评测、进阶词库、定制音色包)。
B2B:与教育机构/出版商合作提供“眼镜端课程包”
页脚 6渠道:与 Rokid合作预装/联名,或在其应用市场首发。
十一
、风险与对策
硬件佩戴时长有限:以短时高频触达为核心,5-8分钟一段。
算力/延迟:语音前后处理尽可能本地化,批量TTS离线缓存。
版权与合规:优先使用授权词库;Al生成内容进行人工抽检与敏感词过滤。
隐私:默认关闭云端录音存储;提供一键删除与本地仅缓存模式。
十二、用户的一天(示例流程)
07:50地铁上:Spark 模式浏览12个新词;1235午休步行:广播模式复习 2组
错题;18;10 回家路上:Edho跟读10分钟并获得评分;21;30睡前:Flow阶段完成
今日 AI 推荐复习批次;次日08:00:收到“记忆日历”提醒,进入下一轮。
十三、结语
Menora不只是一个背词工具,而是“把注意力从手机夺回”的学习方式革新。我
们用光连接知识与大脑,用Al把复习节奏变得个性化、自动化,让记忆恢复为一种
自然能力,重新定义了学习,它让人们在光影和语音之间完成知识沉浸,让学习回归纯
粹,自然与延续.通过灵珠平台的智能体架构,Menora将成为ar时代教育创新代表
github连接,技术细节和下载安装包,具体蓝牙连接因为需要sdk验证sn,需要重新编译
码云链接gitee
评论
用户头像