主要研究工作

-基于情感可控的个性化多模态数字药物生成(现阶段)

在AIGC(人工智能内容生成)研究中,通过文字控制图像和视频的生成已经达到了较好效果,然而通过人的感受反馈,特别是情感反馈来控制音乐、图像和视频的AIGC技术仍存在挑战。本研究方向关注能够实时和“个人情感”对齐的多内容(音乐,视频,图像,脑电,文本等)生成技术、鲁棒性的个性化多模态数字内容生成框架和基于HITL的质量评估及反馈研究等,以通过AIGC生成能让人情绪乐观的数字内容来缓解焦虑症、抑郁症等精神类疾病。目前已在一区期刊INF以及IPM上提出了跨模态的情感细粒度对齐以及融合方法;在CCF B类会议ICASSP上提出了用于多模态情感交互的多通道注意力图卷积网络;在CCF A类会议的Workshop McGE 上首次提出了关注人工设计图像质量评估的方法,获Best paper Award。

-基于逆强化学习的人在回路计算(现阶段)

依靠挖掘海量数据中的规律来解决领域问题已经取得显著成效,然而如何使用有限数据解决依赖于专家知识的领域问题(如医学、法律、教育)仍是难点,这就需要探索有效路径使智能体依靠专家知识实现持续自我进化。本研究关注领域智能体演进过程中关键表征数据的小样本挖掘技术、具有较强适应性的人机知识融合框架以及能够高效反馈的人机交互方法。以期构建专家领域知识介入下的可持续演进领域智能体。目前已在一区期刊提出使用基于逆强化学习的人在回路方法;在CCF B类会议ICME上提出由场景级专家和对象级专家组成的双专家蒸馏网络获取小样本中的关键表征数据的方法;在一区期刊Knowledge-Based Systems提出了一种有效的聚类算法,作为该研究的有效支持;研究工作中所提出的基于人机混合的人群计数方法作为核心技术贡献参与申报并获得了2022年度上海市技术发明一等奖(排名13/15,唯一学生)。

-基于深度学习的复杂文档版面布局分析

简单版面文档理解随着大模型的发展已经逐渐成熟,然而如何理解复杂布局的文档(杂志、古籍以及古代医学书籍)仍是挑战。本研究方向关注复杂版面的生成、复杂版面的挖掘以及复杂版面的生成与评估。打通复杂文档布局生成分析、评估的完整工作,构建从文档生成到评估的完整体系,构建产学研用的完整通路。目前已在CCF B类会议ICME会议提出了基于图层建模的复杂文档生成方法;在文档处理顶级会议ICDAR提出了基于VAE的文档布局生成框架;在一区期刊INFORMATION SCIENCES期刊提出了基于显式边缘嵌入的文档布局分析方法;在一区期刊IPM以及CCF B类会议ICME上提出了基于动态残差特征融合的文档布局分析统一框架;核心技术获华为认可并启动了与华为诺亚方舟的合作,核心指标在InfographicVQA 任务上居于榜首(截止2023年11月,领先谷歌17%);参与CCF技术公益黑客马拉松大赛获最佳方案奖;研究工作中所提出的基于显式边缘嵌入的文档布局分析工作参与申报并获得了2022年度上海市科技进步二等奖(排名6/10)。