更新时间: 浏览次数:507
中新网北京5月18日电 (记者 张素)“安全合规与隐私保护是开展大规模数据分析的前提。”深圳大学特聘教授、东壁科技数据创始人吴登生在受访时说,可以通过差分隐私、同态加密等技术手段来确保研究者不泄露个人隐私,最终助力医学数据的知识转化。
“全球医学顶尖科研成果高质量数据集索引(2019–2024)”17日对外发布。该数据集从海量医学文献中精准提取高价值科研数据,构建覆盖基础研究、医疗器械、生物医药与人工智能四个领域的多维数据框架,旨在为全球医学研究趋势研判、政策制定与产业创新提供权威数据支撑。
这一数据集由东壁科技数据联合上海财经大学数字经济学院发布。吴登生说,医学领域存在数据集质量参差不齐、结构不清、可扩展性差等问题,一定程度上制约了医学数据价值释放。此次团队创新设计了基础研究、医疗器械、生物医药、人工智能四个一级分类框架,构建了兼具深度与广度的医学知识图谱。
针对非结构化文本解析的挑战,团队开发了“数据融合—知识抽取—质量验证”三层智能引擎,通过融合期刊影响因子、学科分类等结构化信息与论文标题、摘要等文本内容,并结合大模型技术,实现了从文献到结构化医学数据的高效自动提取。
吴登生介绍说,“全球医学顶尖科研成果高质量数据集索引(2019–2024)”基于Dongbi Index(东壁指数)顶级期刊评价体系,锁定34本医学领域顶尖期刊。这些期刊涵盖肿瘤学、心血管、免疫学等学科,80%以上影响因子超过10。数据显示,2019年至2024年,34本期刊累计发表论文10.6万余篇,为高质量数据挖掘奠定了坚实基础。
通过对数据集的15260篇文献深度解析,研究团队发现,美国以9719篇核心论文位居榜首,其后依次为英国、德国和法国,中国位列第五。
进一步对中国和美国的细分领域发文以及数据集使用类型进行对比分析,吴登生说,在肿瘤发生与演进机制及防治、疾病治疗和传染病防控等研究领域,美国的研究数量均高于中国。这表明美国在基础病理机制与临床转化研究上具有更为深厚的积累与投入,中国在这些领域仍有提升空间。
但在新兴或高技术含量领域上,比如脑科学、放射治疗设备、基因疗法、医学影像等领域,中美差距相对较小。“这意味着我国在精准医疗与先进技术应用方面有望迎头赶上。”吴登生说。
研究团队此番发布的报告指出,中国凭借其广泛的国际合作网络,在数据集使用领域迅速崛起,不仅与美、英、德等传统科研强国保持频繁的学术交流,也在与加拿大、意大利、荷兰、巴西和阿根廷等新兴研究伙伴的合作中持续扩大影响力。这为中国在构建覆盖广泛、多元互补的医学数据库体系、提升国际话语权与竞争力提供了宝贵经验与合作平台。
围绕中国医学数据库建设,报告提出,一方面应构建以多组学、多中心临床试验及流行病学调查为基础的复合型数据库,保障数据的高质量与多样性。另一方面,应在数据库设计中预置完善的临床干预、长期随访和综合指标体系,鼓励开放式数据共享与跨学科联合分析等,提升数据的挖掘价值与科研转化效率。
报告建议,要主动融入并推动多国、多机构间的数据互认与标准统一,建立符合国际惯例的元数据描述规范和数据交换标准,促进国内外资源共享与协同创新。(完) 【编辑:付子豪】