面向商务大数据的知识图谱引擎构建方法与关键技术研究
在大数据发展所造就的数字经济时代,商务大数据融合与分析的关键技术与方法成为最显 著也亟待突破的难题。本项目以阿里藏经阁(知识引擎)研究计划为依托背景,以阿里电商平 台积累的多源异构商务大数据为基础,重点围绕商务大数据所面临的知识多样性和逻辑复杂性 、全景式知识图谱融合、高动态高时效的场景化决策管理等问题,开展面向商务大数据的知识 图谱引擎构建方法和关键技术研究。具体以面向符号与向量相结合的知识图谱表示学习框架为 技术基础,开展基于知识表示学习的大规模知识图谱融合、场景化知识图谱补全与推理分析等 方面的关键技术研究,涉及的关键科学问题包括:复杂知识结构的表示学习、全景式深度语义 融合和高动态高时效的可微分知识推理。并结合多个真实的商务场景加以应用(如新零售、跨 境电商等),为多边市场主体的决策与管理进行知识赋能,包括精准捕捉并智能识别消费趋势 、基于多图谱融合的货品重组、智能导购链路和智能管控等。
项目题目
² 国家自然科学基金重大研究计划“面向商务大数据的知识图谱引擎构建方法与关键技术研究”( 9184620032 ),2019年01月01日 - 2022年12月31日
项目说明

图1面向阿里商务大数据的知识引擎构建框架
本项目的研究意义主要表现为以下四个方面: 首先,从知识角度出发,本项目提出以知识图谱技术为基础的系统化的面向商务大数据的知识表示、融合、分析与推理的技术与方法,建构面向商务大数据的知识图谱引擎,将知识图谱技术与应用从通用领域延展到商务领域。 其次,本项目主要针对商务大数据的多源、异构、高速变化特征,提出大规模、高动态知识图谱融合与分析方法,既有全景式知识视图又有场景化知识推理,构建既有“有 学”(知识融合)又“有识”(智能推理)的知识引擎。 第三,本项目将依托阿里巴巴内部沉淀下来的商务大数据,结合阿里“藏经阁”计 划,将拟建构的智能化知识图谱引擎进行示范应用,充分体现做有高度影响力、有实践价值、并有实际商业载体的科学研究。 第四,本项目应用对象兼顾多边市场,为多主体进行知识赋能,提供价值增值的大 数据分析服务,既为阿里电子商务平台的用户(包括消费者、卖家)提供智能化导购服 务,辅助买方的购物决策与卖家的供货决策,又为平台的运营管理者ᨀ供智能化管控服务,有益于提升平台运营方对货品的质量控制与管理效率。
本项目立足于现代知识图谱技术,结合阿里“藏经阁”计划,提出一套面向多源、异构商务大数据的知识图谱引擎构建技术与方法,重点突破知识图谱融合与推理分析技术,针对阿里电商平台上真实的商务场景构建出“有学识”的商务大数据服务平 台,并在阿里平台上加以示范应用,充分展现现代知识图谱技术在辅助商务大数据融合 与分析上的关键作用。
项目工作
· ViDE: A Vision-Based Approach forDeep Web Data Extraction
Deep Web contents are accessed by queries submitted to Web databases and the returned data records are enwrapped in dynamically generated Web pages (deep Web pages). Extracting structured data from deep Web pages is a challenging problem due to the underlying intricate structures of such pages. In this paper, a novel vision-based approach that is Web-page programming-language-independent is proposed. This approach primarily utilizes the visual features on the deep Web pages to implement deep Web data extraction, including data record extraction ,data item extraction and a new evaluation measure revision to capture the amount of human effort needed to produce perfect extraction.
· Emo2Vec: Learning Emotional Embeddings via Multi-Emotion Category
Sentiment analysis or opinion mining for subject information extraction from the text has become more and more dependent on natural language processing, especially for business and healthcare. Most of existing sentiment analysis methods incorporate emotional polarity (positive and negative) to improve the sentiment embeddings for the emotion classification. This paper takes advantage of an emotional psychology model to learn the emotional embeddings in Chinese firstly. In order to combine the semantic space and an emotional space, we present two different purifying models from local (LPM) and global (GPM) perspectives based on Plutchik’s wheel of emotions to add the emotional information into word vectors.
· 基于学术空间的计算机中文期刊引文分析
中文学术期刊日益得到重视,国家出台相应政策促进中文学术期刊的发展,CCF推出了中文期刊目录。要提升中文学术期刊的影响,还必须从基础数据做起,提升期刊在学术评价中的影响力。我们基于学术空间(ScholarSpace)中积累的近60年计算机中文期刊文献完成引文分析,给出了中文期刊总体发展趋势和特色分析,以期为建立中文期刊的学术评价体系提供依据,并提升中文期刊在评价体系的价值。下面将介绍本次引文分析的部分内容。



项目成果
张祎,孟小峰.InterTris:三元交互的领域知识图谱表示学习[J].计算机学报,2021,44(08):1535-1548.
Shuo Wang, Aishan Maoliniyazi, Xinle Wu, and Xiaofeng Meng. Emo2Vec: Learning emotional embeddings via multi-emotion category[J]. ACM Transactions on Internet Technology (TOIT), 2020, 20(2): 1-17.
Xinle Wu, Lei Wang, Shuo Wang, Xiaofeng Meng, Linfeng Li, Haitao Huang, Xiaohong Zhang & Jun Yan. A unified adversarial learning framework for semi-supervised multi-target domain adaptation[C]//International Conference on Database Systems for Advanced Applications. Springer, Cham, 2020: 419-434.
Shuo Wang. Knowledge Representation for Emotion Intelligence[C]. 2019 IEEE 35th International Conference on Data Engineering PhD Symposium (ICDE PhD Symposium). Macau SAR, China. 2019: 2096-2100.
Xiaofeng Meng , Zhuoya Fan , Hanting Su . Citation analysis of computer Chinese journals based on academic space[J]. Computer Communication, Vol15(10):63-68, 2019.
Y Zhang,Z Du,X Meng. EMT: A Tail-Oriented Method for Specific Domain Knowledge Graph Completion[C]. Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2019, Macau, China.
| Maintained by WAMDM Administrator() | Copyright © 2007-2017 WAMDM, All rights reserved | 京公网安备110402430004号 | 京ICP备05066828号-1 |
