往期学术例会 

2023112

会议地点:理工配楼101会议室

全体同学

内容】:

1)根据学习、科研内容进行本学期总结汇报;

2)结合学习、科研情况,构思、撰写每个人的WAMDM之数据一味,撰写完成的同学可于周四组会时将自己的"数据一味"融合到展示中。请参考先前已发布的"WAMDM之数据一味"的格式:篇幅不长、简单明了,突出一个关键词,结合两三张图片为宜,标题请注意总结为【一个关键词】(可结合本学期自己组会报告的PPT,从中截取数据一味插图,从报告的主要概念中拟定标题)。

202315

会议地点:理工配楼101会议室

艾山

【题目】:Span-taggerNested and Fine-grained Named Entity Recognition

【摘要】:命名实体识别(NER)通常被认为是一个序列标签任务,其中Nested 嵌套实体识别和fine-grained细粒度的识别具有较大的挑战性。现有的方法虽然解决了部分挑战性,但仍存在未解决的问题。基于span的方法基本解决了嵌套识别问题,但目前的方法将span独立于context从而导致语义不完整。本文提出基于span的嵌套和细粒度的实体识别模span-tagger。该方法将字符级别的序列标注转换成span级别的序列标注,由于类别数量降低使得模型细粒度的识别更有保障。span-tagger 有效解决了嵌套识别和细粒度的实体识别问题,实验表明,span-tagger在四个数据集的效果优于现有的方法。

【知识概念】:Nested NERFine-grained NER

【参考文献】:

[1] Luan Y, He L, Ostendorf M, et al. Multi-Task Identification of Entities, Relations, and Coreference for Scientific Knowledge Graph Construction[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 3219-3232.

[2] Jeong Y, Kim E. SciDeBERTa: Learning DeBERTa for Science and Technology Documents and Fine-tuning Information Extraction Tasks[J]. IEEE Access, 2022.

[3] Trivedi I, Majhi S. Span level model for the construction of scientific knowledge graph[C]//2020 5th International Conference on Computing, Communication and Security (ICCCS). IEEE, 2020: 1-6.

刘俊旭

【题目】:Example-level Privacy Analysis in Federated Learning

【摘要】:联邦学习在医疗、金融等领域的广泛应用对数据隐私保护提出了更高的要求。实现样本级别的隐私保护意味着对参与联邦学习中的任意用户都能进行独立的隐私分析,实现不同程度的隐私保护;同时,为保证最终机器学习模型的可用性,我们应尽量避免非均匀的随机噪声对模型造成的偏差,从而实现算法隐私与可用性的权衡。为实现上述目标,我们提出基于非均匀数据采样策略的隐私保护联邦学习框架,在隐私放大理论的指导下实现个性化隐私保护。实现该框架的主要挑战之一是如何设定各样本的采样概率。为此,我们对采样概率与隐私代价的关系进行了研究,利用拟合方法构建了二者的数学模型。此方法不依赖于具体的联邦学习方法,可适用任何基于SGD的训练框架中。本次报告主要分享现阶段的研究进展。

【知识概念】:Personal PrivacyUniform Privacyindividual RDP

【参考文献】:

[1] Feldman V, Zrnic T. Individual privacy accounting via a renyi filter[J]. Advances in Neural Information Processing Systems, 2021, 34: 28080-28091.

[2] Yu D, Kamath G, Kulkarni J, et al. Per-Instance Privacy Accounting for Differentially Private Stochastic Gradient Descent[J]. arXiv preprint arXiv:2206.02617, 2022.

[3] Rogers R M, Roth A, Ullman J, et al. Privacy odometers and filters: Pay-as-you-go composition[J]. Advances in Neural Information Processing Systems, 2016, 29.

[4] Zhu Y, Wang Y X. Poission subsampled rényi differential privacy[C]//International Conference on Machine Learning. PMLR, 2019: 7634-7642.

[5] Girgis A, Data D, Diggavi S, et al. Shuffled model of differential privacy in federated learning[C]//International Conference on Artificial Intelligence and Statistics. PMLR, 2021: 2521-2529.

许婧楠

【题目】:A General Framework for Auditing Differentially Private Machine Learning

【摘要】:现有的隐私审计方法通常都是对DPSGD这一特定方法进行审计,具有很大的局限性。本次汇报将介绍nips2022中的一个方法,该方法提出了一种审计框架,可以审计多种机器学习中的差分隐私算法。同时也可以用于检测由于算法实施的错误而导致的隐私泄漏。

【知识概念】:logistic regressionNaive BayesRadom Forest

【参考文献】:

[1] Lu F, Munoz J, Fuchs M, et al. A General Framework for Auditing Differentially Private Machine Learning[J]. arXiv preprint arXiv:2210.08643, 2022.

20221229

会议地点:理工配楼101会议室

张旭康

【题目】:A Study of the Fundamental Performance Characteristics of GPUs and CPUs for Database Analytics

【摘要】:现在出现了很多GPU数据库,它们声称能比CPU数据库有几十倍甚至上百倍的性能增益。但是硬件专家会怀疑这样的事情,他们认为GPU性能增益应该最大为GPUCPU内存带宽比。本次组会介绍一篇Sigmod2022年的论文,文章调查分析了当前已有GPU数据库加速的真实度,以及发现了其中GPU算子设计缺点,提出了基于TileGPU算子设计方法,让GPU算子加速增益尽可能接近内存带宽比。

【知识概念】:GPU DBMSGPU-CPU heterogeneous analysisHigh concurrency programming

【参考文献】:

[1] Shanbhag A, Madden S, Yu X. A study of the fundamental performance characteristics of GPUs and CPUs for database analytics[C]//Proceedings of the 2020 ACM SIGMOD international conference on Management of data. 2020: 1617-1632.

但唐朋

【题目】:查询负载感知下的最短路径查询

【摘要】:计算道路网络中的最短路径距离是一系列应用中的核心功能。为了实现这种距离查询的有效计算,现有算法经常应用2-hop标签,该标签为每个顶点构造标签,并通过仅执行标签的线性扫描来实现查询的计算。然而,很少有建议考虑到查询工作负载的时空特性。我们观察到,真实世界的工作负载表现出: 1) 空间偏斜,这意味着只有一小部分顶点被频繁查询;2) 时间局部性,这意味著相邻的时间间隔具有相似的查询分布。为了解决以上问题,本文提出了一个工作负载感知核心森林标签索引,以利用工作负载中的最短路径查询问题。

【知识概念】:2-hop;树分解

参考文献

[1] Zheng B, Wan J, Gao Y, et al. Workload-aware shortest path distance querying in road networks[C]//2022 IEEE 38th International Conference on Data Engineering (ICDE). IEEE, 2022: 2372-2384.

20221222

会议地点:理工配楼101会议室

刘立新

题目】:An Efficient Scheme for Traceability in Blockchain Systems

【摘要】:过度强调身份隐私保护使得区块链系统在实际应用中难以被监管,导致勒索软件、洗钱等恶意事件发生。如何在区块链系统中既能保护用户身份隐私又能追踪用户行为是值得研究的问题。现有方法大多数基于零知识证明实现,验证代价较大且不支持批量验证。本次汇报介绍一种高效的追踪方案,该方案具有高效和支持批量验证的特性。

【知识概念】:Identity PrivacyIdentity-based Signature

【参考文献】:

[1] Li Y, Yang G, Susilo W, et al. Traceable monero: Anonymous cryptocurrency with enhanced accountability[J]. IEEE Transactions on Dependable and Secure Computing, 2019, 18(2): 679-691.

[2] Shao W, Jia C, Xu Y, et al. Attrichain: Decentralized traceable anonymous identities in privacy-preserving permissioned blockchain[J]. Computers & Security, 2020, 99: 102069.

[3] Li P, Xu H, Ma T. An efficient identity tracing scheme for blockchain-based systems[J]. Information Sciences, 2021, 561: 130-140.

李梓童

【题目】:DeltaGrad:一种加速模型重训练的方法

【摘要】:当机器学习模型的数据集发生了少量改动时,一种最简单的、得到在新数据集上训练的模型的方法是将模型放到新数据集上进行重新训练,但是这种方法往往耗时较长。本次组会介绍一篇ICML 2020的论文,该论文针对这一场景,在旧数据集上训练时即保存下每一轮训练的梯度和参数,用以加速在新数据集上的梯度和参数的计算,从而减少重训练的用时。

【知识概念】:general ML techniquesrapid retrainingexact unlearning

【参考文献】:

[1] Wu Y, Dobriban E, Davidson S. Deltagrad: Rapid retraining of machine learning models[C]//International Conference on Machine Learning. PMLR, 2020: 10355-10366.

20221215

会议地点:理工配楼101会议室

王雷霞

【题目】差分隐私的范围查询研

【摘要】:区间范围查询是地理位置搜索、商品搜索、以及数据库检索中的常见查询,因场景的不同,涉及一维(1-D、二维(2-D)、至多维(M-D)的范围查询。在差分隐私中,研究者们通常基于层次树响应1-D范围查询,基于网格响2-D范围查询,并将这两种方式结合响应M-D范围查询,并致力于调节ε的划分、层次树的扇出、网格划分粒度等参数,优化范围查询的结果。最新的,ICDE 2022Wang Yufei使用Prefix-Sum Cube响应本地化差分隐私(LDP)场景下的多维查询;VLDB 2022Sepanta Zeighami使用机器学习的方法学习中心化差分隐私(CDP)场景下的二维查询。本次报告将对当前的差分隐私场景下的范围查询进行介绍,并提出,当前的本地化差分隐私的范围查询方法均依赖于数据的均匀假设,从而导致可用性的损失。我们拟从数据的均匀假设出发,构建1-D层次树与2-D网格,从而提升LDP下范围查询的可用性。

【知识概念】:tree-based range querygrid-based range queryPrefix-Sum CubeML for range query

【参考文献】:

[1] Wang Y, Cheng X. PRISM: Prefix-Sum based Range Queries Processing Method under Local Differential Privacy[C]//2022 IEEE 38th International Conference on Data Engineering (ICDE). IEEE, 2022: 433-445.

[2] Zeighami S, Ahuja R, Ghinita G, et al. A neural database for differentially private spatial range queries[J]. Proceedings of the VLDB Endowment, 2022, 15(5): 1066-1078.

彭迎涛

【题目】:推荐系统的黑盒攻击技术

【摘要】:深度神经网络的推荐系统容易受到对抗性攻击,攻击者可以将精心制作的虚假信息注入目标推荐系统来实现恶意目的(例如提升或降级目标项目)。由于目标系统的安全和隐私方面的考虑,在现实场景中,黑盒的对抗性攻击更为实用,因为攻击者无法轻易获取目标系统的结构、参数、训练数据等数据。因此,在推荐系统这类稀疏特征任务上的黑盒攻击更具有挑战性。本次汇报介绍一种知识图增强的黑盒攻击框架(KGAttack),通过深度强化学习技术学习攻击策略,提升攻击效果。

【知识概念】:黑盒攻击;强化学习;知识图谱

【参考文献】:

[1] Chen J, Fan W, Zhu G, et al. Knowledge-enhanced Black-box Attacks for Recommendations[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022: 108-117.

[2]Fan W, Derr T, Zhao X, et al. Attacking black-box recommendations via copying cross-domain user profiles[C]//2021 IEEE 37th International Conference on Data Engineering (ICDE). IEEE, 2021: 1583-1594.

2022128

会议地点:理工配楼101会议室

王文礼

题目】:大数据因果推断:方法与挑战

【摘要】:对因果的探索源于哲学,可追溯至亚里士多德时期;二十世纪九十年代,因果科学受到广泛关注,并在医疗、统计等领域中成功应用。近年来,随着机器学习发展遇到瓶颈,有学者开始反思以关联分析的局限性,围绕因果关系发现、因果推断等开展研究。大数据为因果推断提供了新的研究手段,也提出了新的挑战,本次组会从方法和挑战的角度报告大数据背景下的因果推断。

【知识概念】:潜在结果模型;因果结构模型;全空间网络;多点归因【参考文献】:

[1] Yao D, Gong C, Zhang L, et al. CausalMTA: Eliminating the User Confounding Bias for Causal Multi-touch Attribution[J]. arXiv preprint arXiv:2201.00689, 2021.

[2] Zhong K, Xiao F, Ren Y, et al. DESCN: Deep Entire Space Cross Networks for Individual Treatment Effect Estimation[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022: 4612-4620.

[3] Shalit U, Johansson F D, Sontag D. Estimating individual treatment effect: generalization bounds and algorithms[C]//International Conference on Machine Learning. PMLR, 2017: 3076-3085.

郝新丽

【题目】:GWAC光变曲线数据的异常检测研究

【摘要】:当前时间序列异常检测的相关研究可以分为单维和多维两大类,并且二者可以进行转化。但在天文科学发现的场景中,单维或多维的分析均不能满足要求:由于各天体的亮度是自主的,互相没有影响,但人工观测的过程中,产生了与时间和空间相关的噪声干扰,因此既不能当做单维时间序列单独分析每个天体,又不能简单拼接为多维时间序列。本次报告提出了一种新型的网络,用于解决天文科学发现场景下的时间序列异常检测问题。结合单维/多维的时间序列建模方式,结合时间/空间约束,并提出一种新型的异常得分计算方式,从而提高科学发现的准确性,降低误报率。

【知识概念】:谱域图卷积网络;Transformer;切比雪夫多项式

参考文献】:

[1]Tuli S, Casale G, Jennings N R. TranAD: Deep transformer networks for anomaly detection in multivariate time series data[J].VLDB,2022.

[2]Yu H, Li T, Yu W, et al. Regularized Graph Structure Learning with Semantic Knowledge for Multi-variates Time-Series Forecasting[J]. IJCAI,2022

[3]Cao D, Wang Y, Duan J, et al. Spectral temporal graph neural network for multivariate time-series forecasting[J]. NeruIPS,2020, 33: 17766-17778.

2022121

会议地点:理工配楼101会议室

马超红

【题目】:DataPrism: Exposing Disconnect between Data and Systems

【摘要】:现代系统逐渐从以模型为中心,转变到以数据为中心,因此系统故障的原因,可能在于数据。如同软件调试,在系统源代码或运营时条件定位bug,数据调试的目的,发现数据和操作该数据的系统之间的潜在脱节的原因。本次报告分享数据棱镜,确定数据驱动系统性能下降或故障的和数据相关的根本原因。

【知识概念】:数据调试;数据概要文件;干预

考文献】:

[1] Galhotra S, Fariha A, Lourenço R, et al. DataPrism: Exposing Disconnect between Data and Systems[C]//Proceedings of the 2022 International Conference on Management of Data. 2022: 217-231.

[2] Rezig E K, Cao L, Simonini G, et al. Dagger: a data (not code) debugger[C]//CIDR 2020, 10th Conference on Innovative Data Systems Research, Amsterdam, The Netherlands, January 12-15, 2020, Online Proceedings. 2020.

范卓娅

题目】:去偏对比学习

【摘要】:对比学习在表示学习中应用广泛,其核心思想是将相似的样本(正例)拉近并将不相似的样本(负例)拉远。但在无监督的场景下,由于无法获取样本的标签,正例通常是由数据增强得到,负例是随机采样得到,可能会存在负例中的样本被采样错误。本次组会介绍一篇NIPS 2020的论文,通过修改损失函数的方式消除采样偏差。

【知识概念】:对比学习;采样偏差

【参考文献】:

[1] Chuang C Y, Robinson J, Lin Y C, et al. Debiased contrastive learning[J]. Advances in neural information processing systems, 2020, 33: 8765-8775.

20221124

会议地点:理工配楼101会议室

徐冰冰

【题目】:Academic Expert Finding via (k,P)-Core based Embedding over Heterogeneous Graphs

【摘要】:找到特定领域的相关专家对于学术界和工业界是很重要的问题。该论文就是针对学术领域的精准专家推荐问题。整体解决思路就是给定一个用户输入的查询和大量的学术知识(如学术论文),从学者中找到与给定查询和学术知识最相关的专家并进行排名,输出排名结果。本次组会聚焦于问题的背景和解决问题整体的方法流程进行介绍。

【知识概念】:异构图;(k, P)-core子图挖掘算法;对比学习;专家查找

【参考文献】:

[1]Xu X, Liu J, Wang Y, et al. Academic Expert Finding via (k, P) -Core based Embedding over Heterogeneous Graphs[C]//2022 IEEE 38th International Conference on Data Engineering (ICDE). IEEE, 2022: 338-351.

[2] Kong Y X, Shi G Y, Wu R J, et al. k-core: Theories and applications[J]. Physics Reports, 2019, 832: 1-32.

[3] Zhang C, Song D, Huang C, et al. Heterogeneous graph neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 793-803.

李晨阳

【题目】:利用时效修复不一致、不完整数据

【摘要】:一致性、完整性以及时效性是影响关系型数据库中数据质量的三个重要问题,然而解决上述问题的方案往往不是相互独立的。由此,时间戳缺失、错乱、不可用会造成更加复杂的数据清洗问题,本次报告旨在为这一问题提供了一种解决思路。

【知识概念】:时效顺序;编辑距离;朴素贝叶斯

【参考文献】:

[1] Ding X, Wang H, Su J, et al. Leveraging currency for repairing inconsistent and incomplete data[J]. IEEE Transactions on Knowledge and Data Engineering, 2020.

20221117

会议地点:理工配楼101会议室

艾山

【题目】:Active Learning Based Automatic Knowledge Extraction Framework

【摘要】:信息抽取任务是知识图谱构建的核心任务,特别地,在原生零知识资源下信息抽取更加困难,需要大量标注数据,而标注数据耗时且耗力。为了解决标注问题研究者们提出了基于主动学习的信息抽取方法,主动学习的核心是训练模型过程中,由模型自己选择比较有用的样本参与训练,从而提高效率。现有的基于主动学习信息抽取方法中主要考虑了模型选择样本的查询策略,没有充分考虑模型设计和优化策略,然而,基于主动学习的训练是一种递增的训练模式,数据的大小和分布不停地变化,由于数据不停地变化使得固定参数的模型容易过拟合或欠拟合。AutoML 是一种自动化机器学习模型优化的技术,AutoML可以解决以上的模型优化问题。本文提出了基于主动学习和AutoML结合的信息抽取框架ALAIE,我们贡献主要以下两个:首先,提出了主动学习模型的基于AutoML自动模型优化策略,从数据标注和模型优化两方面提升效果;其次,针对主动学习,提出了一种新的不确定性采样和可信选择策略;最后,实验测试并验证了本文框架的有效性,和实验结果表明,我们的框架比普通的主动学习框架标注节省30%人力,总体时间缩短40%

【知识概念】:主动学习;AutoML

【参考文献】:

[1] Han Y, Li C. Entity Matching by Pool-based Active Learning[J]. arXiv preprint arXiv:2211.00311, 2022.

[2] Aggarwal U, Popescu A, Hudelot C. Optimizing Active Learning for Low Annotation Budgets[J]. arXiv preprint arXiv:2201.07200, 2022.

[3] Li Y, Wang Z, Xie Y, et al. Automl: From methodology to application[C]//Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 2021: 4853-4856.

[4] Ren P, Hou W, Sheng M, et al. MKGB: A Medical Knowledge Graph Construction Framework Based on Data Lake and Active Learning[C]//International Conference on Health Information Science. Springer, Cham, 2021: 245-253.

张旭康

【题目】:Orchestrating Data Placement and Query Execution in Heterogeneous CPU-GPU DBMS

【摘要】:由于GPU的大规模并行性和高内存带宽,人们对使用GPU加速数据分析越来越感兴趣。使用GPU进行数据分析的主要限制是GPU内存容量有限。异构CPU-GPU查询执行是缓解GPU内存容量和PCIe带宽有限的一种引人注目的方法。然而,异构CPU-GPU查询执行的设计空间尚未得到充分的探索。

【知识概念】:GPU DBMSGPU 加速;GPU内存

【参考文献】:

[1] 裴威, 李战怀, 潘巍. GPU 数据库核心技术综述[J]. 软件学报, 2021, 32(3): 859-885.

[2] Yogatama B W, Gong W, Yu X. Orchestrating data placement and query execution in heterogeneous CPU-GPU DBMS[J]. Proceedings of the VLDB Endowment, 2022, 15(11): 2491-2503.

20221110

会议地点:理工配楼101会议室

刘俊旭

【题目】:Practical DP Neural Network Training: Considerations and Strategies

【摘要】:近年来关于复杂深度学习任务与差分隐私技术结合研究涌现出大量的算法和理论工作,然而,在实际应用或实验阶段,往往面临无法在一个合理隐私预算的约束下得到一个可用模型的难题。造成这个问题的原因在于实现DPSGD的两个关键步骤——梯度裁剪与噪声扰动——与训练数据分布和模型训练参数存在千丝万缕的联系,从而影响模型的收敛性。盲目地调参会浪费大量的时间精力并且收效甚微。本次报告将讨论差分隐私保护的深度学习训练中,数据、算法和DP等不同因素对模型效果的影响,同时借助实例,讨论如何在实验中规避这些影响,从而实现更理想的训练效果。

【知识概念】:DPSGDFair learningPareto frontier

【参考文献】:

[1] Kaissis G, Ziller A, Passerat-Palmbach J, et al. End-to-end privacy preserving deep learning on multi-institutional medical imaging[J]. Nature Machine Intelligence, 2021, 3(6): 473-484.

[2] Bagdasaryan E, Poursaeed O, Shmatikov V. Differential privacy has disparate impact on model accuracy[J]. Advances in neural information processing systems, 2019, 32. [3] Fan L, Ng K W, Ju C, et al. Rethinking privacy preserving deep learning: How to evaluate and thwart privacy attacks[M]//Federated Learning. Springer, Cham, 2020: 32-50.

许婧楠

【题目】:Qantifying identifiability to choose and audit ε in diferentially private deep learning

【摘要】:隐私预算ε是差分隐私中的一个重要参数,它的取值和数据的可用性有很大关系,所以如何选取一个合适的ε是一个重要的问题。但现有方法中所提出的ε取值大多是在理论条件下计算得出,可能远高于实际所需,所以需要对ε进行审计,判断其取值是否合理。本次汇报的是vldb2022中的一篇文章,与差分隐私的不可区分(indistinguishable不同,从不可辨别(unidentifiable的角度出发,选择合适的ε并进行审计。

【知识概念】:Differential privacy(差分隐私);Differential identifiability(差分可辨性);Adversary advantage(攻击者优势)

【参考文献】:

[1] Bernau D, Eibl G, Grassal P W, et al. Quantifying identifiability to choose and audit ϵ in differentially private deep learning[J]. Proceedings of the VLDB Endowment, 2021, 14(13): 3335-3347.

2022113

会议地点:理工配楼101会议室

张旭康

【题目】:Orchestrating Data Placement and Query Execution in Heterogeneous CPU-GPU DBMS

【摘要】:由于GPU的大规模并行性和高内存带宽,人们对使用GPU加速数据分析越来越感兴趣。使用GPU进行数据分析的主要限制是GPU内存容量有限。异构CPU-GPU查询执行是缓解GPU内存容量和PCIe带宽有限的一种引人注目的方法。然而,异构CPU-GPU查询执行的设计空间尚未得到充分的探索。

【知识概念】:GPU DBMSGPU 加速;GPU内存

【参考文献】:

[1] 裴威, 李战怀, 潘巍. GPU 数据库核心技术综述[J]. 软件学报, 2021, 32(3): 859-885.

[2] Yogatama B W, Gong W, Yu X. Orchestrating data placement and query execution in heterogeneous CPU-GPU DBMS[J]. Proceedings of the VLDB Endowment, 2022, 15(11): 2491-2503.

但唐朋

【题目】:图上的最短距离查询

【摘要】:计算路网()中的最短路径距离是一系列实时响应依赖应用中的核心功能。为了能够有效计算此类距离查询,研究者们在理论和实践上做了大量工作。本次组会将和大家分享其中一些具有代表性的工作。
【知识概念】:搜索;最短路径;子图划分;独立子集;树分解

【参考文献】:

[1]图论(原书第五版)Reinhard Diestel

[2]Li Z, Chen L, Wang Y. G*-tree: An efficient spatial index on road networks[C]//2019 IEEE 35th International Conference on Data Engineering (ICDE). IEEE, 2019: 268-279.

[3]Zhang M, Li L, Hua W, et al. Dynamic hub labeling for road networks[C]//2021 IEEE 37th International Conference on Data Engineering (ICDE). IEEE, 2021: 336-347.

[4]Zhang M, Li L, Hua W, et al. Efficient 2-hop labeling maintenance in dynamic small-world networks[C]//2021 IEEE 37th International Conference on Data Engineering (ICDE). IEEE, 2021: 133-144.

20221027

会议地点:理工配楼101会议室

刘立新

【题目】:Transparent and Privacy-Preserving Data Services

【摘要】:数据透明性是指在大数据价值实现过程中,使所有参与主体均能有效获取与自身相关的全部数据信息。然而,实现透明性也同时会带来隐私泄漏问题。如何兼顾和平衡透明性隐私保护是值得探讨的问题。本次报告主要介绍USENIX Security 20231篇文章。它提出服务提供者(Service Provider)透明处理多用户数据的方法,同时保护了用户的隐私。该方法可应用于智能电网、数据广告和道路拥挤收费(Congestion Pricing)等要求透明性和隐私保护的场景中。

【知识概念】:数据透明(Data Transparency);非交互零知识证明(Non-Interactive Zero-knowledge Proof);密码学承诺( Cryptographic Commitment );可认证数据结构(Authenticated Data Structures

【参考文献】:

[1] Daniel Reijsbergen, Aung Maw, Zheng Yang, et al. TAP: Transparent and Privacy-Preserving Data Services [C]// USENIX Security 2023 Acceptedhttps://arxiv.org/abs/2210.11702

[2] Peng Y, Du M, Li F, et al. FalconDB: Blockchain-based collaborative database[C]//Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 637-652.

李梓童

【题目】:Identification for Deep Neural Network: Simply Adjusting Few Weights!
【摘要】:随着DNN模型构建成本的增加,保护模型的知识产权(IP)变得越发重要。本次组会将介绍一种只需修改少量参数的模型知识产权保护方法,通过利用训练集中位于决策边界附近的样本,为DNN打上水印
【知识概念】:DNN IP protectionKey sample selectionParameter influence
【参考文献】:

[1] Lao Y, Yang P, Zhao W, et al. Identification for Deep Neural Network: Simply Adjusting Few Weights![C]//2022 IEEE 38th International Conference on Data Engineering (ICDE). IEEE, 2022: 1328-1341.

[2] Sommer D M, Song L, Wagh S, et al. Towards probabilistic verification of machine unlearning[J]. arXiv preprint arXiv:2003.04247, 2020.

20221020

会议地点:理工配楼101会议室

王雷霞

【题目】:Multi-armed bandit for parameter tuning
【摘要】:多臂老虎机(Multi-armed bandit, 简称MAB)是在线学习中的经典概率模型,它通过不断的探索获得反馈,最从而总结得出较优的策略,获取当前决策的最大收益或者最小的累积遗憾。该模型在推荐系统、异常检测、参数优化等方面有着重要的应用。本次报告围绕如何使用MAB寻找最优参数的问题,重点介绍ICDE 2022中两篇文章,它们使用该技术在异构的网络中优化联邦学习模型。受此启发,使用MAB,我们可以在各类学习、聚类、复杂系统等复杂的迭代场景下,动态地探索最优参数并寻找最优策略。
【知识概念】:多臂老虎机 MAB、联邦学习异构性、模型剪枝 Model pruning、半监督学习 Semi-supervised learning
【参考文献】:
[1] 周志华,机器学习,清华大学出版社,2016.
[2] Jiang Z, Xu Y, Xu H, et al. FedMP: Federated Learning through Adaptive Model Pruning in Heterogeneous Edge Computing[C]//2022 IEEE 38th International Conference on Data Engineering (ICDE). IEEE, 2022: 767-779.
[3] Wang L, Xu Y, Xu H, et al. Enhancing Federated Learning with In-Cloud Unlabeled Data[C]//2022 IEEE 38th International Conference on Data Engineering (ICDE). IEEE, 2022: 136-149.

彭迎涛

【题目】:缓解知识图谱推荐的交互稀疏: 协作指& 对比学习
摘要】:图神经网络(GNNs)的模型逐渐成为知识增强推荐的主题,并在某些场景下取得了一定效果。然而,传统GNNs的知识推荐模型仍存在一些缺陷:即稀疏交互信号问题。具体来说,在交互数据和KG的充分和连贯、KG层次数据增强上考虑不足。因此,本次报告从数据增强的角度出发,分别探究了协作指导(Collaborative Guidance)和对比学习(Contrastive Learning)在知识增强的推荐系统上的应用。
【知识概念】:Collaborative GuidanceGraph Convolutional NetworksContrastive LearningMulti-view Graph Learning
【参考文献】:
[1]Chen Y, Yang Y, Wang Y, et al. Attentive Knowledge-aware Graph Convolutional Networks with Collaborative Guidance for Personalized Recommendation[C]//The 38th IEEE International Conference on Data Engineering. 2022.
[2] Zou D, Wei W, Mao X L, et al. Multi-level Cross-view Contrastive Learning for Knowledge-aware Recommender System[C]//The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.

20221013

会议地点:理工配楼101会议室

王文礼

【题目】:稳定学习:因果推断思想在机器学习中的应用
【摘要】:机器学习方法应用场景广泛,但存在解释性、稳定性和公平性问题凸显。以关联为基础的机器学习,效果很大程度取决于训练集和测试集分布的相似性,提高模型在未知测试集中效果有助于进一步拓展其应用领域,稳定学习应运而生。本次组会结合近期学习内容,从思想和方法的角度报告稳定学习相关内容。
【知识概念】:稳定学习、分布外泛华、样本重加权

郝新丽

【题目】:图神经网络在时间序列中的应用
【摘要】:图神经网络凭借其排列不变性、局部连通性等特点,可以更好地处理图数据中节点(变量)之间的复杂关系,近年来得到广泛研究。另一方面,在多维时间序列的已有研究中,通常将多个维度(变量)简单处理为多维向量而直接输入到RNN等网络中,缺乏对多个维度(变量)之间依赖关系的显式建模。出于上述动机,涌现出了一批利用图神经网络对时间序列进行建模的研究工作。本次报告分别从一维/多维时间序列、动态/静态图神经网络两个维度对现有研究进行分类,分析并总结图神经网络在时间序列中的应用现状。
【知识概念】:一维时间序列,多维时间序列,动态图神经网络、静态图神经网络,异常检测

2022106

会议地点:理工配楼101会议室

范卓娅

【题目】:数据库查询中的公平性
【摘要】:由于数据中的偏见会传递给算法,因有研究者采取将公平约束集成到数据库查询处理的方法,致力于消除数据偏见。本次组会介绍一篇公平范围查询的论文。
【知识概念】:范围查询、群体公平、Jaccard相似度

马超红

【题目】:The Price of Tailoring the Index to Your Data: Poisoning A.acks on Learned Index Structures
【摘要】:学习化索引将数据库索引的输入-输出视为预测任务,训练机器学习模型以替代传统的算法结构。实验表明学习化索引通过拟合数据的底层分布,比传统索引性能提升3倍且占用较小的存储资源。这方面已有大量的研究工作,然而目前并没有分析学习化索引范式的潜在漏洞。本次报告从安全的角度,探索学习化索引通过底层机器学习模型拟合数据的劣势。
【知识概念】:学习化索引,投毒攻击,数据隐私

2022929

会议地点:理工配楼101会议室

徐冰冰

题目】:Cross-lingual Knowledge Graph Alignment via Graph Convolutional Networks
【摘要】:文中方法主要用于解决多语言知识图的实体对齐问题。文中提出GCNsgraph convolutional networks),利用预对齐实体,通过训练,将实体表征为低维向量。实体对齐基于实体和嵌入的距离计算。嵌入基于对图结构和实体属性的学习,结合二者得到更精确的结果。
【知识概念】:知识图谱;实体对齐;Graph Convolutional Networks

李晨阳

【题目】:时间序列的插补与修复
【摘要】:在工业等领域通常以时间序列数据来记录信息,但由于传输延迟、设备损坏、重复请求等问题,导致普遍存在数据缺失和脏时间戳的情况。针对上述两个问题,本次报告分别介绍通过个体学习进行填补和基于动态规划修复时间戳的方法。
【知识概念】:Sparsity problem; Heterogeneity problem; Dynamic programming

2022711

会议地点:理工配楼101会议室

艾山

【题目】:Harvesting Knowledge from Pre-trained Language Models
【摘要】:随着当下数据规模的不断增长,人们寻求用不同的方式和手段来表示和存储数据。同时,深度预训练模型的发展,给自然语言处理带来了新的范式。新范式下预训练模型不仅给下游任务提供丰富的语义特征,而且带了新的知识和数据的表示方式。本报告首先讨论介绍NLP新范式,比较其与以前范式的区别,分析其取得的效果。然后讨论如何利用新范式从预训练模型中提取事实并自动构建知识图谱。
【知识概念】:Pre-train(预训练),Pre-train Language Model(PLM)Fine-tuning(微调),Signal(信号),Data Mines(数据矿),Prompt(提示)
【参考文献】:
[1]W. Yuan and P. Liu, “reStructured Pre-training,” arXiv, 22-Jun-2022. Google Deep AI
[2]S. Hao, B. Tan, K. Tang “BertNet: Harvesting Knowledge Graphs from Pretrained Language Models,” arXiv, 28-Jun-2022. UC San Diego

202274

会议地点:理工配楼101会议室

马超红

【题目】:Dynamic Learned Indexes
【摘要】:学习化索引(Learned index)发表于SIGMOD2018,提出了RMI Recursive model index),但最初的学习化索引只针对静态只读型workload,在RMI之后,多个工作支持动态workload,使得Learned index更符合实际应用场景。本次报告介绍针对动态workload的学习化索引工作。
【知识概念】:dynamic workloadRecursive model index, Gapped array

刘俊旭

【题目】:Tailoring Privacy-preserving with Personalization
【摘要】:本次报告从两类场景(数据收集/机器学习)、两类隐私偏好粒度(不同用户/不同数据项)介绍个性化隐私保护工作研究进展,同时,从隐私驱动和性能驱动两个角度,辨析个性化隐私与异构差分隐私的区别与联系。
【知识概念】:个性化隐私保护(Personalized Privacy-preserving),异构隐私(Heterogeneous privacy),差分隐私(Differential Privacy, DP),联邦学习(Federated Learning, FL)f-DP(Gaussian-DP)

2022627

会议地点:理工配楼101会议室

刘立新

【题目】:区块链系统的身份隐私保护
【摘要】:区块链起源于数字货币,已经应用于物联网、医疗、金融和供应链等多个领域。然而,区块链的公开透明特性也带来身份隐私泄漏风险。为了增强身份隐私保护,很多匿名的方法被提出。但完全匿名的方法也会导致难以监管和违法活动。权衡隐私保护和合法监管已经成为影响区块链应用的重要问题之一。本次汇报总结相关研究方法,并尝试提出新的方法。
【知识概念】:Identity privacy; Zero knowledge; Chameleon hash; Ring signature

王雷霞

【题目】:Privacy and Security
【摘要】:一直以来,我们都将隐私安全作为两个独立的研究问题,隐私保护侧重于隐私数据的保护与管理,安全防护则侧重系统的攻击与防御。近期,诸多研究者将这二者联系起来。本次报告以差分隐私中的投毒攻击为例,说明隐私与安全之间,即有着背道而驰的矛盾,也存在相辅相成的联系。最终,基于此例,本次报告希望与大家共同思考实用、隐私、安全之间的关系。
【知识概念】:推理攻击(Inference Attack); 投毒攻击(Poisoning Attack); 输入操纵攻击(Input Manipulation Attack); 输出操纵攻击(Output Manipulation Attack)

2022620

会议地点:理工配楼101议室

范卓娅

题目:反事实公平(Counterfactual fairness
摘要:因果推断给公平问题的研究提供了新视角,本次报告将介绍因果推断应用于公平问题的经典文献——反事实公平(Counterfactual Fairness)。传统基于条件概率的公平定义没有考虑训练数据标签存在的历史偏见,反事实公平克服了这一缺陷。
知识概念:因果模型、反事实、无意识公平(Fairness Through Unawareness)、机会平等(Equality of Opportunity

郝新丽

题目:Is attention explainable?
摘要:在机器学习可解释的相关研究中,基于注意力机制的方法占据很大比例。这些研究均认为,注意力权重高的输入单元对于输出结果有决定性作用,因此可以通过可视化的方法分析模型依据。然而有一些研究对此提出了质疑,并通过大量实验得出结论:注意力机制不能忠实地解释模型。但有趣的是,另有研究认为上述持反对观点的研究工作实验设计得不合理,因而无法作为有效论据。本次报告聚焦于注意力机制能否用于解释机器学习模型这一大讨论,分别从正反两方介绍相关研究,辩证地看待这一问题。
知识概念:加型注意力机制(Additive Attention Mechanism)、对抗注意力(Adversarial Attention)、表示擦除(Representation Erasure)、决策翻转(Decision Flip

2022613

会议地点:理工配楼101会议室

彭迎涛

题目:Adversarial Learning for Fairness aware Recommendation
摘要:近年来,推荐公平越来越受到人们的关注。本次汇报首先以分类任务为例介绍基础机器学习中的公平问题,然后概述了推荐系统中现有研究公平的概念(用户/项目,个体/整体等不同方面)和技术分类(基于规则/对抗学习/强化学习/因果方法等),最后重点介绍对抗学习方法在推荐公平上的应用和发展。

张旭康

题目:Presto: SQL on Everything
摘要:Presto is an open source distributed query engine that supports much of the SQL analytics workload at Facebook. Presto is designed to be adaptive, flexible, and extensible. It supports a wide variety of use cases with diverse characteristics. These range from user-facing reporting applications with subsecond latency requirements to multi-hour ETL jobs that aggregate or join terabytes of data. Presto’s Connector API allows plugins to provide a high performance I/O interface to dozens of data sources, including Hadoop data warehouses, RDBMSs, NoSQL systems, and stream processing systems. In this paper, we outline a selection of use cases that Presto supports at Facebook. We then describe its architecture and implementation, and call out features and performance optimizations that enable it to support these use cases. Finally, we present performance results that demonstrate the impact of our main design decisions.

王文礼

题目:Knowledge Graph ReasoningMethods and Classification
摘要:人工智能与强化学习技术还没有广泛应用在经济政策设计中。在税收政策设计中,传统理论分析方法无法完全捕捉现实世界的复杂性,目前最好税收政策设计框架也将问题简化,同时未考虑到政策与纳税主体间的动态影响。本次组会主要和大家分享一篇文献,其提出了基于两级增强学习的政策设计框架——AI Economist,该框架由纳税主体(Agent)与社会规划师(Planner)共同适应,已被证明在税收领域表现具有良好表现。

202266

会议地点:理工配楼101会议室

王文礼

题目:Knowledge Graph ReasoningMethods and Classification
摘要:知识推理能够发现潜在的正确的知识,该方法已被证明是知识图谱完善的可行方法之一。基于知识图谱的知识推理呈现出深度学习融合传统方法的趋势。因此,从方法角度出发,我们分析近期知识推理方法,将其分为三类。本次组会结合文献介绍三类推理方法:基于逻辑规则的知识推理方法、基于表示学习的知识推理方法与基于外部知识的推理方法。

李梓童

题目:On the Necessity of Auditable Algorithmic Definitions for Machine Unlearning
摘要:目前machine unlearning领域,人们使用的方法大致可分为准确(exact)方法和近似(approximate)方法两类,前者主要通过重训练部分子模型来实现unlearning,后者主要通过参数层面的数学变换来实现。当前学界针对这两种方法提出了两种验证模型拥有者是否完成unlearning的手段,对于exact unlearning,可以通过training log来判断模型拥有者是否重训练了部分子模型;对于approximate unlearning,可以通过比较unlearn后的模型与retrain后的模型在参数空间上的距离来判断。本文介绍了一种构造数据集的方法,构造出来的数据集可以不包含原数据集的某些数据、但在上面产生和原数据集极为相似的training log,从而invalid了以上两种验证手段。在此基础上,本文进一步提出了可审计machine unlearning算法的必要性。

2022530

会议地点:理工配楼101会议室

刘立新

题目:区块链系统中的身份隐私保护技术
摘要:区块链具有公开透明、不可篡改和去中心的性质,这些性质使其广泛应用于金融、医疗和物联网等领域。然而,区块链的公开透明性也使其在具体的应用过程中存在身份隐私泄露风险。本次汇报首先介绍区块链身份隐私泄漏问题。之后,总结现有区块链身份隐私保护技术的研究现状。最后,针对数据共享过程中存在的身份隐私泄漏问题给出解决方案。

马超红

题目:trie-based structures
摘要:数据库中的索引结构大致可以分为三类:1comparison-based tree structures, 2) hash-based structures, 3) trie-based structurescomparison-based tree structures(例如:B+tree)使用最广泛,但面临的问题是,查找复杂度为log(N)N为索引中key的个数;hash-based structures 的查找复杂度近乎为O(1),但只能支持点查询,对于在实际应用中普遍存在的范围查询不能友好支持。第三类trie-based structures能够达到log(L)的查找复杂度,与N无关,其中Lkey length (例如4byte key length 32 bit ),在trie structure在最初提出时,主要用于索引字符串数据,且面临较高的空间占用,但近年来不断有工作优化trie structure,使得这类结构相对于comparison-based structures的性能有显著提高,本次报告主要介绍第三类trie-based structures,及此类数据结构的优化。

2022523

会议地点:理工配楼101会议室

刘俊旭

题目:How Private for DPSGD?
摘要:在机器学习的隐私保护研究中,满足差分隐私的随机梯度下降(DPSGD)已经成为业界公认的基础性算法。在此前对DPSGD的研究中,由于机器学习方法具有的迭代属性,模型最终训练完成时将产生累计隐私损失效应,进而引出隐私性与可用性的权衡问题。研究者在从理论上分析DPSGD的隐私性时,一般通过证明其隐私损失上界,以此说明算法在最坏情况下的隐私保证;而在应用DPSGD时,为保证最终模型的准确性,会ε 随意取值,甚至把 ε 设置得远大于 1,认为这能起到隐私保护作用。本次报告将介绍一种利用隐私攻击(重点关注后门攻击)来验证DPSGD隐私性的方法,指出了现有工作中存在的两个重要的方向性问题:(1)在分析中单纯地证明隐私损失上界,已不足以说明DPSGD的隐私性;(2)在应用中带有侥幸心理地对ε 取一个较大的值,这种方式是不可取的。

王雷霞

题目:Byzantine Robust Frequency Estimation in the shuffle model
摘要:最近研究表明,本地化差分隐私框架虽然摆脱了中心化差分隐私中对可信第三方的依赖,但更容易遭受拜占庭攻击。在该攻击中,仅需极少量的攻击者或恶意用户更改自身发布的数据,就可对最终的估计结果产生不可避免的巨大影响。混洗模型虽然改进了本地化差分隐私的可用性,但更容易遭受该攻击。在混洗模型中,拜占庭攻击不仅能损害结果的可用性,亦会破坏该模型提供的隐私保证。为解决该问题,我们首先提出了一种隐私补全的方法,保证整体的隐私性。针对离散化的平滑数据分布,我们提出了一种基于平滑的异常检测与填充的最优化方法,从被损坏的分布中恢复原始分布。下一步,我们试图找到拜占庭攻击与防御中的平衡点,从理论上计算在该防御模式下,攻击者对结果所造成的最大损失,并借助先验知识进行进一步校正。

2022516

会议地点:理工配楼101会议室

郝新丽

题目:Explanation Discovery for Anomaly Detection
摘要:在时间序列异常检测任务中,不仅需要完成异常检测(ADAnomaly Detection),还需要对异常进行解释定位(EDExplanation Discovery),从而可以尽快对异常现象做出响应并进行故障排除。而上一次组会介绍了在时间序列分类和预测的相关研究中,6种提高机器学习模型可解释性(machine learning interpretability)的方法,其主要用于定位对模型决策最为重要的timestamp,对于多维时间序列,会进一步定位到feature。那么上述6种方法是否可以用于对异常进行解释定位呢?这与另一相关的研究领域——根因分析(RCARoot-Cause Analysis)又有着怎样的关系呢?本次报告根据目前的相关研究,尝试对ADEDRCA以及machine learning interpretability的关系进行梳理。

202259

会议地点:理工配楼101会议室

张旭康

题目:(Distributed Database)In Search of an Understandable Consensus Algorithm
摘要:Raft is a consensus algorithm for managing a replicated log. It produces a result equivalent to (multi-)Paxos, and it is as efficient as Paxos, but its structure is different from Paxos; this makes Raft more understandable than Paxos and also provides a better foundation for building practical systems. In order to enhance understandabil ity, Raft separates the key elements of consensus, such as leader election, log replication, and safety, and it enforces a stronger degree of coherency to reduce the number of states that must be considered. Results from a user study demonstrate that Raft is easier for students to learn than Paxos. Raft also includes a new mechanism for changing the cluster membership, which uses overlapping majorities to guarantee safety.

范卓娅

题目:公平数据前处理方法
摘要:从数据层面实现公平是算法公平的基础前提。上次组会主要介绍了前处理中的对抗训练方法,本次组会继续介绍公平前处理中重赋权、重采样以及对比学习三种方法。

2022425

会议地点:理工配101会议室

艾山

题目:A survey on Knowledge graph construction techniques
摘要:知识图谱是组织知识的一种形式之一。知识图谱被用于多个领域,且已有广泛研究,如推荐系统、问答、信息检索等。虽然目前已提出了许多知识图谱构建方法,但这些方法并不能适应不断演化的构建需求。因此,本文通过调研总结了近年来知识图谱的构建方法相关研究,以知识图谱的构建方法、知识类型、评价指标、研究主题等方面进行了系统的文献综述。首先,从数据源角度分析了三种构建类型,即从Scratch(broad rich) Seed-based( grow)Integration-based(deep expand)。其次,从领域、概念类型和数据模态等三个角度分析了知识图谱类型。然后,讨论了现有知识图谱构建的评价方法。最后,我们讨论了常规的研究主题,给出了知识图谱构建方法的现有的研究状况,进而给出知识图谱构建的挑战及未来发展方向。

彭迎涛

题目:Negative-Sample and Self-Supervised Learning for Knowledge Graph Enhanced Recommendation
摘要:知识图谱(KG)在推荐系统中扮演着越来越重要的角色。现有的基于GNN的模型在关系建模中是粗粒度的,未能充分挖掘KG中隐含复杂数据关系和用户意图。因此,从数据增强的角度出发,我们分析了推荐系统负采样和自监督学习技术,总结了知识图谱推荐的负采样方法(static, adptive and enhanced sampler)和自监督学习方法(contrast, generative and predictive),并给出知识图谱推荐未来可研究的技术点和方向。

2022418

会议地点:理工配楼101会议室

文礼

题目:RNNLOGIC: LEARNING LOGIC RULES FOR REASONING ON KNOWLEDGE GRAPHS
摘要:现实的知识无法完全捕获,通过知识推理完善知识图谱已被证明是一种有效且重要的方法。在解决知识图谱推理任务时,经常使用逻辑规则,但现有方法大多面临搜索空间过大、奖励稀疏等问题,可能导致效率和性能低下。本次组会汇报知识图谱推理方向论文,其基于概率对逻辑规则进行建模,设计了基于概率的逻辑规则学习模型,较现有知识推理方法具有更好性能

李梓童

题目:Machine unlearning: background, method and classification
摘要:在机器学习场景中,如果我们想删除某些数据、以及这些数据对模型的影响,在删除数据后剩余的数据集上重新训练整个模型是最简单的选择,但是这么做带来的开销也是巨大的。machine unlearning的目的是删除某些数据及它们在模型上的影响,同时又避免完全重新训练的开销。在本次组会中,我们会介绍machine unlearning的几种方法:using summationSISAupdating weight,并对这些方法做简单的分类。

2022411

会议地点:理工配楼101会议室

刘立新

题目:Blockchain-assisted differentially private aggregation
摘要:差分隐私是重要的隐私保护方法,有中心化差分隐私(CDP)和本地化差分隐私(LDP)两种经典模型。CDP模型依赖于可信的服务器;LDP模型不需要可信的服务器,但牺牲了可用性(utility)。基于密码学的差分隐私(C4DP)在密文上执行计算,旨在兼顾CDPLDP的优势。然而,目前的C4DP方法存在单点失败问题,以及依赖于不可共谋的双方进行密钥管理和数据聚集运算。区块链具有去中心化的特性,为上述问题提供新的解决思路。本文提出基于区块链的差分隐私保护方法,该方法不仅兼顾CDPLDP各自的优势,还可以防止单点失败和抵御共谋攻击。

马超红

题目:Multi-dimensional Learned Index
摘要:Learned indexes 通过简单的机器学习模型实现key position 之间的映射,其本质是学习key 在有序数据中的排序(rank),并将这一问题转换为用模型拟合有序数据的累积分布函数曲线。实际应用中,多维数据的查询和过滤十分普遍(诸如位置服务)。但多维数据不存在一个自然的排序,如何使得learned indexes能够应用于多维数据,实现加速查询和降低存储空间占用的目的?本次报告将介绍多维学习化索引的相关工作,总结已有工作的进展及存在的局限性,进而引出下一步工作。

202242

会议地点:理工配楼101会议室

刘俊旭

题目:机器学习中的个性化隐私保护技术研究
摘要:(本次报告为开题答辩预演)机器学习中的数据隐私保护问题近年来受到社会与学界的广泛关注,而差分隐私作为一种严格、可量化的隐私保护定义及技术,已被广泛应用到数据收集与机器学习场景下的各类任务中,以保护个体敏感信息。然而,当前的机器学习隐私保护研究工作大多仅考虑为全部个体提供相同程度的隐私保护。联邦学习作为一种分布式的机器学习框架,为实现用户的个性化隐私保护提供了可能。本次报告将依次从研究背景、研究目标、研究创新性、研究内容与技术方法四个内容展开,对三个主要研究工作——满足个性化差分隐私的联邦学习 、满足差分隐私的个性化联邦学习、满足个性化差分隐私的个性化联邦学习——创新性、研究挑战与技术方案加以介绍。

王雷霞

题目:Sketch Method to Get Differential Privacy for Free
摘要:在大数据分析中,为了应对数据量大、数据维度高等问题,我们通常会用到sketch方法,将庞大的信息压缩在较小的空间内,以获取近似的分析结果。在差分隐私的方法设计中,我们也经常使用该结构去降低高维和大的数据域对可用性的影响。最新的几篇文章指出,一些特殊的sketch方法,在满足特定条件的情况下,其输出的结果本身就可满足差分隐私的定义,而无需进一步对数据扰动或加噪。本次报告介绍两种满足该性质的方法:用于基数估计的Flajolet-Martin (FM) Sketches方法、用于降维的随机投影Johnson Lindenstrauss Transform,并阐明他们的应用场景与条件。

2022328

会议地点:理工配楼101会议室

郝新丽

题目:时间序列中的机器学习可解释性研究
摘要:机器学习的可解释性方法在计算机视觉和自然语言处理领域得到广泛研究,但在时间序列分析领域,相关问题尚未得到充分地研究。当将上述两个领域的可解释方法迁移至时间序列任务时,存在着独特的挑战问题需要解决,包括:难以同时区分时间重要性和变量重要性、缺乏对子序列的标注等。本次报告将总结梳理时间序列中的机器学习可解释研究方法,将其归类为基于注意力机制、敏感性分析、梯度反向传播、最大激活映射、Shapelets、时频转换6类,具体分析时间序列中的机器学习可解释研究所面临的问题挑战以及当前解决方案。

许婧楠

题目:Debugging Differential Privacy: A Case Study for Privacy Auditing
摘要:目前有很多机器学习算法被用于一些不同的任务,例如文本补全、推荐系统等,这些任务在训练时需要用到很多隐私内容,例如用户的邮件信息、短信内容等。所以机器学习方法可能会泄露很多隐私信息。差分隐私这一隐私保护机制与机器学习进行结合,可以对训练数据提供隐私保证。但现有的方法中,即使他们已经证明自己是满足差分隐私保护机制的,但仍无法避免其中可能会有错误的出现。审计可以用于估计差分隐私算法中隐私预算这一参数的下界,并发现算法中的错误。本次的报告将介绍一种将隐私审计与机器学习相结合的一个案例学习,该案例学习是对现有的DP-SGD开源实现进行审计,并发现DP-SGD并没有满足它自己所声称可以达到的隐私保证。

2022321

会议地点:理工配楼101会议室

张旭康

题目:Dremel: Interactive Analysis of Web-Scale Datasets
摘要:Dremel is a scalable, interactive ad-hoc query system for analysis of read-only nested data. By combining multi-level execution trees and columnar data layout, it is capable of running aggregation queries over trillion-row tables in seconds. The system scales to thousands of CPUs and petabytes of data, and has thousands of users at Google. In this paper, we describe the architecture and implementation of Dremel, and explain how it complements MapReduce-based computing. We present a novel columnar storage representation for nested records and discuss experiments on few-thousand node instances of the system.

范卓娅

题目:公平表示学习
摘要:公平的定义分为个体公平与群体公平两类。群体以受保护属性为划分依据,因此最基础的公平原则Fairness Through Unawareness禁止模型直接使用受保护属性进行训练,这可以解决直接歧视,但不能解决间接歧视。针对间接歧视,公平表示学习致力于学习一个不包含与受保护属性相关的信息的表示,本次将介绍正则化与对抗学习两种公平表示学习方法。

2022314

会议地点:理工配楼101会议室

艾山

题目:Span-based hypernymy extraction with pre-trained model
摘要:上下位词是在taxonomy ontology 中比较重要的部分,也是在很多自然语言处理任务当中有重要的作用。现有的研究工作主要集中在判断上下位关系和基于规则的抽取,虽然上下位词可以用序列标注方法来获取,但存在一系列问题,比如级联问题,上下位词overlapping,有时上位词不一定出现在同一个句子当中而隐含的表示,span-based 方法在实体识别和关系抽取任务当中表现极佳。我们认为span-based方法适合抽取和识别上下位词并解决遇到的挑战问题。本文我们结合span-based 方法提出了上下位词抽取方法。我们的方法用远程监督来标注种子(下位词),结合span+预训练模型的模型框架。我们以商品taxonomy的数据验证我们方法,跟序列标注方法对比。

彭迎涛

题目:多样化推荐系统方法研究综述
摘要:推荐系统是解决信息过载的重要方式之一。近年来,随着人们对美好生活需要的日益增长,多样化推荐得到了越来越多的关注。因此,研究如何提高推荐列表的多样化和用户满意度,成为多样化推荐系统的主要任务。我们对近年基于多样化的推荐系统研究进展进行综述,分析其特点与传统推荐系统的不同,并对其主要的研究方法、测评方式等进行梳理概括和比较分析。最后,对基于多样化的推荐系统的未来发展趋势进行分析和展望。

202237

会议地点:理工配楼101会议室

王文礼

题目:From Unstructured Text to Causal Knowledge Graphs: A Transformer-Based Approach
摘要:因果推理更好地表达了数据背后的关系,定性因果关系能够表达依赖性、时间约束及单调约束。从科学发现到社会科学认知,揭示与表达定性因果关系的重要性可见一斑,但从自然语言中发现因果关系仍是一大难题。本次组会分享一篇因果知识图谱构建方向文献,其在Transform体系下设计了基于NLP体系的因果知识图谱构建方法,可处理来自学术出版物、新闻文章及社交媒体等非结构文本的输入。

李梓童

题目:Brief examples of MPC and data deletion applied to privacy protection
摘要:Here we tend to introduce two papers:and, the former oneillustrate the (first) MPC-based Privacy-Preserving method to classify videos into different categories, as Multi-party computation has the advantage of not leaking specific numerials as well as generating correct results. The latter one talks about exploiting the transformation from original machine learning method into summation of pre-computed results, and then by doing tiny modification to the summation the model whose dataset has been changed does not need fully retraining.

Maintained by WAMDM Administrator() Copyright © 2007-2017 WAMDM, All rights reserved