首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种面向程序理解的程序语义聚类技术
引用本文:陈颖.一种面向程序理解的程序语义聚类技术[J].教育技术导刊,2019,18(10):62-64.
作者姓名:陈颖
作者单位:扬州大学 信息工程学院,江苏 扬州 225127
基金项目:江苏省教育信息化研究基金项目(20180104);中国民航信息技术科研基地开放基金项目(CAAC-ITRB-201704)
摘    要:针对源代码中一些非结构化的自然语言描述信息进行语义聚类,辅助开发人员开展程序理解。主要利用自然语言处理技术对程序中的标识符和注释进行预处理,将程序转换成词频矩阵;然后利用潜在语义索引技术对该词频矩阵进行层次聚类,并对每个聚类的标记进行推荐,辅助开发人员理解程序。在开源项目JEdit上进行验证,结果显示对该5万行规模的项目代码进行聚类时耗不足1分钟。因此,该技术能够快速对程序进行语义聚类,辅助开发人员快速理解程序。

关 键 词:程序理解  语义聚类  潜在语义索引  语义标注  
收稿时间:2019-02-04

Semantics-driven Program Clustering for Program Comprehension
CHEN Ying.Semantics-driven Program Clustering for Program Comprehension[J].Introduction of Educational Technology,2019,18(10):62-64.
Authors:CHEN Ying
Institution:School of Information Engineering, Yangzhou University, Yangzhou 225127, China
Abstract:This paper focuses on semantic clustering for program comprehension on the unstructured textual information. First, we employ the natural language processing technique to pre-process the natural language text in the program, and gets an intermediate representation, i.e。, term-document matrix. Then, we use the LSI (Latent Semantic Indexing) technique to analyze the matrix, and get a set of hierarchical clusters. In order to facilitate comprehension of each cluster, we also generate the recommendations of words to label each cluster. We evaluated our approach on the open source project, JEdit, and the results showed that the time required to cluster such scale of 50,000-LOC project was less than 1 minute. Hence, the proposed technique can quickly perform the program semantic clustering, supporting developers’ quick program understanding.
Keywords:program comprehension  semantics clustering  latent semantic indexing  semantics labelling  
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号