ChatGPT生成中文学术内容分析——以情报学领域为例 |
| |
引用本文: | 郭鑫,王一博,王继民.ChatGPT生成中文学术内容分析——以情报学领域为例[J].图书馆论坛,2024(3):134-143. |
| |
作者姓名: | 郭鑫 王一博 王继民 |
| |
作者单位: | 1. 北京大学信息管理系;2. 北京大学图书馆 |
| |
基金项目: | 国家社会科学基金重点项目“开放科学数据集统一发现的关键问题与平台构建研究”(项目编号:20ATQ007)研究成果; |
| |
摘 要: | 学术写作是ChatGPT的主要应用方向之一。文章以情报学领域的核心期刊论文为研究对象,首先从词、句、篇3个维度出发,使用词性标注、n-gram等文本处理方法对ChatGPT和人类产出的论文引言内容进行对比分析。然后将判断学术内容是否由ChatGPT生成视作一个二元分类任务,采用朴素贝叶斯、支持向量机、随机森林算法进行文本分类实验,并使用SHAP方法对文本结构特征的重要性进行分析。研究发现:ChatGPT在描述有具体时间节点的事实性信息和引用政策文件或研究报告等方面表现较弱,生成引言的篇幅较集中,撰写论文相较于人类更加“循规蹈矩”;查重工具通常无法准确检测出ChatGPT生成内容的原创性,但分类模型可以比较容易地区分出引言是否由ChatGPT生成,平均句子长度、词汇多样性和文本长度是影响分类结果最重要的文本结构特征。
|
关 键 词: | ChatGPT 论文写作 情报学 文本分类 查重检测 |
|