排序方式: 共有57条查询结果,搜索用时 15 毫秒
51.
学术写作是ChatGPT的主要应用方向之一。文章以情报学领域的核心期刊论文为研究对象,首先从词、句、篇3个维度出发,使用词性标注、n-gram等文本处理方法对ChatGPT和人类产出的论文引言内容进行对比分析。然后将判断学术内容是否由ChatGPT生成视作一个二元分类任务,采用朴素贝叶斯、支持向量机、随机森林算法进行文本分类实验,并使用SHAP方法对文本结构特征的重要性进行分析。研究发现:ChatGPT在描述有具体时间节点的事实性信息和引用政策文件或研究报告等方面表现较弱,生成引言的篇幅较集中,撰写论文相较于人类更加“循规蹈矩”;查重工具通常无法准确检测出ChatGPT生成内容的原创性,但分类模型可以比较容易地区分出引言是否由ChatGPT生成,平均句子长度、词汇多样性和文本长度是影响分类结果最重要的文本结构特征。 相似文献
53.
博客圈的特征及其演化机制初探* 总被引:4,自引:0,他引:4
以中文博客圈为考察对象,揭示博客圈的特征和演化机制。基于博客圈的共同用户关系构建博客圈间的复杂网络,并探讨其度分布情况。最后提出一个博客圈间复杂网络的演化模型,以此模型所模拟的结果与实证结果吻合效果较好。 相似文献
54.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。 相似文献
55.
56.
搜索引擎用户点击行为分析 总被引:12,自引:3,他引:9
基于大规模分布式搜索引擎系统———北大“天网”的用户点击记录,本文研究发现:用户点击不同URL的数量遵从Heaps定律,点击URL的频度频级服从类Zipf分布,点击URL与页面大小相关,点击URL具有时间局部性,其顺序具有自相似性特征等一些具有普适性的规律。提出了利用点击日志确定相近查询词的一个新的有效算法。这些研究结果对于掌握用户的搜索行为,完善搜索引擎系统的设计,提高检索服务的效率和质量具有重要的意义。 相似文献
57.
[目的/意义]分析社会科学数据集的跨学科性有助于理解数据集在不同学科的扩散规律,促进数据集在不同学科之间开放共享。[方法/过程]本文以CHARLS和CGSS数据集为例,首先对CHARLS和CGSS数据集的学科多样性与平衡性进行测度分析;其次构建CHARLS和CGSS数据集跨学科合作网络,采用Louvain算法对网络进行聚类,探测不同的研究社区,然后采用BERTopic对使用数据集的文本进行主题建模;最后构建不同阶段的跨学科合作网络,揭示CHARLS和CGSS数据集跨学科合作演化特征。[结果/结论]CHARLS和CGSS数据集的跨学科多样性和平衡性不断增长,使用CHARLS和CGSS数据集的学科均形成了以少数学科为主导,多学科共同参与的格局;使用CGSS数据集的研究主题比CHARLS数据集的相对较为分散;CHARLS和CGSS数据集的跨学科合作网络节点数、边数以及社区数在不断增长,网络密度有所下降,不同阶段的主导学科不断变化。 相似文献