Turnitin 最让人焦虑的一个东西,就是那个彩色条——0-24% 蓝色、25-49% 黄色、50-74% 橙色、75%+ 红色。很多学生看到自己的论文 42% 就慌了:是不是要被判抄袭?其实远没这么简单。
相似度 ≠ 抄袭
相似度分数(Similarity Score) 衡量的是一件很机械的事情:这篇文档的文本,有多少比例能在 Turnitin 的比对库里找到字面匹配或高度相似的片段。
这个库包括:
- 上一次某个学生提交的作业
- 互联网上的网页
- 已出版的学术期刊、会议论文、书籍
- 部分机构的自建库(视订阅而定)
所以以下情况都会拉高相似度,但它们完全不是抄袭:
- 引用(已标注来源):一段正确 citation 的长直引,仍会被标为匹配
- 参考文献列表:所有 bibliography 都会匹配到其他学术论文
- 常见短语:“In this paper, we propose…”、“The results show that…”
- 公式、表格的公共标签:方法论段落中大量通用术语
正确的读法
看 Similarity 报告时,至少要做三件事:
1. 看颜色条但别只看总分
右侧的 Match Overview 面板会按来源分组。看每个来源的 % 贡献:
- 如果 43% 里有 30% 来自”学生论文”那通常是引用了同门师兄的参考文献,没问题
- 如果 43% 里有 25% 来自”某一篇互联网博客”,那才是真的警报
2. 筛选低门槛匹配
Turnitin 默认把 < 1% 的匹配也显示出来。在 Filters and Settings 里把 Exclude matches that are less than 设到 1% 或更高,能把噪声去掉。
还可以:
- 排除引用(Exclude Quotes):给正确格式的引用打折
- 排除 Bibliography:剔除参考文献的假警报
- 排除小段:n 词以下的匹配不计入
3. 导出完整 PDF 自己过一遍
API 直接返回的 similarity.pdf 里有可交互的高亮,点击每段匹配可以看到具体来源。机构阅卷老师会先看这份而不是那个彩色数字。
AI 检测的读法
AI 检测报告独立于 similarity。它返回两个值:
- AI 整体概率(AI Probability Overall):0-100% 的概率,表示这篇文档有多大可能由 AI 生成
- 分段着色:按段落把”疑似 AI 生成”的文本高亮
重要:
- AI 检测有 1-2% 的误判率。对人工撰写的高度工整、专业术语密集的文本(法律意见书、技术规范)可能误报
- Turnitin 的 AI 检测专门针对 GPT-3.5/4 系列训练。最新模型的检测准确率可能低一些
- 在我们的 API 里两个报告是独立可选的,只要 similarity 不要 AI 也行
我们能帮你什么?
- 同一份文档同时返回 Similarity + AI 两份报告,JSON 结构化分值方便你们的系统做决策
- 所有报告都是真·Turnitin 真报告,不是某个第三方伪造品
- 失败全额退款,不需要赌
有其他关于 Turnitin 使用方式的问题?欢迎来信。