分类

30 年来基于计算机视觉的农业科技研究综述 ——以 CNKI 文献关键词词频分析为技术方法

30 年来基于计算机视觉的农业科技研究综述 
——以 CNKI 文献关键词词频分析为技术方法
巢 品 ,冯祥胜
摘 要:【目的】计算机视觉技术被广泛应用于天文学、地质学、气象学、军事科学、医学、工农业生产等诸多领域,对我国农业科技及农业发展意义重大。【方法】以关键词词频分析为技术方法,筛选1993—2022年CNKI农业科技专辑中篇名含“计算机视觉”的文献,对获取的393条文献进行计量学分析,并综述国内30年来基于计算机视觉的农业科技研究成果、热点及发展态势。【结果】基于计算机视觉的农业科技研究高频关键词分布较为广泛,现有研究热点较多,研究领域、研究方法、研究技术等都在不断丰富和拓展。【结论】本研究可为后续农业科技方向的研究提供一定参考或借鉴,但还需不断探索基于计算机视觉的农业科技研究中的内在发展逻辑与深层理论关系。
关键词:农业科技;计算机视觉;关键词;词频分析
  计算机视觉(Computer Vision, CV)是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等,并将其处理成为更适合人眼观察或传送给仪器检测的图像 [1]。计算机视觉自 20 世纪 60 年代中期发展起来,目前已能在相当程度上模拟人类视觉的优越能力,并在一定程度上弥补人类视觉的缺陷,所以被广泛应用于天文学、地质学、气象学、军事科学、医学、工农业生产等诸多领域。我国是农业大国,农业科技是农业发展的强劲引擎,农业科技研究一直是我国学术研究的重要领域之一。计算机视觉与农业科技研究的交叉,或者说基于计算机视觉的农业科技研究,也形成了较为丰厚的研究成果。在中国知网(CNKI)中,王金满等联合署名发表在《东北林业大学学报》1993 年第 2 期的《木材构造计算机视觉分析方法》[2],是基于计算机视觉的农业科技研究的最早文献。以此算来,我国基于计算机视觉的农业科技研究已有 30 多年的历史。关键词词频分析法,是通过关键词在某研究领域文献中出现的频次高低来揭示该领域研究热点、动态及进展的文献计量方法 [3]。这种分析方法虽然是一种搁置了内容和意义的形式分析,但也是一种超越了个人经验和主观偏好而趋向客观性的学术分析方法[4]。基于此,本文试图以关键词词频分析为技术方法,综述国内 30 年来基于计算机视觉的农业科技研究成果,以期为后续研究提供一定参考或借鉴。
  1 文献数据来源及总体样态
  本研究文献数据检索于中国知网(CNKI)。一般认为,以“篇名”为检索项进行文献检索获得的文献更具有直接相关性[5]。2023年2月26日,在中国知网(CNKI)中,通过高级检索功能,以“计算机视觉”为题名,文献分类选定为“农业科技”专辑,时间范围以2022年12月31日为终止时间(不设定起点时间),共检索到264条学术期刊中文文献及129条学位论文中文文献,两类文献合计 393 条。经系统的主题阅读,这 393 条文献中没有会议纪要、课题成果介绍、书评等无效文献,均为有效文献。这393条文献即为本文的研究样本。
  根据 CNKI 对文献作出的分类,农业科技这一专辑包含农业基础科学、农业工程、农艺学、植物保护、农作物、园艺、林业、畜牧与动物医学、蚕蜂与野生动物保护、水产和渔业10个专题。CNKI显示,这10个专题均有一定文献,具体为:农业基础科学 82 条、农业工程45条、农艺学8条、植物保护53条、农作物72条、园艺76条、林业21条、畜牧与动物医学33条、蚕蜂与野生动物保护5条、水产和渔业48条。因为有些文献被归类到2个或2个以上专题,所以10个专题的文献累计条数多于393条。这说明现有研究已涉及农业科技这一专辑的各个专题,但相对而言,农业基础科学、农作物、园艺这 3 个专题的研究较多,农艺学、蚕蜂与野生动物保护这2个专题的研究则较少。
  各年度文献条数如下:1993(1)、1994(0)、1995(2)、1996(3)、1997(2)、1998(3)、1999(3)、2000(3)、2001(2)、2002(2)、2003(8)、2004(4)、2005(22)、2006(5)、2007(12)、2008(8)、2009(9)、2010(6)、2011(10)、2012(7)、2013(13)、2014(8)、2015(13)、2016(16)、2017(32)、2018(35)、2019(47)、2020(44)、2021(37)、2022(36)。括号前数据为年份,括号内数据为文献数目,下文相同。由此可见,1993—2004年,除2003年文献条数为8条外,其他各年度文献条数均不超过4条;2005年文献条数有突发性的增长,从 2004 年的 4 条陡然增长到 2005 年的 22条,但2006年又回落到5条;2007—2016年各年度文献条数在6~16条之间,有一定波动,但总体而言高于1993—2004年各年度文献条数;2017—2022年各年度文献均在 30 条以上。经分析,2005 年文献条数有突发性的增长,可能与我国延续数千年的农业税在该年度被废除有关,农业税的废除不只是体现了党和国家对广大农民的爱护和关怀,引发了社会各界对农业、农村、农民的关注,也引发了学界对农业科技的关注。2017年文献条数较多,并一直延续到现在,则是因为2016年AlphaGo打败世界顶级围棋棋手李世石,引发了人工智能研究的热潮,计算机视觉作为人工智能的重要领域之一,理所当然也得到了更多学者的关注。
  2 基于计算机视觉的农业科技研究高频关键词词频统计
  关键词出现频次的高低,反映该关键词所指向问题的受关注程度,高频关键词表征该领域研究热点问题所在。按 393 条文献作者所给出的关键词进行统计,共获得961个关键词,累计出现频次为 1 753次,篇均 4.46 次。本文的研究对象是基于计算机视觉的农业科技,“计算机视觉”(包括“计算机视觉法”“计算机视觉技术”等)毫无疑问出现频次最高,共出现301 次。因此,为减少叙述上的重复,本文此后所说的高频关键词不再涉及“计算机视觉”。本文按照高频关键词选择的标准 —— 高频词累计频次达到总频次的 40% 左右 [6],得到高频关键词 32 个(词频 ≥5),具体情况如表1所示。
  由表 1 可知,基于计算机视觉的农业科技研究高频关键词分布较为广泛,说明现有研究热点较多。为更清晰显示现有研究热点的类别,本文参照张勤等[7]的关键词分类方法,结合本研究的实际情况,对高频关键词进行应用属性、方法属性、技术属性 3 个方面的属性分类,结果如表 2 所示。由表 2 可知,现有基于计算机视觉的农业科技研究在应用属性方面的高频关键词有“水产养殖”“水稻”“农业”“棉花”“农业自动化”“番茄”“芒果”“农业生产”“农业工程”“苹果”10个,这表征的是计算机视觉主要在农业科技哪些领域获得应用;在方法属性方面的高频关键词有
“图像处理”“特征提取”“图像分割”“目标检测”“检测”“图像识别”“分级”“识别”“行为识别”“品质检测”“采摘机器人”“模型”“品质”“颜色特征”“纹理特征”15个,这表征的是计算机视觉主要通过哪些研究方法应用在农业科技领域中;在技术属性方面的高频关键词有“深度学习”“支持向量机”“卷积神经网络”“神经网络”“BP神经网络”“人工神经网络”“机器学习”7 个,这表征的是计算机视觉主要是哪些技术被应用于农业科技领域。
  3 基于计算机视觉的农业科技研究纵向观察
  为显示该领域研究的纵向发展脉络,本文将近 30 年的文献划分为 3 个时段,即 1993—2002 年、2003—2012 年、2013—2022 年。这 3 个时段的文献条数分别为 21 条、91 条、281 条,可见该领域研究在稳步发展。
  按高频词选择标准分别统计各个时段的高频关键词,结果如表 3 所示。由表 3 可知,1993—2002 年高频关键词共有 5 个,其中在应用属性方面的高频关键词有“梨”和“木材构造”,在方法属性方面的高频关键词有“图像处理”和“特征提取”,在技术属性方面的高频关键词有“人工神经网络”;2003—2012年高频关键词共有 15 个,其中在应用属性方面的高频关键词有“农业工程”“番茄”“水产养殖”“鱼类行为”,在方法属性方面的高频关键词有“图像处理”“检测”“识别”“分级”“特征提取”“颜色特征”“图像分割”“颜色”,在技术属性方面的高频关键词有“BP神经网络”“人工神经网络”“神经网络”;2013—2022 年高频关键词共有 22 个,其中在应用属性方面的高频关键词有“水产养殖”“水稻”“棉花”“农业”“芒果”“农业生产”“农业自动化”,在方法属性方面的高频关键词有“图像处理”“图像分割”“特征提取”“目标检测”“图像识别”“行为识别”“检测”“采摘机器人”“分级”“模型”,在技术属性方面的高频关键词有“深度学习”“支持向量机”“神经网络”“卷积神经网络”“机器学习”。由此可见,无论是分别从应用属性、方法属性、技术属性来看,还是综合从这三个属性来看,基于计算机视觉的农业科技研究都在不断丰富和拓展。
  4 基于计算机视觉的农业科技研究横向观察
  横向观察是指在某特定时间内对若干个对象同时进行观察记录,将观察结果进行比较,从而全面了解被观察对象的一种观察方法。为了达到对基于计算机视觉的农业科技研究横向观察的目的,本文参照董瑞兰、周爱民等对关键词作出的划分 [8-9],结合本研究实际情况,将关键词分为恒星关键词、流星关键词、新星关键词、卫星关键词、彗星关键词共5类。其中,恒星关键词是指在1993—2002年、2003—2012年、2013—2022 年三个时段均出现,频次较高且相对稳定的关键词;流星关键词是指在 1993—2002 年和(或)2003—2012年出现且频次较高,而在 2013—2022年时段中频次明显减少甚至频次为0的关键词;新星关键词是指在1993—2002年和2003—2012年两个时段中出现频次很低,但在 2013—2022 年时段中频次突增的关键词;卫星关键词是指在 1993—2002年时段中出现频次较高,在 2003—2012 年时段中出现频次较低,在 2013—2022 年时段中出现频次又较
高的关键词(就像卫星运行一样,开始在某轨道运行速度很快,但为了转到另一轨道运行,需要减速变轨,变轨完成后速度就会再次提升);彗星关键词是指在三个时段的某一时段出现过,但频次极低的关键词。对961个关键词一一分析统计,得到结果如下。
  恒星关键词:“图像处理”“特征提取”。这表明“图像处理”和“特征提取”一直是该领域的研究热点,或者说这是该领域的恒定选题。
  流星关键词:“木材构造”“人工神经网络”“农业工程”“颜色”“梨”。这几个关键词成为流星关键词的原因分析如下:1)“木材构造”对木材的研究较为细化,实际上之后关于木材的研究还有多项,但关键词不是“木材构造”,而是“木材”“木材识别”“木材检尺”“木材生长轮材质分析”“原木材积”等;2)“人工神经网络”指称较为广泛,因此被更为具体
的“BP 神经网络”“卷积神经网络”等取代;3)“农业工程”也是指称较为广泛,因此在之后的研究中被细化为“农业生产”“农业自动化”等;4)“颜色”研究指向不明,因此在之后的研究中被有明确所指的“颜色特征”“颜色模型”“叶面颜色”“果实表面颜色”“食物颜色”“背景颜色”“颜色分级”“颜色空间”等取代;5)“梨”的品种指向不明,因此在之后的研究中被“砀山酥梨”“库尔勒香梨”等取代。因此,这几个流星关键词的存在,并不是说这几个关键词所指向的问
题真的不再有人关注了。
  新星关键词:“深度学习”“支持向量机”“卷积神经网络”“目标检测”“图像识别”“神经网络”“水稻”“行为识别”“棉花”“农业”“采摘机器人”“机器学习”“芒果”“模型”“农业生产”“农业自动化”等。新星关键词越多,表明该研究领域在不断涌现新的研究热点。
  卫星关键词:无。表明该领域研究所关注的问题在研究方面整体上都在稳步发展,也就是说,没有哪个问题在兴起研究热潮之后,有暂时性的退潮,之后又再一次地进入研究热潮。
  彗星关键词:共有 781 个关键词在 1993—2022年仅出现 1 次,可认为是该研究领域的彗星关键词,比如“3D”“‘次郎’甜柿”“Bayes 判别”“COMS 传感器”“DS 融合理论程序”“Fisher 向量”“摆尾频率”“跛行奶牛”“成熟番茄识别”等。彗星关键词多,说明现有研究主要是拓展性的研究,包括在研究领域、研究方法、研究技术等多方面的拓展,而不是在已有研究基础之上的提升研究。当然,课题组发现也有一些彗星关键词是文献作者命名不规范所致。
  5 基于计算机视觉的农业科技研究高质量观察
  所有的学术文献均有一定的学术价值,但学术文献的学术价值也存在一定的差异。学界在考查文献质量高低的时候,文献的被引用情况被作为一项重要观察指标。具体而言,就是具有更高引用频次的学术论文即高被引论文,具有更高的学术价值。考虑到本次检索到的文献只有393条,如果按照通行的高被引论文的标准 —— 某一领域被引频次位于该领域所有论文前 1% 的论文,则只有 4 篇论文能作为高被引论文,所以本文参考张垒 [10] 的做法,适当降低高被引论文的标准,将被引频次位于前 3% 的论文作为高被引论文。表 4 列出了按此标注检索出的 12 篇高被引论文。
  综合表 4 和表 1 来看,高被引论文中有 7 条文献(即第 1、2、3、5、6、7、8 条)的关键词,包含 1~2 个1993—2022 年时段的高频关键词,说明这些文献极有可能是因为抓住了研究热点,所以之后研究这些问题的学者因为“热点”而参阅并引用这些文献;但是,也有5条文献(即第4、9、10、11、12条)的关键词,并没有出现 1993—2022 年时段的高频关键词,说明这些文献不是抓住了研究热点,而是因为其他原因,比如优秀的实验设计、严谨的理论建构等,而被其他研究者参阅并引用。当然,抓住了研究热点的高被引论文,也有可能同时具有优秀的实验设计、严谨的理论建构等特点。
  6 结论
  让数据说话 —— 这是本文的基本立场。本文以CNKI文献关键词词频分析为技术方法,综述30年来基于计算机视觉的农业科技研究,发现了以下有意义的事实:1)现有研究主要在“水产养殖”“水稻”“农业”“棉花”“农业自动化”“番茄”“芒果”“农业生产”“农业工程”“苹果”等应用领域展开;2)现有研究论及的基于计算机视觉的农业科技研究方法关键词主要有“图像处理”“特征提取”“图像分割”“目标检测”“检测”“图像识别”“分级”“识别”“行为识别”“品质检测”“采摘机器人”“模型”“品质”“颜色特征”“纹理特征”等;3)现有研究主要探讨了“深度学习”“支持向量机”“卷积神经网络”“神经网络”“BP 神经网络”“人工神经网络”“机器学习”等计算机视觉技术在农业科技领域的应用;4)无论是分别从应用属性、方法属性、技术属性来看,还是综合从这三个属性来看,基于计算机视觉的农业科技研究都在不断丰富和拓展;5)“图像处理”和“特征提取”是基于计算机视觉的农业科技研究的恒定选题;6)基于计算机视觉的农业科技研究新的研究热点有“深度学习”“支持向量机”“卷积神经网络”“目标检测”“图像识别”“神经网络”“水稻”“行为识别”“棉花”“农业”“采摘机器人”“机器学习”“芒果”“模型”“农业生产”“农业自动化”等;7)现有基于计算机视觉的农业科技研究主要是拓展性的研究,包括在研究领域、研究方法、研究技术等多方面的拓展,而不是在已有研究基础之上的提升研究;8)现有基于计算机视觉的农业科技研究的高被引论文,只有部分有可能是因为抓住了研究热点,从而被后续研究者因为“热点”而参阅并引用。
  需要说明的是,尽管本文所获得的结论较为客观、真实、可靠,但也依然存在一定缺陷,主要在于:本文采用的技术方法是文献计量分析中的关键词词频分析,这种技术因为搁置了对文献内容和意义的分析,从而没有揭示出可能存在于基于计算机视觉的农业科技研究中的内在发展逻辑、深层理论关系等。因此,本文所获得的结论还有待于未搁置文献内容和意义分析的综述性文献予以印证。
  参考文献:
[1] 夏彬,王飞 .一种用于棉花图像分析的计算机视觉开发技术[J].中国棉花加工,2014(5):20-22.
[2] 王金满,刘一星,赵学增.木材构造计算机视觉分析方法[J].东北林业大学学报,1993(2):94-99.
[3] 张勤.词频分析法在学科发展动态研究中的应用综述[J].图书情报知识,2011(2):95-98+128.
[4] 赵宪章.2005—2006 年中国文学研究热点和发展趋势:基于CSSCI中国文学研究关键词的分析 [J].河北学刊,2008(4):108-113.
[5] 周杨.国内行政哲学研究现状分析:以1989—2008年CNKI篇名含“行政哲学”的文献为分析对象[J].山东行政学院山东省经济管理干部学院学报,2009(2):36-38.
[6] 李旎 . 关键词词频统计法的评价 [J]. 江苏图书馆学报,
1999(6):20-21.
[7] 张勤,马费成 .国外知识管理研究范式:以共词分析为方法[J].管理科学学报,2007(6):65-75.
[8] 董瑞兰,毛浩然.25年来中国修辞研究的关键词词频统计:基于国家社科与教育部社科课题立项数据[J].福建师范大学学报(哲学社会科学版),2017(6):90-100+177.
[9] 周爱民.从2006年中文文献关键词看知识管理领域研究热点的变迁[J].现代情报,2007(10):110-113.
[10] 张垒.高被引论文的特征因素及其对影响因子贡献研究[J].中国科技期刊研究,2015,26(8):880-885.
上一篇:“浙江现象”与浙江政府管理的成功经验
下一篇:历史思想作为政治思想: J.G.A.波考克的政治思想史研究