- 软件大小:9.32MB
- 软件语言:简体中文
- 软件类型:国产软件
- 软件类别:编程工具
- 更新时间:2018-11-06
- 软件授权:免费版
- 官方网站://www.9553.com
- 运行环境:XP/Win7/Win8/Win10
- 标签:AntConc
16.69MB/简体中文/7.5
96.1MB/简体中文/7.5
Adobe AIR SDK for Windows V3.8.0.910 官方安装版
173.68MB/英文/5
5.51MB/简体中文/8.8
9.22MB/简体中文/2.1
AntConc作为一款语料库检索分析工具,拥有很多的语料库检索分析操作功能,如关键词的索引、词单的索引、搭配Collocates等,这款软件对于语言学习的朋友来说非常的重要,喜欢的朋友快来下载使用吧!
AntConc的语料神技:模糊匹配
竖线”,也就是“|”,在正则表达式(模糊检索)中的意思是“或者”,因此某个词或某两三个词的屈折形式的检索,可以用下面的表达法(首先勾上“regex”这个选项哟):
2但是,如果你要检索的单词也往往成为其他单词的一部分的话,上面的做法就会出现严重偏差,例如你想要检索off,这个词就容易出现在其他单词的开始或中间位置:
3因此,必须指定在“off”的前后必须有一个空格,而空格在正则表达式中就是“s”,也就是“反斜线与字母s”,这里的字母s就是space(“空格”)这个英语单词。
4英语单词的主要形式是多个字母所组成,虽然也有一些单词是字母与数字构成,或者是“纯数字”构成。所以,绝大多数情况下,纯粹字母构成的单词是我们关注的对象。
5用正则表达式来表达一个字母,就是“[a-zA-Z]”,这里的方括号就是表示方括号里面的所有内容只是一个字符而已,a-z就是所有的小写字母中的某一个,A-Z就是所有的大写字母中的某一个,而[a-zA-Z]就表示“一个大写或小写字母”。那么,英语单词的开始和结束有什么特征呢?最主要的特征就是前后都有一个空格,而空格的正则表达式就是“s”,也就是反斜线后面有一个字母s。所以,要检索“4个字母组成的单词”就是下面的表达,即“s[a-zA-Z]{4}s”:
6要检索“4个或5个或6个字母组成的单词”就是下面的表达,即“s[a-zA-Z]{4,6}s”:
7要检索“6个或更多字母组成的单词”就是下面的表达:
8要检索ful结尾的单词,就是(表达式中的“+”表示至少1个的意思):
9要检索ful或less结尾的单词,就是:
10要检索“un”为前缀的单词,就是:
要检索“the * of”这种结构,这里的*表示某个单词,就用“sthes[a-zA-Z]+sofs”:
要检索“the * * * of”这种结构,这里的3个*表示3个单词,就用“sthes([a-zA-Z]+s){3}ofs”,这里的圆括号就表示把圆括号里面的内容重复多次,重复的次数在后面的{}里面用数字进行指定:
要检索“ed结尾的动词与ly结尾的副词的搭配”,就用“s[a-zA-Z]+eds[a-zA-Z]+lys”:
上面的检索办法并不完美,其实以ed结尾的却不是动词的单词也会有一些,而且以ly结尾的单词也未必就是副词。要真正做到“对某种词性的某个词的检索”,就必须先对所有句子段落都进行POS taggging(词类标注,也叫“词类标注”),这样的标注就会把每个词的后面都添加一个下划线或斜线或反斜线,然后再添加一个标签,例如用JJ表示形容词,VV表示动词(前面是两个字母V),这样的标签有多套,每套都是不同的高校或开发者指定的,例如,美国宾西法尼亚州立大学的那套就是这个清单: https://www.sketchengine.co.uk/documentation/wiki/tagsets/penn
下面就是在语料库中检索love这个词的动词用法的正则表达式,从前后词的标注你也就明白了“被标注了词性的语料”是什么样子的:
love的名词用法的检索就是:
如果介词都被标注为“IN”这个标签,那么,想要找“介词+名词”这种结构,就:
如果被标注词与标签之间的连接符号不是下划线,而是斜线,就需要输入“/IN [a-zA-Z]+/NN”:
如果被标注词与标签之间的连接符号是反斜线,就需要输入“\IN [a-zA-Z]+\NN”,注意,因为反斜线是特殊符号,所以需要用两个反斜线代表一个反斜线哟:
同理,如果标签左右是方括号包住的,就需要输入“[IN] [a-zA-Z]+[NN]”,注意,这是因为左方括号和右方括号都是特殊符号,所以需要用在方括号的左侧添加一个反斜线哟:
21上面的内容虽然只是让你掌握到了正则表达式的初级水平,但是,你已经清晰地明白了“竖线、斜线、反斜线、方括号、花括号、加号、下划线”这7种符号的威力,尤其是你能进行多重组合的时候,就能构建出相当复杂也相当广泛的语言结构与语言现象了,恭喜你!
1、索引Concordance
2、索引定位ConcordancePlot
3、文件查看FileView
4、词丛Clusters
5、N元模式(部分词丛)N-Grams(partofClusters)
6、搭配Collocates
7、词单WordList
8、关键词单KeywordList
AntConc
AntConc是免费而强大的语料检索工具,在进行中英文的文章检索的时候,往往需要进行模糊检索。模糊检索包括:(1)一个单词的多种变化形式的检索;(2)多个单词的逐一检索;(3)单词的前缀或后缀检索;(4)某种长度或某个长度范围(长度就是字母数量)的单词的检索;(5)某种单词组合模式或句型的检索。
wordsmith
wordsmith是款帮助用户更好的完成所需的操作的文本替换工具,wordsmith可以进行快速的支持,用户的体验也得到了最大化的提升,实现更加准确的查找,帮助用户减少了众多繁琐操作!
功能上Concord (语境共现检索工具)、WordList (词频列表检索工具)、KeyWords(关键词检索工具)、Splitter(文本分割工具)、Viewer(文本浏览工具)等六个程序,其中前面三个程序是主要的文本检索工具,后面三个程序属于辅助性工具。