我尝试了依赖项解析器的在线演示和下载版本。在线演示的增强依赖项能够得到准确的结果。例如,“你能给我推荐一部由詹姆斯·卡梅隆和莱昂纳多·迪卡普里奥执导的电影吗?”结果如下:
根(根-0,根-3)
辅助系统(推荐3号,Can-1号)
nsubj(推荐-3,推荐-2)
nsubj(电影-6,me-4)
det(电影-6、a-5)
xcomp(推荐-3,电影-6)
nsubjpass(定向-9,定向-7)
nsubjpass(acted-14,WHIT-7)(额外)
auxpass(定向-9,was-8
我有许多分类器来确定事件描述是否属于某些类别,即摇滚音乐会、爵士晚会、古典音乐等。我创建了一个servlet,它使用LinearClassifier scoresOf函数返回事件描述数据的分数
为了查看返回意外结果的案例,我调整了scoreOf函数(公共计数器scoresOf(数据示例))以获得单个特征及其分数的数组,这样我就可以理解最终分数是如何得出的。这在很大程度上是有效的,即我大部分都有这样的行:-
1-#-爵士乐-0.6317620789568879
1-#-saxo-0.2449097
我目前正在培训一些情绪分析模型。在默认设置下,训练运行400次迭代,这需要很长时间。是否有办法提前停止培训,例如,如果错误没有变小?是否有允许此操作的代码
在Socher等人2013年的论文中,有一句话指出RNTN在几个小时的训练后收敛。我可以利用这个吗
编辑以澄清:
我所指的论文是Socher等人的“情感树库上语义成分的递归深层模型”,EMNLP 2013。我提到的RNTN是斯坦福CoreNLP软件包的一部分
要重新措辞并澄清我的问题:
如何使edu.stanford.nlp.thousio
我正在与斯坦福大学CoreNLP合作,并将其用于NER。但当我提取组织名称时,我看到每个单词都带有注释标记。因此,如果实体是“纽约时报”,那么它将被记录为三个不同的实体:“纽约”、“纽约”和“时报”。我们是否可以在Stanford COreNLP中设置一个属性,这样我们就可以得到作为实体的组合输出
就像在Stanford NER中一样,当我们使用命令行实用程序时,我们可以选择输出格式为:inlineXML?我们是否可以设置一个属性来选择Stanford CoreNLP中的输出格式?否,CoreN
我是情感分析领域的新手,我对学习培训模型非常感兴趣,您能解释一下下面命令中包含的每个说明吗
java-mx8g edu.stanford.nlp.touction.mountaining-numHid 25-trainPath train.txt-devPath dev.txt-train-model model.ser.gz
以下功能是什么:
-纽希德25
-trainPath train.txt
-devPath dev.txt
-训练
-model.ser.gz
您能帮我吗?更复杂的选项在
解析器使用标志-makeCopulaHead,如何在使用时启用此标志
我已尝试使用以下标志启动服务器:
java -cp "*" -mx4g edu.stanford.nlp.pipeline.StanfordCoreNLPServer -parse.flags " -makeCopulaHead"
我还尝试在我的post请求中将其作为url参数的一部分传递:
properties = {"annotators": "...", "parse.makeCopulaHead": "true"}
如何使用Stanford CoreNLP的SemanticGraph组件(以一般方式)获取句子的主语
我尝试了下面发布的代码,但输出表明subject为null
String sentence = "Carl has 84 Skittles.";
Annotation doc = InitUtil.initStanford(sentence, "tokenize, ssplit, pos, lemma, ner, parse");
SemanticGraph semGraph = doc.get
我在斯坦福nlp文本分类器中找不到任何关于特征选择机制的信息
ColumnDataClassifier是否默认执行任何特征选择。下一行来自20个新闻组数据的输出
numFeatures(Phi(X)类型):245343[类,2-SW-et,2-SW-stop,2-SW-someone,2-SW-organization,…]
有了245343功能,我认为这个工具不可能如此快速,并且使用的内存少于2G。当我尝试在WEKA上训练一个具有相同数据集但功能较少(45000)的模型时,WEKA使用8G内存
我用自己的特征训练了自己的模型。我的培训数据集的大小仅为6M。在建模阶段之后,我的模型(.gz)的大小是420M,
这是正常的还是出问题了
谢谢影响模型序列化大小的不是培训数据集。这是你使用了什么/多少功能。但是420Mb的型号非常常见
只要你能对看不见的文本进行分类,就不用担心了
我试图增加与日期相关的开箱即用的NER的结果。
例如,短语“上一年”得到了“这一年”的NormalizedNER注释,这显然是错误的。
它需要是“上一个即时P1Y”。
实际上,我在“english.sutime.txt”中找到了导致这种情况的TokensRegex规则。
我试图通过在下游应用以下提取令牌REGEX规则来进行此更正:
{
ruleType: "tokens",
pattern: ( /the/ /prior/ [ {ner:"DATE"} &
我目前正在为斯坦福NLP模型使用这个JAR文件:Stanford-corenlp-3.5.2-models.JAR
这个文件相当大:大约340MB
我只使用了4种模型:tokenize,ssplit,parse,和lemma。有没有办法使用更小的模型JAR文件(或者每个模型都有JAR文件),因为我绝对需要这个文件的大小尽可能小。“引理”需要“pos”,所以您需要将其包含在注释器列表中
例如:“edu/stanford/nlp/models/lexparser/englishhpcfg.ser.g
我想在Ubuntu上使用StanfordCorenlp3.6.0尝试一种模式提取方法。
它作为默认设置(通过patterns/example.properties)运行模式提取方法,如下所示:
java -mx1000m -cp "*" edu.stanford.nlp.patterns.GetPatternsFromDataMultiClass -props patterns/example.properties
Cannot assign option field: java.lang.C
我一直在尝试将自定义规则添加到SUTime中,但我一直坚持其中一条规则。我尝试过各种方法,但似乎都没有达到我想要的效果
5 - 8 years returns the following.
{
'text' : '5 - 8 years',
'type' : 'DURATION',
'value' : 'P5Y/P8Y'
}
5-8 years return the following. (no space between the hyphens)
{
我被englishPCFG模型和Penn treebank注释的目的弄糊涂了,Standford Parser的包只包括所有类型的模型,它总是问我,如果我们已经有了Peen treebank的注释,这个模型是如何工作的。简单地说,什么是Peen树库Anotation对解析器有效?模型是如何产生的?如果原始文本用于解析器,它是否需要查询树库以再次预测树
我正在阅读一些材料,但仍然不知道在下面的步骤中模型是什么时候生成的。
1、选择一个可用的树库。
2、选择适合树库注释的解析器引擎。
3、选择培训和
我找到了与Stanford Core NLP兼容的德语解析和pos标记模型。然而,我无法让德国柠檬化工作。有办法吗?对不起,据我所知,斯坦福CoreNLP没有德语柠檬化的实现。因为3.6版也支持德语。
在下检查它,即使是最新版本的CoreNLP 4.0.0也不支持德语的柠檬化。请参阅以供参考。您的意思是“无法使德语柠檬化工作”?您介意更改已接受的答案吗?但它不支持柠檬化(尚未)。分句器对德语来说也很不可靠。
我正在用CoreNLP解析60000多个句子,以获得依赖关系
因为我只需要折叠的依赖项,所以其他依赖项类型(basic和折叠的cc-processed)对于我自己的使用是多余的,并且很难构建我自己的代码,这些代码将xml输出作为输入
我只能得到折叠的依赖项吗?
如果有,请告诉我
谢谢。目前没有办法做到这一点。计算附加表示只需很少的计算,因此它们总是被报告。但是,应该在XML输出中特别标记它们;希望在下游代码中过滤正确的表示并不困难。谢谢您的回答
我只是使用Standford Core NLP运行一个“hello world”,从文本中获取命名实体。但有些地方没有得到正确的识别,如“Ixhuatlancillo”或“Veracruz”,这两个必须标记为LUG(地点)的城市都被标记为ORG。
我想扩展西班牙语模型或字典,添加墨西哥的地名(城市),并添加人名。我该怎么做
提前感谢。最快、最简单的方法是使用regexner注释器。您可以使用它手动构建字典
下面是一个示例规则格式(由制表符分隔,第一列可以是任意数量的单词)
系统管理员职务杂项2
我们正在学习斯坦福nlp分类器的使用。正如它的维基页面所说,它可以用来建立数字数据分类模型,比如Iris:
但在解释输出时,我们对其中一些有困难:有4列用于输入属性(1值、2值、3值、4值),一列用于输出标签(Iris setosa、Iris versicolor、Iris virginica)。但这里的阶级是什么?它是整个输出列吗
构建此分类器:具有以下权重的线性分类器
Iris-setosa Iris-versicolor Iris-virginica
3-Value -2.27
我使用CoreNLP进行命名实体提取,遇到了一些问题。
问题在于,每当一个命名实体由多个标记组成时,例如“Han Solo”,注释者不会将“Han Solo”作为单个命名实体返回,而是将其作为两个单独的实体返回,“Han”“Solo”
是否可以将命名实体作为一个令牌获取?我知道我可以在这种程度上使用CRFClassizer和classifyWithInlineXML,但我的解决方案要求我使用CoreNLP,因为我还需要知道字号
以下是我目前掌握的代码:
Properties props
我是NLP的新手。
在研究Stanford解析器的通用依赖项输出时,请参见case标记。
在手册中找不到对此的引用
root(ROOT-0, transfer-1)
dep(100-3, $-2)
dobj(transfer-1, 100-3)
case(John-5, to-4)
nmod(100-3, John-5)
case(account-8, from-6)
nmod:poss(account-8, my-7)
nmod(transfer-1, account-8)
acl(accou
我正在使用斯坦福NLPCore SU时间库来构建一个时态解析器。我在设置参考时间方面有问题。这是我的密码:
public static String dateFormatString = "yyyy-MM-dd HH:mm";
private static void setup() {
try {
String defs_sutime = rulesFiles + "/defs.sutime.txt";
String holiday_sutime = ru
我只是想知道斯坦福NLP的英语统计共指消解系统是在哪个语料库上训练的。如果用在小说上会有效吗?共指模型是在CoNLL 2012共指数据集上训练的,该数据集与OntoNotes 5.0数据集相关
以下是数据链接:
我想获取用于在stanford corenlp pos parse和depparse中训练默认模型的训练数据。
你能告诉我怎样才能得到这些数据吗 POS模型是根据PTB/华尔街日报的数据以及我们未发布的其他一些额外数据进行培训的。你可以从LDC网站上获得最新版本的PTB(Penn Treebank)
您还可以从主UD站点获取POS培训数据和依赖项解析培训数据。链接如下:
我想使用StanfordCorenlp来获取句子的依赖解析器。为了在python中使用stanford corenlp,我们需要在Google Colab中执行以下步骤:
安装java
导入操作系统
!!apt get install openjdk-8-jdk-headless-qq>/dev/null
os.environ[“JAVA_HOME”]=“/usr/lib/jvm/JAVA-8-openjdk-amd64”
下载stanford-corenlp-full-2018-10-05并将
斯坦福自然语言解析器如何使用Penn树库进行标记过程?我想知道它是如何找到给定输入的词性的?斯坦福词性标记器使用概率序列模型来确定句子下面最可能的词性标记序列。此模型提供的一些功能包括
环绕词与n-gram
周围词的词性标记
“字型”(例如,“Foo5”被翻译成“Xxx#”)
字尾
有关详细信息,请参阅。该模型在标记语料库(如Penn Treebank)上进行训练,该语料库中的每个标记都带有正确的词性注释
在运行时,为输入文本计算上面提到的特性,并使用这些特性构建每个标记的概率,然后将这些概
我正在观察我训练的分类器的TP、FP、FN输出中的各种差异。例如,模型告诉我没有检测到类型为“C”的实体,而事实上,我查看了输出文件,有许多实体正确地标记为“C”
我可以阅读一些资料来了解NER工具如何计算其TP、FP和FN计数吗?IOBUtils.java有考虑边界错误的countEntityResult。您能提供一些有关如何运行NER系统的详细信息吗?
错误
原因:java.io.IOException:无法解析
“edu/stanford/nlp/models/touction/touction.ser.gz”作为任意一个类
路径、文件名或URL
代码
String text = "I am feeling very sad and frustrated.";
Properties props = new Properties();
props.put("pos.model", "edu/stanford/n
我正在尝试使用斯坦福Corenlp工具包对文本进行注释。我尝试使用此处提供的代码:
而且效果很好。问题是当我想使用coreNLP工具包中嵌入的共同引用解析工具时。它不起作用。我使用了斯坦福nlp集团发布的代码。代码如下:
public class CorefExample {
public static void main(String[] args) throws Exception {
Annotation document = new Annotation("Barack Ob
我想用斯坦福大学的CoreNLP来写法语。词性标记和解析工作得很好,但在我的配置中,输出依赖关系根本没有意义
我的命令是
java -mx1g -cp "~/stanford-corenlp/stanford-corenlp-full-2015-12-09/*"
edu.stanford.nlp.pipeline.StanfordCoreNLP -props french.conf
-file /tmp/file.txt -outputFormat text
其中french.conf包含
斯坦福CoreNLP中文软件包是否能够检测到成渝(成语) 名言(格言/谚语/惯用语 (例如。冰冻三尺,非一日之寒))? 也比我强!确实如此!
以下内容由斯坦福NLP管道(使用中文模型)生成:标记化、ssplit、pos、引理、ner
[
[
{
"category2":null,
"offset-begin":"0",
"ner2":"O",
"lemma2":"冰冻三尺",
"word2
我下载并解压缩了它,并尝试使用默认(提供的)培训模型在本地文件上运行命名实体识别。我明白了:
`java.io.FileNotFoundException: /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters (No such file or directory) at edu.stanford.nlp.io.IOUtils.inputStreamFromFile(IOUtils.java:481)`
出了什么问题以及如何修复?事实
似乎有一个法国的标签,但我没有找到任何柠檬酒
谢谢大家! 据我所知,斯坦福NLP没有法国柠檬加工厂。你可以看一看
我目前正在对中国微博文本进行分类,其中一个步骤是提取文本中包含的地理位置。我遵循斯坦福NLP网站中描述的步骤,即首先使用中文分词器对中文文本进行分词,然后在分词文本上应用中文NER模型
然而,我已经看到了许多错误的否定,其中文本确实包含地理位置,但NER软件无法识别它们。下面列出了一些示例(斜体是手动标记的地理位置)
【开展防汛排查】6.月29日,紫阳县红椿镇强降雨引发了山体滑坡和泥石流,为避免发生不安全事故,红椿派出所与交警中队民警冒雨开展重点路段巡查,疏导交通,排查险情。目前,共排查险情3.
我们正试图从文件中提取欧元价值。斯坦福正在按预期确认这笔钱。然而,在提取期间,它正在将欧元转换为美元
以下是运行Stanford CoreNLP并关闭货币标准化的示例命令:
java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit -file sample-sentence.txt -outputFormat text -tokenize.options "normalizeCurrency
我正在尝试运行以下代码:
但是,我找不到这三种必需的导入:
import edu.stanford.nlp.coref.CorefCoreAnnotations;
import edu.stanford.nlp.coref.data.CorefChain;
import edu.stanford.nlp.coref.data.Mention;
我可以使用这些导入:
import edu.stanford.nlp.dcoref.CorefCoreAnnotations;
import edu.s
我想用新数据训练中国人的Segenter,我制作了一个字典和一个序列化的树库文本文件
我的问题是,我不理解或找不到关于以下两者之间差异的文件:
-视像仪数据
及
-trainFile train.txt
有人能帮我解决这个问题吗。我的中文数据集是佛教古籍,因此很难取代像《观世音》这样的资源
祝你一切顺利
Andreas这里有培训您自己的中文分词员的文档:
sighanCorporaDict是一个包含分段器所需资源的目录…应将其设置为分段器分发中的数据目录
trainFile应该是一个句子列表,这
我用这个包装器对法语句子进行标记化
我还根据、和此处的自述设置了属性。但是,“tokenize.options”中设置的属性无效。这是为标记器设置属性的方法吗
守则:
nlp = StanfordCoreNLP(r'../libraries/stanford-corenlp-full-2018-10-05', lang='fr')`
props = {'annotators': 'tokenize',
'pipelineLanguage': 'fr',
我是NLP新手,希望通过一个示例帮助我了解如何在StanfordNLP解析器的openie属性下使用openie.triple.strict选项。下面是一个示例命令,您可以将该选项设置为true或false。默认值为true
java -Xmx10g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,depparse,mention,natlog,openie -file sam
我正在对新闻文章进行注释&错误地,其中一篇文章有视频转录,不幸的是,执行注释的代码无限期地等待wrapper.joinWithTimeout();&this.timeout=-1
我会过滤这么长的视频转录,但有没有什么策略可以优雅地处理来自软件的这种无限期等待
线程转储:
java.lang.Thread.State: WAITING
at sun.misc.Unsafe.park(Unsafe.java:-1)
at java.util.concurrent.loc
从3.5.2版开始,斯坦福解析器和斯坦福CoreNLP默认以Universal Dependencies v1表示输出语法关系
我想知道斯坦福大学是否仍在改进English\u SD解析器模型,还是专注于改进English\u UD。上次更新英文版的时间是什么时候
告诉我在3.7.0中发布了新的英语神经依赖解析模型,但我不确定是SD和/或UD模型。我们不再更新SD,该描述是对新UD模型的参考
我正在尝试配置SUTime annotator(“ner”的一部分),以使用我自己的日期/时间规则文件,而不是位于Stanford CoreNLP模型分发JAR中“models/SUTime/”中的现成规则文件。
我这样做的原因是我想稍微修改SUTime规则正在做的事情。
根据这位官员的说法,只需以逗号分隔的文件路径形式指定“sutime.rules”属性。
但在我这么做之后,CoreNLP似乎仍然使用开箱即用的规则文件:
Reading TokensRegex rules from edu
我正在使用CoreNLP的crfclassizer训练一个chunker,我想减小生成的模型文件的大小。我原以为我可以使用featureCountThreshold属性来设置不常见功能的阈值,并以这种方式减少文件大小,但我尝试了几个阈值,并且文件大小始终相同,因此要么我做错了什么,要么我误解了featureCountThreshold属性
这就是我如何实例化CRFClassizer:
val props = new Properties()
props.setProperty("macro",
我有一个问题,关于CoreNLP如何在累积句子总分的过程中为短语分配括号。主要问题是它计算句子中短语情感的顺序。有人知道使用什么算法吗?一个例子可以清楚地说明我的问题:
在我的训练模型中,我使用的量表是0-4,其中0是负的,2是中性的,4是正的,所以下面的短语被评分:(3(1低)(2(2油)(2生产)))
-注:上升至正面的原因是我们预测油价,而较低的石油产量将导致较高的价格,因此正确预测油价上涨需要整体积极情绪
接下来,让我们假设以下推文被抓获:“欧佩克决定降低石油产量”。我想CoreNLP做
我已经成功地将tokensregex用于基于规则的命名实体识别,但希望通过添加地名录作为附加层来提高准确性
我的数据实际上不是在一个文件中,而是在一个看起来像:
{“中国”=[“上海”、“北京”、“贡佐”…]、“英国”=[“伦敦”、“曼彻斯特”、“爱丁堡”…]}其中关键是国家名称,而价值是相应的城市
我可以使用这种格式,即地图,还是需要一个带有位置名称和位置标签的tsv文件
如何将地名索引注释与tokensregex一起使用
另外,既然托克斯规则每次只看一个标记,我如何匹配地名录中的多标记词,如
使用以下工具培训新模型时:
java -mx1g edu.stanford.nlp.tagger.maxent.MaxentTagger -props myPropertiesFile.prop
假设myPropertiesFile.prop中指定的模型已经存在。新模型是从头开始训练还是从现有参数开始训练?我能控制在这种情况下做什么吗
一些背景:
我想首先在一个非常大的、标记不太准确的数据语料库上训练标记者,然后在一个更小的准确数据语料库上继续训练,这就是所谓的“热启动”它将从头开始构建一个新
我需要在敏感数据上运行NER,我想知道,如果在我的devbox上使用Stanford.NLP.NER Nuget包,文本将发送到我的公司网之外的服务,或者数据是否在我的机器上本地处理
谢谢,
罗杰我不熟悉Microsoft NuGet或您正在使用的特定软件,但一般来说,您完全可以在本地计算机上严格运行Stanford NER。您可以运行管道,这将在本地机器上启动一个Java进程,并使用本地机器上的资源。您还可以启动一个完全封装在本地机器上的服务器,并且再次只使用本地机器上的资源
如果有人通过Nu
我想使用Stanford Core NLP套件使用依赖项解析器解析以下示例:
Call a yellow cab for James on Piccadilly Street in 5 minutes
我已使用以下语法解析了此句子:
从https://stanfordnlp.github.io/CoreNLP/(因此,我在计算机上脱机、本地运行):
(所以我在提供的网站上在线运行):
在线生成的结果正确,而另一个结果不正确
考虑到在线版本与2016年相同,而下载版本自2020年以来,有
我正在为烂西红柿NLP预测的kaggle竞赛工作
对培训集格式的分析如下:
短语句子情感
1一系列的越轨行为证明了一句格言:对鹅有益的事对雄鹅也有好处,其中一些偶尔会让人觉得好笑,但没有一个能成为一个故事。一,
2 1一系列的越轨行为证明了一句格言:什么对鹅有好处2
但是,训练集公式必须如下所示:
(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2(2)``
我有一个TSV文件,其中包含作为正则表达式的实体,以适应拼写变体和屈折变化。是否有可能使用这样的文件来训练一个NER模型,或者是否有必要手动将正则表达式扩展到所有可能的拼写变体
在Java文档中,我发现,对于3.5.2版的分类器,指示的路径edu.stanford.nlp.ie.regexp(jar文件内)不包含此分类器
这可以做到吗?如果可以,可以使用命令行调用(如使用edu.stanford.nlp.ie.NERClassifierCombiner)或仅通过编程实现吗?您可以查看。您可以定义
我终于能够让我的TokensRegex代码为命名实体提供某种输出。但是输出并不是我想要的。我认为规则需要一些调整
代码如下:
public static void main(String[] args)
{
String rulesFile = "D:\\Workspace\\resource\\NERRulesFile.rules.txt";
String dataFile = "D:\\Workspace\\data\\GoldSetSent
1 2 3 4 5 6 ...
下一页 最后一页 共 8 页