Machine learning 自动法律问答系统

我正在尝试实现一个web应用程序,它将允许用户定义规则并提问,以根据一组规则查看语句是合法的还是非法的。我心目中的领域是针对小型社区或俱乐部的规则 例如,假设一个可能的规则集包含以下规则: Only cars with valid registration tags may park anywhere indefinitely. Cars without valid registration tags may only park in a visitor spot for up to 3 day

Machine learning Tic-Tac-Toe神经网络作为评价函数

我一直在尝试使用多层感知器和反向传播为tic-tac-toe编程一个人工智能。我的想法是训练神经网络,使其成为董事会状态的精确评估函数,但问题是,即使在分析了数千个游戏之后,网络也无法输出准确的评估结果 我使用了27个输入神经元;3x3电路板上的每个方块都与三个输入神经元相关联,这些神经元接收0或1的值,具体取决于方块是否有x、o或空白。这27个输入神经元向10个隐藏神经元发送信号(我随意选择了10个,但我也尝试了5个和15个) 对于训练,我让程序通过使用当前的评估函数来选择双方认为最佳的动作,

Machine learning 异或运算的最小迭代神经网络需求

标准backprop解决xor问题所需的训练集最小曝光次数是多少?另一种类型的神经网络能更快地解决这个问题吗 最佳设置是什么(隐藏层节点数、学习率) 谢谢 这取决于网络布局、学习速率和正则化参数(如果使用) 网络的初始权重可能是幸运的,也可能是不幸的,因为在反向传播网络中,它们应该随机初始化。然而,意外启动接近局部最小值的可能性很小 对于XOR函数,一个包含2个节点的隐藏层就足够了 不需要偏置节点。也不需要正则化,因为对于异或函数来说,过拟合通常不是问题。 关于学习率,我认为0.05是好的,但我

Machine learning 回归树与模型树的区别

我需要一些帮助来理解回归树和线性模型树之间的区别 问候 Shahzad线性模型树是一种决策树,每个叶中都有一个线性函数模型,而在经典回归树(如CART)中,它是每个叶中统计单位的响应变量的样本平均值(因此是一个常数)。线性模型树可以看作是局部加权回归的一种形式,而回归树是分段常数回归 有关线性模型树的详细信息,请参阅 托戈,L。 在第14届国际机器会议记录中 《学习》,第385-393页。摩根·考夫曼,1997年 非常感谢你的准确回答。是否有任何软件或软件包可供我使用,特别是在R中构建线性模型树

Machine learning 在3层MLP中,为什么隐藏权重的输入应该是随机的?

例如,对于3-1-1层,如果权重初始化相同,MLP可能学习不好。但是为什么会发生这种情况呢?看起来你的问题标题有错。我猜你的意思是为什么隐藏层的权重应该是随机的。对于您指示的示例网络(3-1-1),这并不重要,因为您在隐藏层中只有一个单元。但是,如果在完全连接的网络(例如3-2-1)的隐藏层中有多个单元,则应随机化权重,因为否则,隐藏层的所有权重将以相同方式更新。这不是你想要的,因为每个隐藏层单元都会产生相同的超平面,这与在该层中只有一个单元没有区别。如果隐藏层中只有一个神经元,那没关系。但是,

Machine learning weka中每个等级的f值是多少

当我们评估WEKA中的一个分类器时,例如一个2类分类器,它给出了3个f-度量:类1的f-度量、类2的f-度量和加权f-度量 我太糊涂了!我认为f-measure是一个平衡的度量,它显示了多个类的平衡性能度量,那么1类和2类的f-measure是什么意思呢?f-score(或f-measure)是基于精确度和召回率计算的。计算如下: Precision = t_p / (t_p + f_p) Recall = t_p / (t_p + f_n) F-score = 2 * Precision *

Machine learning LIBSVM过拟合

在做了10倍交叉验证后,我用15451个样本训练了两个支持向量机(LIBSVM),并找到了gamma和C(RBF核)的最佳参数值。在一个svm中,我只使用了一个特征,在第二个svm中使用了一个额外的特征(看看这个额外的特征是否改善了预测)。在CV之后,我有75%的准确率(支持向量机有一个特征)和77%的准确率(支持向量机有另一个特征)。在对另外15451个实例进行测试后,我的准确率分别为70%和72% 我知道这被称为过度拟合,但它在这里有意义吗,因为它只有5%的差异 我能做些什么来避免过度安装

Machine learning 马尔可夫网络的对数似然

我很难理解Coursera课堂上的下图: 据我所知,方程式对应于系数表: 因此,例如,样本数据(a=0,b=0,c=1)的可能性为: 它看起来一点也不像图表。你能给我解释一下这个图表吗?我想你把概率和可能性混淆了 有一个概率分布p,由θ参数化,它支持(a,B,C)。对于固定θ,概率分布是a,B,C的函数。上图所示的似然函数是固定a、B、C的θ函数。该函数表示给定不同参数值的固定观测概率 在流行用法中,可能性和概率是同义词。在技术上,它们不是 对似然/概率问题进行排序后,似然函数告诉您,(A

Machine learning 学习机器学习我应该知道多少线性代数

我不熟悉机器学习,但不是很新,我知道一些简单的东西,比如K-均值聚类、人工神经网络和贝叶斯推理。 我想学习更多细节的机器学习,所以我开始阅读“机器学习:概率透视图”,直到我开始阅读“高斯过程”一章,我才发现了很多特征分解,以及使用对角协方差矩阵如何帮助不过度拟合。。。我对此一无所知。 那么,我该怎么办?为了以概率的方式学习机器学习,我应该开始阅读一整本线性代数书,还是只关注线性代数的一些主题 谢谢矩阵必须成为您的新名字 说真的,现在很多机器学习都是纯线性代数,涉及大量的矩阵运算。没有良好的线性代

Machine learning 径向基插值是如何工作的?

谁能给我解释一下怎么理解这个情节吗。这是使用径向基函数的二维散射数据插值 在这个链接中,他们展示了这个图,但不明白他们试图用这个图来表示什么 (来源:)这些是径向基函数的中心。每个圆对应一个高斯G(x;m,s),平均m和(标量)方差s。这里的平均值从x=-5到x=5不等,而|y |=2保持不变。方差似乎是各向同性的,在所有高斯分布中都是相同的 使用这些函数,我们可以继续进行某种回归。有多种替代方案:例如,可以考虑这些高斯的简单线性叠加,并优化叠加系数(即线性回归样式)。另一方面,也可以尝试优

Machine learning 您一次可以向Caffe传递多少图像?

我注意到Caffe MNIST允许一次最多向网络传送64个图像。 我可以设置这个数字的上限是多少? 我可以(例如)将这个数字设置为200甚至500,这样我一次最多可以接受200/500个图像,而不会对预测产生负面影响吗?唯一的限制是机器的内存:当caffe加载模型时,它会为所有参数和所有中间数据块分配内存。同时处理的图像越多,需要提前分配的内存就越大。 确定这个数字最简单(也是最粗糙)的方法就是简单的跟踪和错误,尝试将其设置为200,看看加载模型时是否出现“内存不足”错误。 请注意,您可以同时处

Machine learning 液体状态机:与脉冲神经网络模型有什么不同

我对“水库计算世界”非常陌生,我听说液体状态机(LSM)是一种特定的尖峰神经元网络模型(SNN)。这两者在实现上到底有什么不同 我需要澄清的另一个方面是关于它们的对应物“回声状态网络(ESN)的泄漏积分器模型”。 我在论坛上的另一个答案中发现,“在我看来(我可能是错的),这两种方法之间的最大区别在于单个单元。在液体状态下,机器使用类似生物的神经元,在回声状态下使用更多的模拟单元。因此,在“非常短期记忆”中,液体状态接近每个神经元都会记住自己的历史,在回声状态接近中,每个神经元只根据当前状态做出反

Machine learning Google tensorflow图像分类器的最低要求

我们计划使用谷歌Tensorflow构建图像分类器 我想知道使用卷积深度神经网络训练自定义图像分类器的最低要求和最佳要求是什么 具体问题如下: 每个类至少应提供多少图像 我们需要appx吗。每个班级提供相同数量的培训图像,或者每个班级的培训图像数量可以不同 错误的图像数据对训练数据有什么影响?例如,500张网球鞋图片和50张其他鞋图片 是否有可能训练一个比最近发布的inception-v3模型拥有更多类的分类器?比如说:30.000 每个类至少应提供多少图像 我们需要appx吗。每个班级提供

Machine learning 将TensorFlow LSTM转换为synapticjs

我正在努力实现一个TensorFlow basic LSTM(已经过培训)和一个可以在浏览器中运行的javascript版本之间的接口。问题是,在我读过的所有文献中,LSTM被建模为微型网络(仅使用连接、节点和门),TensorFlow似乎有更多的功能 我有两个问题: TensorFlow模型可以很容易地转换为更传统的神经网络结构吗 是否有一种实用的方法将TensorFlow提供给您的可训练变量映射到此结构 我可以从TensorFlow中得到“可训练变量”,问题是每个LSTM节点似乎只有一个偏差

Machine learning 如何使用神经网络进行人脸检测?

我正试图用一个用theano编写的神经网络来构建一个人脸检测系统。我有点困惑,应该是什么样的预期输出,我将不得不计算交叉熵。我不想知道人脸是否存在,我需要在图像中突出显示人脸(找到人脸的位置)。图像的大小是恒定的。但图像中人脸的大小并不相同。我该怎么办?此外,我的网络摄像头当前捕获480x640图像。在输入层中创建如此多的神经元对系统来说是非常沉重的,如何在不丢失任何特征的情况下压缩图像 有许多可能的解决方案,其中最简单的一种是执行滑动窗口搜索,并询问网络“图像的这一部分中是否有人脸?”——这是

Machine learning 为使用情况群集准备数据

数据集:我得到了每个客户每天使用一种产品的分钟数,我正试图对这些数据进行聚类,以便找到常见的使用模式 我的问题:我如何格式化数据,例如,在我结束数据收集之前,一个使用率高达一年的超级用户与另一个只能使用设备一个月的超级用户看起来是一样的 到目前为止,我已经将每个客户都变成了一个数组,其中每个单元格都是当天使用的分钟数。此阵列在用户首次使用产品时开始,在用户使用第一年后结束。对于聚类模型,单元格中的所有条目都必须是双倍值(即使用200.0分钟)。我考虑将数据收集最后一天之后的所有单元格/天数设置为

Machine learning 基于字符串前缀查找相似用户

我是一名软件工程专业的学生,刚刚接触数据挖掘,我想实现一个解决方案,根据用户的兴趣和技能(字符串集)找到类似的用户 我想我不能使用编辑距离(Levenshtein或..)来使用K个最近邻 如果有人能帮上忙,请您应该做的第一件事是将数据转换为合理的表示形式,这样您就可以对适当表示的用户之间的距离有一个明确的概念 我建议将所有字符串转换成某种规范形式,然后将所有n不同技能和兴趣字符串排序到字典D。现在,对于每个用户u,构造一个带有n组件的向量v(u),如果字典条目i中的属性存在,则该向量的i-th组

Machine learning 在非平衡数据集上使用SMOTE

我有一个2类的不平衡数据集,比率是20:1 我使用SMOTE对次要类进行过采样,并想知道何时使用SMOTE开发可用模型,是否最好进行过采样,使次要类的百分比与其他类相同(即1:1),或通过尝试错误确定最低可能的比率,以将模型整体改进到可接受的水平(即F1Score>0.7),但如果合理,则不要使用太多的合成样品 任何想法/建议都值得赞赏。在我的经验中,对大多数班级的抽样不足总比对大多数班级的抽样不足好,因为对我来说,对大多数班级的抽样不足从来没有帮助过。我的建议是试着对少数班级的所有/大多数情况

Machine learning 基于Keras的深度估计

我正试图设计一个卷积网络,用Keras来估计图像的深度 我有形状为3x120x160的RGB输入图像和形状为1x120x160的灰度输出深度贴图 我尝试使用类似VGG的架构,其中每一层的深度都在增长,但在最后,当我想要设计最后一层时,我陷入了困境。使用密集层太昂贵,我尝试使用上采样,结果证明效率低下 我想使用反褶积2D,但我无法让它工作。我最终得到的唯一架构是这样的: model = Sequential() model.add(Convolution2D(64, 5, 5, a

Machine learning 用tensorflow建立二元分类的MLP

我在尝试使用tensorflow为二进制分类设置多层感知器时遇到了一些困难 我有一个非常大的数据集(大约1,5*10^6个示例),每个数据集都有一个二进制(0/1)标签和100个特征。我需要做的是设置一个简单的MLP,然后尝试更改学习速率和初始化模式,以记录结果(这是一个作业)。 我得到了奇怪的结果,虽然,我的MLP似乎陷入了一个低,但不是很大的成本早,从来没有摆脱它。由于学习率的值相当低,成本几乎立即下降。我不知道问题是在于我是如何构造MLP的(我做了几次尝试,准备发布最后一次的代码),还是我

Machine learning CNN能比其他频道更能衡量某些特色频道吗?

这是一个假设问题 假设 我正在做一个两级语义分割任务 我的基本事实是二元面具 批量大小为1 在我的网络中的任意一点上,有一个称为'conv_5'的卷积层,其特征映射大小为90 x 45 x 512 假设我还决定(在培训期间)将地面真相掩码连接到“conv_5”。这将产生一个新的顶部,我们可以称之为“concat_1”,它将是一个90 x 45 x 513维的特征图 假设网络的其余部分遵循正常模式,如更多的卷积层、完全连接和softmax损耗 我的问题是,完全连接的层能否学会将前512个功能通

Machine learning 使用哪种度量来评估数据不平衡的分类器?

我正在研究一个分类问题,其中的类是非常不平衡的。为了解决这个问题,我使用了带替换的过度采样。(正如这里所建议的: ) 然后将数据集(过采样数据集)划分为训练集和测试集,训练朴素贝叶斯算法。当我想测试时,是否可以使用精度测量。据我所知,对于低样本的类,我必须添加样本的副本。因此,我的测试集包含火车集的精确副本。关于混淆矩阵,在过采样数据集上使用混淆矩阵意味着什么?这是一个好的实践吗?首先回答一个问题:你想实现什么?换句话说,你的模型“在野外”应该做什么。评估指标必须简单地回答这个问题,而不是其他问

Machine learning 无法在浏览器中打开张力板

我正在跟踪,无法启动张力板 我一直遵循上述教程中的步骤(也使用docker容器设置我的环境),直到在终端中键入以下命令 tensorboard --logdir=data/ --port=8080 其中终端输出以下提示 Starting TensorBoard 29 on port 8080 (You can navigate to http://172.17.0.2:8080) 当我访问http://172.17.0.2:8080在我的浏览器中看不到任何内容(此页面所在的服务器没有响应)

Machine learning 使用具有不同数据集的数字中的预训练模型时出错。如何基于新数据集修改图层?

我尝试使用预训练模型(VGG16)对数字进行训练,但我得到了这个错误 错误:检查失败:错误==cudaSuccess(2对0)内存不足 及 我成功地将deploy.prototxt和VGG_ILSVRC_16_layers.caffemodel和synset_words.txt上传到数字中,并使用我的数据集(有两个类)进行测试 有时数字服务器无法清除内存。如果您正在使用ubuntu,请尝试使用以下命令: sudo restart nvidia-digits-server 如果这不起作用,您再次

Machine learning 有状态LSTM的实现

我想创建一个有状态的LSTM 我的数据是68871 x 43,其中特征在第1-42列,标签在第43列 我的keras LSTM数据分类代码为 import numpy import matplotlib.pyplot as plt import math from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM, Dropout from sklearn.pre

Machine learning 线性回归不收敛的梯度下降

我用JavaScript实现了一个非常简单的线性回归和梯度下降算法,但是在查阅了多个源代码并尝试了几件事情之后,我无法使它收敛 数据是绝对线性的,只是数字0到30作为输入,x*3作为正确的输出来学习 这是梯度下降背后的逻辑: train(input, output) { const predictedOutput = this.predict(input); const delta = output - predictedOutput; this.m += this.learnin

Machine learning 在不同范围内具有不同含义的特征

在机器学习中,如何处理诸如工资之类的特性。例如,如果我通过基于特征测量数据点之间的距离来应用k-最近邻。假设我们有两分,薪水是2000和6000。他们之间的差距是4000。让我们以102000和106000的薪水来看另外两点。这里的差异仍然是4000美元,但是我们人类认为最后两点比前两点更接近或更相似。 我如何将这种直觉融入机器学习 您可以执行以下操作之一(以及更多操作): 使用log函数转换特征(因此2000和6000将远远超过102000和106000) 将特征二值化为多个bucket(您

Machine learning 如何在训练深度网络时有效地使用多个GPU?

我正在使用一台有2个GPU Titan Black的机器来训练我的深度学习模型,该模型有3层(3x3、3x3和5x5) 培训运行得很好,但当我观看nvidia smi(每1秒观看一次)时,我意识到我的程序只使用一个GPU进行计算,第二个GPU始终为0%,即使第一个GPU达到100% 我正试图使用tf.device为它们中的每一个分配特定的任务,但是它们一个接一个地运行,而不是并行运行,总时间甚至增加了,而不是减少了(我猜是因为2个GPU必须相互交换值) 下面是我的程序。它非常混乱,也许你只需要注

Machine learning 深层神经网络:波尔兹曼机器必须有多好?

当堆叠玻尔兹曼机器以生成性地预先训练深层神经网络时,重建需要多精确?如果它们太精确,是否会过度拟合?或者,在进行区分性微调时,过高的精度只是一个危险信号吗?令人担忧的是,马尔可夫链中的燃烧不足以抑制训练集中远离初始值的高能区域。这是典型的使用CD(1)或任何低阶对比差异。这就是说,这些方法通常都会初始化远离非预训练网络可能陷入的局部最优的权重 RBM也通过模拟退火进行训练,因此更有可能探索更多的参数空间 我还建议您阅读Zhang等人的《理解深度学习需要重新思考泛化》一文。这篇文章基本上展示了这些

Machine learning spark ml分类中的maxIter参数

在来自pyspark.ml.classification的logistic回归中使用的maxIter参数的作用是什么 mlor = LogisticRegression(maxIter=5, regParam=0.01, weightCol="weight", family="multinomial") Logistic回归通过梯度下降等迭代方法进行优化。它很可能是运行优化算法的最大迭代次数

Machine learning 在优化器步骤之前调整损失

在对我的loss运行AdamOptimizer操作之前,我想添加一个额外的操作,以帮助模型处理数据中的重复。相关代码段如下所示: loss=tf.nn.softmax\u cross\u entropy\u with\u logits(logits=predLogits,labels=actLabels) 损耗=tf.重塑(损耗,[batchsize,-1]) repMask=tf.sqrt(tf.cast(tf.abs(tf.subtract(tf.cast(Y,tf.int64),tf.ca

Machine learning 如何使用FeatureUnion合并两个列表

我为FeatureUnion编写以下代码,以合并两个列表: all_features = FeatureUnion([twenty_train_data, twenty_train_pos]) twenty_train_data "contains words" twenty_train_pos "contains pos tags" 但我有一个错误: 所有特征=特征联合([二十列数据,二十列位置]) 文件“/usr/local/lib/python2.7/dist-packages/skle

Machine learning “文件”;深度学习需要重新思考“泛化”;

我在读这篇文章,我不明白为什么在第5页,在第2.2节的含义下,它说,重新加工的复杂性,界限是微不足道的 由于我们的随机化测试表明,许多神经网络完美地匹配带有随机标签的训练集,因此我们预计对应模型类H的Rad(H)=1。当然,这是Rademacher复杂度的一个微不足道的上界,在实际设置中不会产生有用的泛化边界。 显然,我缺少了一些关于拉德马赫的知识,因为我不明白他们是如何得出这个结论的。如果有人能在论文中向我解释一下,我将不胜感激。函数h以1为界,因此Rademacher复杂度以1为界(你将n项

Machine learning TensorFlow:有没有一种方法来检查模型训练是否使用XLA编译? 我已经安装了源代码,并启用了XLA JIT编译。在会话中运行培训代码时,会显示以下消息: "XLA service 0x62bb180 executing computations on platform Host" and "XLA service 0x62a43b0 executing computations on platform CUDA"

这是否意味着我的培训是使用XLA\GPU设备?因为当我试图用tf.device(“/device:XLA\u GPU:0”)显式地包装我的会话时,似乎没有任何性能提升(训练速度仍然相同)。从我读到的文档中,似乎用 Tf.Engult结束会话是激活XLA JIT的方法之一。 是否有一种方法来验证我在训练中是否使用XLA JIT?< /P>

Machine learning 动态改变神经网络结构

我正在尝试实现一个整洁的算法,它涉及到动态改变神经网络结构,比如添加或删除节点和连接。我以前在监督学习方面的工作中一直在使用Tensorflow。但一旦在Tensorflow中定义了网络,它就无法更改。是否有其他框架提供此功能? 谢谢。除非它是专门为NEAT设计的框架,不,不是真的。符号执行的本质必然意味着有一个“创建网络”步骤,然后是一个“运行/训练网络”步骤。不过,根据您更改网络拓扑的频率,Tensorflow肯定仍然可行:这意味着,每隔一段时间,就要保存所有参数,并制作一个新模型——但这可

Machine learning 神经网络强化学习函数逼近

我试图用一个神经网络作为函数逼近器来实现用于估计q*的幕式半梯度Sarsa。 我的问题是:q(S,A,w)中的权重向量w是否指神经网络中的权重 见: 具体算法见第197/198页 如果是:那么如何处理多层神经网络中存在多个权重向量的事实 如果否:我将如何在算法中使用它? 我的建议是将其附加到状态s和动作a中,并将其插入神经网络,以获得所选动作的状态近似值。这是正确的吗 如何确定权重向量w的维数 提前谢谢 伪码中的w严格来说不必只是一个权重向量。本章开头的文本确实多次将w称为“权重向量”,但伪代码

Machine learning 高精度损失函数的权值计算

我有一个不平衡的数据集,其中2个类的示例数较低,3个类的示例数较高。是否有计算损失函数权重的标准方法,以便创建高精度的系统?退一步,让我向您指出两个可能的方向: 欠采样和过采样:此过程在数据集级别进行。目标是从代表性不足的类中生成新样本(过采样)。或减少过度采样类(欠采样)中的采样数。请参阅以下链接+程序包: 调整损失函数:此技术应用于分类器的损失函数,确保来自代表性不足类的样本对总体损失的贡献更大(相对而言)。看到这个讨论了吗 此外,本文还提供了一个总体概述

Machine learning 为什么过滤器不学习相同的功能

卷积运算的结果是每个内核生成多个数据子集。例如,如果将5个核应用于尺寸为WxDx1(1通道)的图像,则将5个卷积应用于生成5维图像表示的数据。WxDx1变为W'xD'x5,其中W'和D'的尺寸小于W*D 每个内核初始化为不同的值这一事实是否会阻止每个内核学习相同的参数?如果不是,是什么阻止每个内核学习相同的参数 如果图像是RGB而不是灰度,那么尺寸WxDx3而不是WxDx1会影响内核学习模式的方式吗?正如您已经提到的,内核学习内容不同的唯一事实是由于在开始时随机初始化权重 对CNN中的卷积核也作

Machine learning 当参数可以管理特征权重/重要性时,为什么数据规范化对模型很重要

当我们研究规范化时,给出了各种事实来解释其必要性 最重要的是: 标准化列如果在比其他列更高的范围内,则会对输出产生更大的影响,并使我们的结果有偏差 简单示例: 使用诸如人员年龄和薪资年龄等特征的模型对产出的影响较小,因为它的影响很小,而薪资可能影响更大 但我的问题是,模型应该足够聪明,能够根据范围计算θ。年龄将有较高的θ,而工资将有较小的θ。因此,该模型不会偏向于薪酬 他们说,在ML中,归一化有助于加快算法收敛的另一个原因。变化范围θ的类似情况也适用于此,因此我们的算法将以相同的速度收敛 我需要

Machine learning AML笔记本虚拟机自动关闭策略

是否可以设置自动关闭策略来关闭笔记本虚拟机?这是否需要用户关闭虚拟机笔记本?自动关闭当前未为计算实例或笔记本虚拟机启用,但已在我们的路线图上。当此功能处于预览、开发或可用时,将在中提供详细信息。谢谢。如果使用Azure VM Auto shutdown(也是Automation Runbook)首先从Azure VM资源刀片启动VM,然后在Azure ML工作区UI中重新启动,则当前自动关闭已在路线图上,您可以查看和更改基础IaaS VM的设置 无论何时运行笔记本或其他文件,Azure笔记本都会

Machine learning 周期激活函数

为什么像sin(x)、cos(x)这样的周期函数不被用作神经网络中的激活函数 relu = max(0, f(x)) is used 但是 从我的观点来看,问题是这些函数为许多输入提供相同的输出,若神经元得到输入0,1输出将与 0,1+2kpi 所以你的神经元会对大范围的输入值做出完全相同的反应。普通的relu剪辑负片值,就是这样。Sigmoid或双曲切线剪裁大小值,但sin或cosine为0,1提供了一些值;0,1+2pi;0,1+4pi和与0,5完全不同的东西;0,5+2pi;0,5+4p

Machine learning 有监督机器学习:数据点数量和变量之间的关系

比如说。我们有一个用于监督机器学习的数据集(csv格式)。它有60个数据点(数据行),每个数据点有100个变量 我使用来自60个数据点的所有100个变量来训练机器学习模型有意义吗?对我来说,它似乎在数学上是错误的。就像我解了一个方程组,有100个变量,但只有60个方程 在一个数据集中,如果我们有n个变量,那么训练机器学习模型所需的最小数据点数量是多少 有关于这个的统计理论吗 非常感谢。回答你的第一个问题,你是对的,试图概括一个有100个特性但只有60个示例的模型是没有意义的 弗拉基米尔·瓦普尼克

Machine learning 特征选择:粗略或精细数据

我有一个无监督机器学习的客户细分项目,原始功能超过300个。我正处于数据清理阶段 有两种特殊的数据:一种是粗数据,另一种是细数据。 例如: 家庭:粗略分类:1,2,3为家庭,精细数据:1为年轻家庭,2为单亲家庭 收入:粗:1,2,3为1-100000,细:1:1-3000,2:3001-6000,3:6000-10000 是否可以选择任何标准来决定是保留两个级别,还是只保留一个级别的数据 仅供参考:数据清理后,我将使用PCA和KMeans进行分段。由于细粒度列包含粗粒度列所包含的所有信息,因

Machine learning 在自定义数据图像上训练对象检测模型缺少数据集中其他对象的标签。可能吗?

我正在创建一个对象检测模型,该模型应该能够查看图像(稍后观看视频)并标记图像中的特定对象。然而,在一个“枪”的数据集中,“军官”和“枪”是两个被标记的对象,如果像警棍或防暴盾牌这样的东西碰巧在图像中,它们就不会被标记。然而,“防暴盾牌”和“警棍”有单独的数据集,因为这些是我想要检测的对象。同样,这两个数据集中有时也会有枪,但没有标记,等等,因为收集它们只是为了识别这些单独的对象 我的问题是: 如果我在这些数据集上训练模型,它在“枪”数据集上训练,例如,see的未标记防暴盾牌,当它在“防暴盾牌”上

Machine learning 聚类中轮廓系数的计算

我尝试在不使用库函数的情况下进行聚类,我尝试使用轮廓系数验证聚类技术 valuek = list() silhouettelist = list() label = list() for k in range(2,23,2): c_list, c_info = bisectingKMeans(Xsvd,k,10) for v in c_info[:, 0]+1: label.append((int(v.A[0][0]))) valuek.append(k)

Machine learning 条件GAN不';不要在高维输入上工作

我正在Sphere dataset()上训练一个带有投影鉴别器()的cGAN。“数据分布由两个n维同心球体组成:我们生成一个随机分布 其中,x的L2范数为1或R,每个范数的概率相等(在本研究中,我们选择R=1.3)。我们将每个x与一个标签y相关联,如果| | x | | 2=1,y=0,如果| | x | 2=R” 为了测试cGAN,我计算生成样本的范数。对于低维输入(例如,dim=10),我得到了正确的规范。 一、 但是,对于更高的尺寸(例如,尺寸>=100),不要获得正确的标准 有什么建议吗

Machine learning 我是否应该在再培训期间重新标准化培训数据?

我正在运行一个简单的keras深度学习,我将培训一次,然后每月在新数据可用时重新培训 我的数据由货币值组成,因此我将首先使用StandardScaler()标准化我的数据。但是,一旦有新数据出现,我想重新培训,我可以使用相同的StandardScaler对象吗?因为我们假设新数据的最大数据点高于当前的最大数据点,因此将改变整个数据集的标准化 我应该重新标准化还是可以对新数据使用相同的标准化?根据我从您的问题中了解到的情况,当您使用新的培训数据时,输入数据将不同于用于计算标准化参数的数据 在这种情

  1    2   3   4   5   6  ... 下一页 最后一页 共 147 页