我当前正在使用该命令
scrapy crawl myspider -o output.csv -t csv
获取输出csv文件。默认情况下,这些文件以逗号分隔。如何获得制表符分隔的文件?使用此解决方案覆盖Scrapy的默认CSV编写器分隔符
scraper/exporters.py
从scrapy.exporters导入CsviteExporter
CsvCustomSeperator类(CsvItemExporter):
定义初始化(self,*args,**kwargs):
kwargs[
我从一个网站上抓取了一个URL列表。我想将这些URL群集到组。然后我可以为这个站点生成一个站点地图。类似的URL应该转到同一组
IN [1]: http://www.example.org/s/daily/2013-12-09/1392994518.html
OUT[1]: http://www.example.org/s/daily/${date:%Y-%m-%d}/${date:%s}.html
IN [2]: http://www.example.org/torvalds/linux/c
我有一个爬行蜘蛛,它使用邮政编码和类别(邮政数据)搜索结果。我需要得到所有邮政编码中所有类别的所有结果。我的爬行器将邮政编码和类别作为POST数据的参数。我想通过脚本以编程方式为每个邮政编码/类别组合启动一个spider
文档解释了可以使用下面的代码示例在每个进程上运行多个spider:这与我想做的事情是一样的,但是我想在前面的spider完成后,将spider排成队列,一个接一个地运行
关于如何实现这一点有什么想法吗?似乎有一些答案适用于较旧版本的scrapy(~0.13),但体系结构已经改变
我尝试使用Python的请求模块来填写POST表单,然后获取输出。很多网站似乎都以这段代码为例。但是,它一直只返回表单。我创建了一个简单的POST表单,它似乎也在返回表单本身。以下是Python代码:
import requests
url = 'http://127.0.0.1/test.html'
data = { 'name': 'Test','age': '52'}
r = requests.post(url, data=data)
print(r.text)
“测试”HTML表单
我不熟悉刮削,我想从daraz.pk上刮削产品和价格。我从一个教程中学习,能够从amazon上获取数据,但无法在daraz中完成。
请告诉我如何从该链接获取笔记本电脑产品名称:
我尝试使用response.css(“c16H9d::text”).extract()但无法检索任何数据。
关于我已经为Daraz.pkl的修饰类别编写了这段代码。然而,若您想刮取其他产品,只需在Url中添加该页面的链接,并在下面添加所需的xpath
import bs4 as bs
import re
from sel
我需要点击url>http://something.com/requirements.txt
内容将是这样的,(response.text)
我只想使用scrapy从文本响应中刮取“Year:”值,并将其映射到ItemLoader。有什么办法可以处理scrapy吗?您可以使用regexre
重新导入
关于findall(r'年份:(.*)\n',response.text)
From the 8th to the 12th century, Old English gradually
我正在尝试从网站中只提取粉色、黄色和紫色的条目。我该怎么做
我正试着从一个部分刮取硬币的名字和价格。coin name的元素不是字符串,而是svg,这很好,我们可以从img src中删除。问题是,我们不能瞄准正确的选择器,从“我们的利率”部分刮取正确的img src。我正在使用simplescraper.io
要刮取的页面:
给你
预期输出将是:BTC,4%,$300最小ETH,5%,$100最小BCH,6%,$1最小XLM,6%,$1最小USDT,13.5%,$100最小PAX,13.5%,$100最小感谢你的朋友,这很好,除了你的脚本中硬编码了硬
我正在编写一个SPARQL查询,不知道如何允许特定列的结果为空
我目前的要求是:
select * where {
?game a dbpedia-owl:Game ;
dbpprop:name ?name ;
dbpedia-owl:publisher ?publisher . }
有些游戏为publisher提供了猫头鹰,而其他游戏则没有。上述请求过滤掉了没有发行商的游戏。我希望能够获得游戏与出版商和游戏没有出版商在同一个csv
我试图为发布者owl编写if-isset语句,但似乎无法获
我正在使用从网站下载所有JPEG
我搜索了很多,应该是这样的:
wget -r -nd -A jpg "http://www.hotelninfea.com"
这应该递归地-r下载文件jpeg-A jpg,并将所有文件存储在一个目录中,而无需重新创建网站目录树-nd
运行此命令仅从网站主页下载JPEG,而不是从所有网站下载整个JPEG
我知道jpeg文件可能有不同的扩展名(jpg、jpeg)等等,但事实并非如此,也没有任何robots.txt限制
如果我从上一个命令中删除过滤器,它将按预期工
我期待着实践网页抓取项目。有谁能告诉我在哪里可以找到这样的列表,或者给我一些网页抓取项目的例子吗?抓取是一个宽泛的术语,你需要更具体一些才能得到详细的答案
但看看这里:
包含大量的信息和开源的抓取代码
它主要关注谷歌和必应,但信息非常普遍,代码在任何情况下都很有用。youtube有一些播放列表
我一直在运行刮板,并注意到它返回重复的结果。换句话说,它是从另一个项目为一个项目分配结果
我的设置文件有并发\u请求=100,并且没有设置下载\u延迟
这是我的蜘蛛代码:
def start_requests(self):
settings = get_project_settings()
ids = settings.get('IDS', None)
for i, id in enumerate(ids):
yield FormRequest(
我正试图从一个名为:
它的目录结构不是很一致,我不知道下一步该怎么办
以下是我用于刮片的代码:
from scrapy.spiders import CrawlSpider
class MySpider(CrawlSpider):
name = 'powermaxed'
start_urls = ['https://www.powermaxed.com/']
def parse_product(self, response):
yield {
我的密码是
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
my_url=https://www.chembid.com/results/?q=124-07-2&sort=price
my_url='https://www.chembid.com/results/?q=124-07-2&sort=price'
# opening up connection gra
我试图从网站上导入两个值,其中
最佳性能。平均值96.2
及
性能中值。平均值:83.4
我试着用这个公式来达到最好的效果。平均值:
=importxml("https://classic.warcraftlogs.com/character/eu/firemaw/umog", "//*[@id'top-box']/div[2]/div/b)"
但它返回的导入内容为空错误。平均性能中值也是如此
我在importxml公式中写些什么来获得我要寻找的两个值,
我正在F#研究网络爬虫,对此有一些问题
您需要创建一个脚本来在F#中爬行,还是可以创建一个控制台应用程序?
我看过一些教程,它们都使用了#r(参考),这在控制台应用程序中是不可能的?
与C相比,使用F进行web爬行有哪些好处?
我希望有人能解释这些问题。几年前我写了一个网络爬虫。我用F。我是作为控制台应用程序编写的。引用的#r用于F#脚本,这很酷,但我通常部署一个二进制文件
我选择F#而不是C#是因为它对我来说更高效(这当然是主观的),但也因为我在F#中开发了一个DSL来描述我感兴趣的页面部分
有人知道我在哪里可以找到所有已知以太坊或其他加密货币地址的列表吗?目前正在构建一个搜索器,在etherscan()上搜索地址并返回信息。有谁知道更好的方法吗?这是最有用的;然而,这并不完全一致。如中所示,有些钱包被分类为X,但不显示在标签X下。例如,Yobit.net不显示在exchange标签上,但如果您手动查找它,则被分类为exchange 看到这个答案了吗?以太扫描会给你一个所有账户的列表,我想这就是你所说的“刮”的意思吧?是的,这就是我目前正在做的。有关答案,请参阅。我不需要所有帐户有一
我试图从这些代码中获取坐标(“纬度”和“经度”)
> <script type="application/ld+json">
> {"@context":"http://schema.org","@graph":[
> {"@type":"Place","address":
> {"@type&q
我已经建立了一个程序,试图对一个房地产网站进行一些清理,以便获得一些关于市场的统计数据
我的程序可能会给这个网站打150次电话。我想每天做一次。我认为网络足够大,他们每天可能会获得大约10000-20000次点击(估计)
但是如果我把这些都寄到一起,他们会不会认为他们的请求太多了?他们会注意到我正在抓取网页并阻止我的IP吗
如果是这样,设置计时器是否重要?目前,我已经设置了一个计时器,在每次通话前等待3到5秒,如果有必要的话,我只会打电话。如果他们要注意刮刀,它肯定会非常突出。每天点击10000
我可以填写这个网站的输入,但我不能点击提交按钮,已经尝试了很多方法。如果您能测试您提出的解决方案,请。谢谢
var casper = require('casper').create();
casper.start("https://alsea.interfactura.com/RegistroDocumento.aspx?opc=Starbucks");
casper.then(function() {
casper.sendKeys('#ctl00_Main_RegistroClie
我正在用靓汤从网站上搜集信息
相关代码:
page_url = https://www.autotrader.co.uk/car-search?sort=sponsored&radius=1500&postcode=&onesearchad=Used&onesearchad=Nearly%20New&onesearchad=New&make=Vauxhall&model=Corsa&year-from=2008&year-t
我目前正在抓取一个网站,以获取使用Selenium以随机间隔刷新的数据。我在一个循环中删除了网页的所有元素——如果数据没有改变,这显然是过分了
有没有一种方法可以“监视”网页中某些元素的更改,然后在更改时刮取数据
我从一个IMPORTXML导入数据,并将其分为以下两列:
=ArrayFormula(IFERROR(HLOOKUP(1,{1;IMPORTXML(A1,"
//table[@class='table squad sortable']//td[@class='photo']/a/img/@src |
//table[@class='table squad sortable']//td[@class='name large-link']/a/@href")},
(ROW(A:A)+1)*2-
我试图从“Mapa”一节中删除关于使用Scrapy的“5 Postos de abastecimento”的信息
当我在chrome中查看网站时,会出现地图部分,我可以在开发者工具中查看html,并在div class style\uuuuu place\uuuuu 1StFN上找到信息
但当我试图在scrapy shell中找到这个div类时,它什么也找不到:
response.css('div.style__place___1StFN ')
我在开发者工具中查看了网络,试图找到任何其他包含
当我尝试使用spider运行我的sh脚本时,它只显示一个警告,并且不进行解析,但是当我自己运行spider时,解析会正常进行
我的sh文件
#!/bin/bash
# shellcheck disable=SC2164
cd /var/www/scrapy_parser/avito/avito/spiders
scrapy crawl avito -L WARNING
cd /var/www/scrapy_parser/info/info/spiders
scrapy crawl info_v1
因此,我用
scrapy shell 'https://www.amazon.com/s?k=tomatoes&ref=nb_sb_noss_1'
我正在努力拼凑产品的名称,所以我进入了
response.xpath('//span[@class="a-size-base-plus a-color-base a-text-normal"]').getall()
并获取:[]
当我用CSS和
response.css("span.a-size-base-p
$('div[class=“*someclassname*”]>p')在浏览器控制台中工作正常,但在node js中,此结果未定义,请提供帮助
const axios = require('axios');
const cheerio = require('cheerio');
const url = 'somewebsite';
axios(url)
.then(response => {
const html = response.data;
嗨,我要在一个项目中,我想查询几个网站,并从他们那里获取类似的数据,并提出它给用户的工作。例如:如果用户有一个名为“锐步鞋”的查询,大小为“9.0”,范围为“$30到$75”,我的应用程序应该为这些查询替换一些网站(我将提供这些网站),并从中获取相关数据。在不将数据保存在DB中的情况下,我需要格式化数据并将其获取给用户。我是新来的,所以我需要在哪一个框架上的指针,选择哪一个工具或任何重要的东西,我应该知道abt网络刮削。我确实研究了一些工具和框架,但不确定哪一个能够处理特定于查询的web抓取。尝
当我尝试使用Phantomjs进行报废时,默认情况下,Phantomjs会向服务器发送以下标题:
"name":"User-Agent",
"value":"Mozilla/5.0 (Unknown; Linux i686) AppleWebKit/534.34 (KHTML, like Gecko) PhantomJS/1.9.1 Safari/534.34"}
我得到一个状态405“不允许”响应
我在《PhantomJSAPI参考》中读到,为了模拟来自其他浏览器的请求,我应该更改我的用户代
我试图通过scrapy从不同的URL下载图像。我是python和scrapy的新手,所以可能我遗漏了一些明显的东西。这是我关于堆栈溢出的第一篇文章。非常感谢您的帮助
以下是我的不同文件:
items.py
from scrapy.item import Item, Field
class ImagesTestItem(Item):
image_urls = Field()
image_names =Field()
images = Field()
pass
s
我试图从这(一个示例页面)中获取数据,但没有用。我不知道为什么它总是告诉我,过滤后的异地请求到另一个网站,而referer是没有的。我只是想知道它的工作名称、位置和链接。无论如何,这是我的代码:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.http import Request
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
fr
我正试图找出如何从一个站点获取实时数据并将其显示在我的站点上。我想这样做,那里的数据更新,因为它在原来的网站上更新。我的主题是体育游戏,我的网站结构类似ESPN。我想获得所有的球队排名和球员数据
如果我不清楚,很抱歉。所以基本上你想要刮取一个网站,并在你的网站中显示它,可能以更好的方式显示
因此,我建议您使用,这是一个web抓取服务,它将为您提供api,以便以适当的模型获取数据
看看吧,它应该能帮你完成任务
如果没有,您可以用PHP或Javascript创建自己的刮板,Javascript中也有
用于从中提取数据的最佳移动应用爬虫程序,就像我们对使用Scrasty的网站所做的那样您想爬网playstore以获取应用元详细信息/评论吗?还是android应用程序深度链接?@VikashRathee:嗨,我需要从手机应用程序的详细信息/评论中提取数据,比如从电子商务手机应用程序中提取有关其产品的数据。
我有一个连接了多个IP的服务器。我试图在文档、设置参数和联机中找到,但我无法找到如何配置Scrapy,以便使用池中的一个IP连接到网站并从中旋转
我怎样才能做到这一点?嘿,你试过使用这个中间件吗?
我正在使用import.io为一个研究项目从各种网站上搜集信息。虽然它通常做得很好,但它偶尔会在scraper界面中输出一个空白页面,我无法选择任何数据或与网站交互
我能做些什么来操纵URL或网站本身,以便访问其数据?正常访问网站没有任何问题,我觉得应该有一个解决办法,但我有点经验不足,还没有找到任何办法。我尝试过使用不同的浏览器,并在import.io上切换脚本和样式选项 您可以共享您试图从中获取数据的URL吗?并指定您试图提取的数据。是的,谢谢您的回复。我正在尝试提取上主表中的信息。您可以共
我试图用rvest解决这个问题,但我没有成功。问题似乎在于为它找到正确的xpath或css选择器,但我不是很确定。有人对如何将这张桌子放入R有什么建议吗?提前谢谢
我目前使用的代码如下:
library(rvest)
library(magrittr)
url <- "http://cnes.datasus.gov.br/pages/estabelecimentos/consulta.jsp?search=2259982"
page<-read_html(url)
page%>
在使用web recorder执行某些步骤后,是否有一种方法可以在Automation Anywhere中从网页提取表。该表不会直接显示,而是在启动URL后单击几个控件后显示。
我要提取的表是在登录到该网站并使用搜索条件控件进行过滤之后出现的
我使用WebRecorder登录并将所需的搜索条件放在文本字段中,现在我想提取表。当我使用WebRecorder时,它会再次启动URL并将我带回我不想要的登录页面。我想让机器人留在页面上。请帮忙
此外,提取的表的会话名称的意义是什么?如果单击“高级视图”,
我的抓取代码工作正常,但效率似乎很低:我必须发送大量“继续”请求才能全部获取。以下是最初的请求:
https://en.m.wikipedia.org/w/api.php?action=query&prop=linkshere&format=json&maxlag=2&titles=Korn
我得到了一个连续的数字,所以我接着说:
https://en.m.wikipedia.org/w/api.php?action=query&prop=linkshe
以下是我打算如何使用此代码;
我有一个关键词,比如“小工具”。我在高级imdb搜索页面上搜索标题。我希望代码转到每个标题页,然后转到每个标题的关键字页,然后下载标题和所有关键字。
代码结构在我看来不错,但实际上不起作用。
请建议是否需要重新编写,或者可以通过一些建议进行更正
这是我的蜘蛛:
import scrapy
class KwordsSpider(scrapy.Spider):
name= 'ImdbSpider'
allowed_domains = ['imdb.co
我正在学习如何使用Scrapy进行web抓取,但在抓取动态加载的内容时遇到了问题。我正试图从一个发送POST请求的服务器上获取一个电话号码,以便获得该号码:
这是它发送的Post请求的标题:
Host: www.mymarket.ge
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:77.0) Gecko/20100101 Firefox/77.0
Accept: */*
Accept-Language: en-US,en;q=0
我正在制作一个网站,以帮助视频游戏流光(在twitch上),但要做到这一点,我需要分析那里的流和视频。我可以随时要求用户从twitch下载他们的视频并上传到我的网站上,但我需要一种更自动的方式。。。所以我的问题是:有没有办法获取视频数据和直播流数据?也许通过让用户链接他的twitch帐户?或者在twitch网站上使用刮板?
注意:我需要流和视频数据本身(我将对它们进行一些图像处理)您可以通过多种方式来实现
路1。
使用TwitchAPI V5
import requests
import jso
寻找获取特定日期(如2020年1月31日)股票价格的方法。
我知道我可以使用IMPORTHTML或IMPORTXML以及INDEX来获取表格。然而,当我使用浏览器在Investment.com上搜索某个特定日期时,没有直接的日期URL,而是显示最新的股票价格。我正在寻找我担心investment.com不提供API
所以,你将不能很容易地做到这一点(如果有的话)与谷歌表或应用程序脚本。原因是网站上的大部分内容看起来都是用JavaScript生成的,因此它不是第一次进入网站时显示的原始HTML的
我已经启动了Scrapy shell并成功地ping了维基百科
刮壳http://en.wikipedia.org/wiki/Main_Page
从Scrapy冗长的回答来看,我相信这一步是正确的
接下来,我想看看当我写作时会发生什么
选择“/html”。提取
此时,我得到一个错误:
NameError:未定义名称“hxs”
有什么问题?我知道Scrapy安装得很好,已经接受了目标的URL,但是为什么hxs命令会出现问题?我怀疑您使用的是Scrapy版本,它的外壳上不再有hxs
使用0.24之后
我需要使用Apify平台从谷歌搜索中获得一个URL列表
我的计划是从谷歌搜索任务开始。然而,我不认为它可以用来刮除谷歌搜索结果以外的任何东西(也许我错了?)。因此,我需要将其输出提供给另一个演员任务,例如,Web刮板或木偶演员刮板
但我似乎找不到与演员链接相关的文档。我应该如何进行
更新:
我发现,在第二个参与者的运行任务API端点上设置ACTOR.RUN.successedwebhook似乎有效(即,第二个参与者已启动)
但是,我似乎找不到如何将第一个参与者的数据集传递给第二个参与者:开始UR
是否有任何方法可以根据页面内容创建刮擦规则?原因是我正在尝试为一个网站创建一个爬虫程序,该网站有一个显示的特定页面,但URL不变,因此我需要蜘蛛从内容中识别出它在该页面上,然后调用某个函数。请提供更多信息,例如HTML内容,如果该内容中有可用的内容和不应使用的内容,该怎么办?请参阅提供更多信息,如HTML内容,如果该内容中有可用的内容和不应使用的内容,该怎么办。请参阅
如何使用木偶师在div内滚动?
等待页面。评估(()=>{
if(document.querySelector('div.U1vjCc')!=null)
{
对于(var i=0;i可能重复:这是否回答了您的问题?
await page.evaluate(() => {
if(document.querySelector('div.U1vjCc')!=null)
{
for(var i=0;i<3;i++)
我正在尝试使用Jsoup从网站检索js脚本中的数据
脚本位于标题中,如下所示:
<head>
<script1>
function
</script1>
<link>
<script2>
var = someJsonData
</script2>
</head>
通过使用此代码,我可以检索我感兴趣的最后一个脚本,但我得到以下结果:
<script>
var
我想从网站上获得信息(俄语)。
我想要一份汽车清单
我试着使用urllib
from urllib.request import urlopen, Request
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.3'}
reg_url = 'https://www.avito.ru/rossiya/
我正在从Amazon上削价,一切正常,除了我面临的位置问题,显然有些产品在我们之外是不可用的,所以当我的程序运行时,它无法获取价格,我使用Crawlera for US IP proxy,但它仍然无法满足少数请求
有没有什么方法我可以锁定它给我们,使用发送饼干或类似的东西。任何帮助或参考将非常有用。提前感谢。当您使用Crawlera时,您可以通过web界面创建一个新帐户,并将区域设置为我们。然后用新创建帐户的密钥替换API密钥
参考请参见指南
我正在尝试在RightMove中为所有返回的搜索项刮取URL。网页为:
我正在使用Puppeter尝试这样做,但不断出现错误“无法读取未定义的属性'getProperty'”
这是我的密码:
const puppeteer = require('puppeteer');
async function scrapePropery(URL) {
const browser = await puppeteer.launch();
try {
const page = await br
1 2 3 4 5 6 ...
下一页 最后一页 共 16 页