ScrapingBee (Editor Independente) (versão prévia)
ScrapingBee é o serviço de raspagem da Web mais poderoso na Web. Ele lidará com navegadores sem cabeça, proxies, CAPTCHAs, extraindo informações estruturadas complexas de qualquer site com seletores CSS e executando cenários JavaScript (clique, role, preenchimento de formulário etc.).
Esse conector está disponível nos seguintes produtos e regiões:
| Service | Class | Regions |
|---|---|---|
| Copilot Studio | Premium | Todas as regiões do Power Automate , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Aplicativos Lógicos | Standard | Todas as regiões dos Aplicativos Lógicos , exceto as seguintes: – Regiões do Azure Governamental - Regiões do Azure China - Departamento de Defesa dos EUA (DoD) |
| Power Apps | Premium | Todas as regiões do Power Apps , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Power Automate | Premium | Todas as regiões do Power Automate , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Contato | |
|---|---|
| Nome | Troy Taylor |
| URL | https://www.hitachisolutions.com |
| ttaylor@hitachisolutions.com |
| Metadados do conector | |
|---|---|
| Publicador | Troy Taylor |
| Site | https://www.scrapingbee.com/ |
| Política de privacidade | https://www.scrapingbee.com/privacy-policy/ |
| Categorias | Site |
Criando uma conexão
O conector dá suporte aos seguintes tipos de autenticação:
| Default | Parâmetros para criar conexão. | Todas as regiões | Não compartilhável |
Padrão
Aplicável: todas as regiões
Parâmetros para criar conexão.
Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Chave de API | secureString | A chave de API para esta api | Verdade |
Limitações
| Nome | Chamadas | Período de renovação |
|---|---|---|
| Chamadas à API por conexão | 100 | 60 segundos |
Ações
| Executar pesquisa no Google |
Recupera um recorte de páginas de resultados da Pesquisa do Google |
| Obter uso |
Recupere informações sobre o consumo de crédito e o uso de simultaneidade. |
| URL de sucata |
Busca a URL solicitada para descartar e renderizará JavaScript se solicitado. |
Executar pesquisa no Google
Recupera um recorte de páginas de resultados da Pesquisa do Google
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
Pesquisa
|
search | True | string |
O texto que você colocaria na barra de pesquisa do Google. |
|
Código do país
|
country_code | string |
O país do qual você gostaria que o pedido viesse. |
|
|
Results
|
nb_results | integer |
O número de resultados a serem retornados. |
|
|
Página
|
page | integer |
O número da página do qual extrair os resultados. |
|
|
Linguagem
|
language | string |
O idioma no qual retornar os resultados. |
|
|
Params extras
|
extra_params | string |
Quaisquer parâmetros de URL adicionais a serem enviadas. |
Retornos
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
URL
|
meta_data.url | string |
O endereço da URL. |
|
Results
|
meta_data.number_of_results | integer |
O número de resultados. |
|
Localização
|
meta_data.location | string |
O local. |
|
Resultados Orgânicos
|
meta_data.number_of_organic_results | integer |
O número de resultados orgânicos. |
|
Anúncios
|
meta_data.number_of_ads | integer |
O número de anúncios. |
|
Página
|
meta_data.number_of_page | integer |
O número da página. |
|
Nenhuma mensagem de resultados
|
meta_data.no_results_message | string |
A mensagem sem resultados. |
|
Resultados Orgânicos
|
organic_results | array of object | |
|
URL
|
organic_results.url | string |
O endereço da URL. |
|
URL exibida
|
organic_results.displayed_url | string |
O endereço de URL exibido. |
|
Description
|
organic_results.description | string |
A descrição. |
|
Informações extras
|
organic_results.extra_info | string |
As informações extras. |
|
Cargo
|
organic_results.position | integer |
A posição. |
|
Title
|
organic_results.title | string |
O título. |
|
Resultados Locais
|
local_results | array of string |
Os resultados locais. |
|
Principais anúncios
|
top_ads | string |
Os principais anúncios. |
|
Anúncios inferiores
|
bottom_ads | string |
Os anúncios inferiores. |
|
Consultas relacionadas
|
related_queries | array of object | |
|
Texto
|
related_queries.text | string |
O texto. |
|
Cargo
|
related_queries.position | integer |
A posição. |
|
Perguntas
|
questions | array of string |
As perguntas. |
Obter uso
Recupere informações sobre o consumo de crédito e o uso de simultaneidade.
Retornos
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
Crédito máximo da API
|
max_api_credit | integer |
O crédito máximo da API. |
|
Crédito da API usado
|
used_api_credit | integer |
O crédito da API usado. |
|
Simultaneidade máxima
|
max_concurrency | integer |
A simultaneidade máxima. |
|
Simultaneidade atual
|
current_concurrency | integer |
A simultaneidade atual. |
|
Data da assinatura de renovação
|
renewal_subscription_date | string |
A data da assinatura de renovação. |
URL de sucata
Busca a URL solicitada para descartar e renderizará JavaScript se solicitado.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
URL
|
url | True | string |
A URL que você deseja raspar. |
|
Renderizar JS
|
render_js | True | boolean |
Renderize o site em um navegador sem cabeça. |
|
Cenário JS
|
js_scenario | string |
Execute JavaScript antes da renderização. |
|
|
Wait
|
wait | integer |
Hora de aguardar antes da renderização. |
|
|
Esperar
|
wait_for | string |
Aguarde até que um elemento específico apareça no DOM. |
|
|
Bloquear anúncios
|
block_ads | boolean |
Se os anúncios devem ser bloqueados. |
|
|
Bloquear recursos
|
block_resources | boolean |
Se todas as imagens e CSS devem ser bloqueadas. |
|
|
Largura da janela
|
window_width | integer |
A largura da janela a ser usada. |
|
|
Altura da Janela
|
window_height | integer |
A altura da janela a ser usada. |
|
|
Premium Proxy
|
premium_proxy | boolean |
Se deve usar um proxy para descartar o site. |
|
|
Código do país
|
country_code | string |
O país proxy a ser usado para descartar o site. |
|
|
Proxy furtivo
|
stealth_proxy | boolean |
Se deve usar um proxy furtivo para descartar o site. |
|
|
Proxy próprio
|
own_proxy | string |
Seu próprio proxy a ser usado. |
|
|
Extrair regras
|
extract_rules | string |
Regras de extração para analisar o HTML antes de responder. |
|
|
Screenshot
|
screenshot | boolean |
Tire uma captura de tela do site solicitado. |
|
|
Seletor de captura de tela
|
screenshot_selector | string |
Tire uma captura de tela de um seletor CSS específico. |
|
|
Captura de tela página inteira
|
screenshot_full_page | boolean |
Tire uma captura de tela de todo o site. |
|
|
Origem da Página de Retorno
|
return_page_source | boolean |
Retorne a origem da página também. |
|
|
ID da Sessão
|
session_id | integer |
Todas as solicitações de API que usam o mesmo session_id serão roteada pelo mesmo endereço IP por uma duração de 5 minutos. |
|
|
Intervalo
|
timeout | integer |
O número máximo de tempo limite ms, entre 1000 e 140000 (padrão). |
|
|
Biscoitos
|
cookies | string |
Cookie personalizado para passar para o site. |
|
|
Device
|
device | string |
O tipo de dispositivo enviado ao servidor. |
|
|
Google personalizado
|
custom_google | boolean |
Defina como true se estiver raspando a página da Web no Google ou em um subdomínio do Google. |
Retornos
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
Corpo
|
body | string |
O corpo. |
|
Biscoitos
|
cookies | array of object | |
|
Nome
|
cookies.name | string |
O nome. |
|
Value
|
cookies.value | string |
O valor. |
|
Domínio
|
cookies.domain | string |
O domínio. |
|
Caminho
|
cookies.path | string |
O caminho. |
|
Expira
|
cookies.expires | float |
Quando expirar. |
|
Tamanho
|
cookies.size | integer |
O tamanho. |
|
Somente HTTP
|
cookies.httpOnly | boolean |
Se apenas HTTP. |
|
Secure
|
cookies.secure | boolean |
Se seguro. |
|
Session
|
cookies.session | boolean |
Se a sessão. |
|
Mesma parte
|
cookies.sameParty | boolean |
Se a mesma parte. |
|
Esquema de origem
|
cookies.sourceScheme | string |
O esquema de origem. |
|
Porta de origem
|
cookies.sourcePort | integer |
A porta de origem. |
|
Resultados Avaliados
|
evaluate_results | array of string |
Os resultados avaliados. |
|
Idade
|
headers.age | string |
A idade. |
|
Controle de cache
|
headers.cache-control | string |
O controle de cache. |
|
Codificação de conteúdo
|
headers.content-encoding | string |
A codificação de conteúdo. |
|
Política de Segurança de Conteúdo
|
headers.content-security-policy | string |
A política de segurança de conteúdo. |
|
Tipo de conteúdo
|
headers.content-type | string |
O tipo de conteúdo. |
|
Date
|
headers.date | string |
A data. |
|
Etag
|
headers.etag | string |
A eTag. |
|
Política de referenciador
|
headers.referrer-policy | string |
A política de referenciador. |
|
Servidor
|
headers.server | string |
O servidor. |
|
Segurança de transporte estrita
|
headers.strict-transport-security | string |
A segurança de transporte estrita. |
|
Opções de tipo de conteúdo X
|
headers.x-content-type-options | string |
As opções de tipo de conteúdo x. |
|
Opções de quadro X
|
headers.x-frame-options | string |
As opções de quadro x. |
|
Caminho X correspondente
|
headers.x-matched-path | string |
O caminho x correspondente. |
|
X alimentado por
|
headers.x-powered-by | string |
O x alimentado por. |
|
X Vercel Cache
|
headers.x-vercel-cache | string |
O cache x Vercel. |
|
X Vercel ID
|
headers.x-vercel-id | string |
O identificador x Vercel. |
|
Tipo
|
type | string |
O tipo. |
|
IFrames
|
iframes | array of string |
Os iFrames. |
|
XHR
|
xhr | array of object | |
|
URL
|
xhr.url | string |
O endereço da URL. |
|
Código de status
|
xhr.status_code | integer |
O código de status. |
|
Método
|
xhr.method | string |
O método. |
|
Idade
|
xhr.headers.age | string |
A idade. |
|
Controle de cache
|
xhr.headers.cache-control | string |
O controle de cache. |
|
Comprimento do conteúdo
|
xhr.headers.content-length | string |
O comprimento do conteúdo. |
|
Política de Segurança de Conteúdo
|
xhr.headers.content-security-policy | string |
A política de segurança de conteúdo. |
|
Tipo de conteúdo
|
xhr.headers.content-type | string |
O tipo de conteúdo. |
|
Date
|
xhr.headers.date | string |
A data. |
|
Etag
|
xhr.headers.etag | string |
A eTag. |
|
Política de referenciador
|
xhr.headers.referrer-policy | string |
A política de referenciador. |
|
Servidor
|
xhr.headers.server | string |
O servidor. |
|
Segurança de transporte estrita
|
xhr.headers.strict-transport-security | string |
A segurança de transporte estrita. |
|
Opções de tipo de conteúdo X
|
xhr.headers.x-content-type-options | string |
As opções de tipo de conteúdo X. |
|
Opções de quadro X
|
xhr.headers.x-frame-options | string |
As opções de quadro X. |
|
Caminho X correspondente
|
xhr.headers.x-matched-path | string |
O caminho de correspondência X. |
|
X Vercel Cache
|
xhr.headers.x-vercel-cache | string |
O cache X Vercel. |
|
X Vercel ID
|
xhr.headers.x-vercel-id | string |
O identificador X Vercel. |
|
Origem da Permissão de Controle de Acesso
|
xhr.headers.access-control-allow-origin | string |
O controle de acesso permite a origem. |
|
Cabeçalhos de exposição do controle de acesso
|
xhr.headers.access-control-expose-headers | string |
O controle de acesso expõe cabeçalhos. |
|
Alt SVC
|
xhr.headers.alt-svc | string |
O SVC alt. |
|
Vary
|
xhr.headers.vary | string |
A variação. |
|
Através de
|
xhr.headers.via | string |
O via. |
|
Hora do serviço upstream do X Envoy
|
xhr.headers.x-envoy-upstream-service-time | string |
O tempo de serviço upstream do enviado X. |
|
ID de solicitação do X Amazon
|
xhr.headers.x-amzn-requestid | string |
O identificador de solicitação X Amazon. |
|
X Amazon Trace ID
|
xhr.headers.x-amzn-trace-id | string |
O identificador de rastreamento X Amazon. |
|
Corpo
|
xhr.body | string |
O corpo. |
|
Custo
|
cost | integer |
O custo. |
|
Código de status inicial
|
initial-status-code | integer |
O código de status inicial. |
|
URL resolvida
|
resolved-url | string |
O endereço de URL resolvido. |
|
Microdata
|
metadata.microdata | array of string |
A microdata. |
|
JSON LD
|
metadata.json-ld | array of object | |
|
Contexto
|
metadata.json-ld.@context | string |
O contexto. |
|
Tipo
|
metadata.json-ld.@type | string |
O tipo. |
|
Nome
|
metadata.json-ld.name | string |
O nome. |
|
URL
|
metadata.json-ld.url | string |
O endereço da URL. |
|
Description
|
metadata.json-ld.description | string |
A descrição. |
|
Tipo
|
metadata.json-ld.mainEntityOfPage.@type | string |
O tipo. |
|
URL
|
metadata.json-ld.mainEntityOfPage.url | string |
O endereço da URL. |
|
Tipo
|
metadata.json-ld.image.@type | string |
O tipo. |
|
URL
|
metadata.json-ld.image.url | string |
O endereço da URL. |
|
Tipo
|
metadata.json-ld.publisher.@type | string |
O tipo. |
|
Nome
|
metadata.json-ld.publisher.name | string |
O nome. |
|
URL
|
metadata.json-ld.publisher.url | string |
O endereço da URL. |
|
O mesmo que
|
metadata.json-ld.sameAs | string |
O mesmo que. |
|
Abrir o Graph
|
metadata.opengraph | array of object | |
|
Abrir Título do Graph
|
metadata.opengraph.og:title | string |
O título do Open Graph. |
|
Abrir descrição do Grafo
|
metadata.opengraph.og:description | string |
A descrição do Open Graph. |
|
Abrir o Nome do Site do Graph
|
metadata.opengraph.og:site_name | string |
O nome do site do Open Graph. |
|
Abrir URL do Graph
|
metadata.opengraph.og:url | string |
O endereço de URL do Open Graph. |
|
Abrir Imagem do Graph
|
metadata.opengraph.og:image | string |
A imagem do Open Graph. |
|
Tipo
|
metadata.opengraph.@type | string |
O tipo. |
|
OG
|
metadata.opengraph.@context.og | string |
O Open Graph. |
|
Dublincore
|
metadata.dublincore | array of object | |
|
Elements
|
metadata.dublincore.elements | array of object | |
|
Nome
|
metadata.dublincore.elements.name | string |
O nome. |
|
Content
|
metadata.dublincore.elements.content | string |
O conteúdo. |
|
URI
|
metadata.dublincore.elements.URI | string |
O URI. |
|
Termos
|
metadata.dublincore.terms | array of string |
Os termos. |