Scrapegraph-ai/docs/portuguese.md
Marco Vinciguerra 909a0c9873
Some checks failed
CodeQL / Analyze (python) (push) Has been cancelled
Release / Build (push) Has been cancelled
Test Suite / Unit Tests (Python ${{ matrix.python-version }}) (macos-latest, 3.10) (push) Has been cancelled
Test Suite / Unit Tests (Python ${{ matrix.python-version }}) (macos-latest, 3.11) (push) Has been cancelled
Test Suite / Unit Tests (Python ${{ matrix.python-version }}) (macos-latest, 3.12) (push) Has been cancelled
Test Suite / Unit Tests (Python ${{ matrix.python-version }}) (ubuntu-latest, 3.10) (push) Has been cancelled
Test Suite / Unit Tests (Python ${{ matrix.python-version }}) (ubuntu-latest, 3.11) (push) Has been cancelled
Test Suite / Unit Tests (Python ${{ matrix.python-version }}) (ubuntu-latest, 3.12) (push) Has been cancelled
Test Suite / Unit Tests (Python ${{ matrix.python-version }}) (windows-latest, 3.10) (push) Has been cancelled
Test Suite / Unit Tests (Python ${{ matrix.python-version }}) (windows-latest, 3.11) (push) Has been cancelled
Test Suite / Unit Tests (Python ${{ matrix.python-version }}) (windows-latest, 3.12) (push) Has been cancelled
Test Suite / Integration Tests (file-formats) (push) Has been cancelled
Test Suite / Integration Tests (multi-graph) (push) Has been cancelled
Test Suite / Integration Tests (smart-scraper) (push) Has been cancelled
Test Suite / Performance Benchmarks (push) Has been cancelled
Test Suite / Code Quality Checks (push) Has been cancelled
Release / Release (push) Has been cancelled
Test Suite / Test Coverage Report (push) Has been cancelled
Test Suite / Test Summary (push) Has been cancelled
add new readme
2026-01-08 16:11:41 +01:00

13 KiB

🚀 Procurando uma forma ainda mais rápida e simples de fazer scraping em escala (apenas 5 linhas de código)? Confira nossa versão aprimorada em ScrapeGraphAI.com! 🚀


🕷️ ScrapeGraphAI: Você Só Faz Scraping Uma Vez

English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português

PyPI Downloads linting: pylint Pylint CodeQL License: MIT

API Banner

VinciGit00%2FScrapegraph-ai | Trendshift

ScrapeGraphAI é uma biblioteca Python de web scraping que usa LLM e lógica de grafo direto para criar pipelines de scraping para sites e documentos locais (XML, HTML, JSON, Markdown, etc.).

Basta dizer qual informação você quer extrair e a biblioteca fará isso por você!

ScrapeGraphAI Hero

🚀 Integrações

O ScrapeGraphAI oferece integração perfeita com frameworks e ferramentas populares para aprimorar suas capacidades de scraping. Seja você construindo com Python ou Node.js, usando frameworks LLM ou trabalhando com plataformas no-code, temos você coberto com nossas opções abrangentes de integração.

Você pode encontrar mais informações no seguinte link

Integrações:

🚀 Instalação Rápida

A página de referência para Scrapegraph-ai está disponível na página oficial do PyPI: pypi.

pip install scrapegraphai

# IMPORTANTE (para buscar conteúdo de sites)
playwright install

Nota: é recomendado instalar a biblioteca em um ambiente virtual para evitar conflitos com outras bibliotecas 🐱

💻 Uso

Existem múltiplos pipelines de scraping padrão que podem ser usados para extrair informações de um site (ou arquivo local).

O mais comum é o SmartScraperGraph, que extrai informações de uma única página dado um prompt do usuário e uma URL de origem.

from scrapegraphai.graphs import SmartScraperGraph

# Defina a configuração para o pipeline de scraping
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192,
        "format": "json",
    },
    "verbose": True,
    "headless": False,
}

# Crie a instância SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Extraia informações úteis da página web, incluindo uma descrição do que a empresa faz, fundadores e links de redes sociais",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Execute o pipeline
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

Note

Para OpenAI e outros modelos, você só precisa mudar a configuração do llm!

graph_config = {
   "llm": {
       "api_key": "YOUR_OPENAI_API_KEY",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

A saída será um dicionário como o seguinte:

{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Existem outros pipelines que podem ser usados para extrair informações de múltiplas páginas, gerar scripts Python ou até mesmo gerar arquivos de áudio.

Nome do Pipeline Descrição
SmartScraperGraph Scraper de página única que só precisa de um prompt do usuário e uma fonte de entrada.
SearchGraph Scraper de múltiplas páginas que extrai informações dos n principais resultados de pesquisa de um mecanismo de busca.
SpeechGraph Scraper de página única que extrai informações de um site e gera um arquivo de áudio.
ScriptCreatorGraph Scraper de página única que extrai informações de um site e gera um script Python.
SmartScraperMultiGraph Scraper de múltiplas páginas que extrai informações de múltiplas páginas dado um único prompt e uma lista de fontes.
ScriptCreatorMultiGraph Scraper de múltiplas páginas que gera um script Python para extrair informações de múltiplas páginas e fontes.

Para cada um desses grafos existe a versão multi. Isso permite fazer chamadas do LLM em paralelo.

É possível usar diferentes LLMs através de APIs, como OpenAI, Groq, Azure e Gemini, ou modelos locais usando Ollama.

Lembre-se de ter o Ollama instalado e baixar os modelos usando o comando ollama pull, se você quiser usar modelos locais.

📖 Documentação

Open In Colab

A documentação do ScrapeGraphAI pode ser encontrada aqui. Confira também o Docusaurus aqui.

🤝 Contribuindo

Sinta-se à vontade para contribuir e junte-se ao nosso servidor Discord para discutir melhorias e nos dar sugestões!

Por favor, veja as diretrizes de contribuição.

My Skills My Skills My Skills

🔗 ScrapeGraph API & SDKs

Se você está procurando uma solução rápida para integrar o ScrapeGraph em seu sistema, confira nossa poderosa API aqui!

API Banner

Oferecemos SDKs em Python e Node.js, facilitando a integração em seus projetos. Confira abaixo:

SDK Linguagem Link do GitHub
Python SDK Python scrapegraph-py
Node.js SDK Node.js scrapegraph-js

A Documentação Oficial da API pode ser encontrada aqui.

🔥 Benchmark

De acordo com o benchmark do Firecrawl Firecrawl benchmark, o ScrapeGraph é o melhor fetcher do mercado!

here

📈 Telemetria

Coletamos métricas de uso anônimas para melhorar a qualidade e a experiência do usuário do nosso pacote. Os dados nos ajudam a priorizar melhorias e garantir compatibilidade. Se você deseja optar por não participar, defina a variável de ambiente SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Para mais informações, consulte a documentação aqui.

❤️ Contribuidores

Contributors

🎓 Citações

Se você usou nossa biblioteca para fins de pesquisa, por favor, cite-nos com a seguinte referência:

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {Uma biblioteca Python para scraping aproveitando grandes modelos de linguagem}
  }

Autores

Informações de Contato
Marco Vinciguerra Linkedin Badge
Lorenzo Padoan Linkedin Badge

📜 Licença

O ScrapeGraphAI está licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais informações.

Agradecimentos

  • Gostaríamos de agradecer a todos os contribuidores do projeto e à comunidade de código aberto pelo seu apoio.
  • O ScrapeGraphAI destina-se apenas a fins de exploração de dados e pesquisa. Não nos responsabilizamos por qualquer uso indevido da biblioteca.

Made with ❤️ by ScrapeGraph AI

Scarf tracking