13 KiB
🚀 더 빠르고 간단한 대규모 스크래핑 방법(단 5줄의 코드)을 찾고 계신가요? ScrapeGraphAI.com의 향상된 버전을 확인해보세요! 🚀
🕷️ ScrapeGraphAI: 한 방에 끝내는 웹스크래핑
English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português
ScrapeGraphAI는 웹 사이트와 로컬 문서(XML, HTML, JSON, Markdown 등)에 대한 스크래핑 파이프라인을 만들기 위해 LLM 및 직접 그래프 로직을 사용하는 파이썬 웹스크래핑 라이브러리입니다.
추출하려는 정보를 말하기만 하면 라이브러리가 알아서 처리해 줍니다!
🚀 통합
ScrapeGraphAI는 인기 있는 프레임워크 및 도구와의 원활한 통합을 제공하여 스크래핑 능력을 향상시킵니다. 파이썬이든 Node.js로 개발하든, LLM 프레임워크를 사용하든, 노코드 플랫폼이든 저희의 포괄적인 통합 옵션을 제공합니다.
더 많은 정보는 다음 링크에서 확인할 수 있습니다
통합:
- API: 문서
- SDKs: Python, Node
- LLM 프레임워크: Langchain, Llama Index, Crew.ai, Agno, CamelAI
- 로우코드 프레임워크: Pipedream, Bubble, Zapier, n8n, Dify, Toolhouse
- MCP 서버: 링크
🚀 빠른 설치
Scrapegraph-ai에 대한 참조 페이지는 PyPI의 공식 페이지에서 확인할 수 있습니다: pypi.
pip install scrapegraphai
# 중요 (웹사이트 콘텐츠 가져오기용)
playwright install
참고: 다른 라이브러리와의 충돌을 피하기 위해 라이브러리를 가상 환경에 설치하는 것이 좋습니다 🐱
💻 사용법
웹사이트(또는 로컬 파일)에서 정보를 추출하기 위해 사용할 수 있는 여러 표준 스크래핑 파이프라인이 있습니다.
가장 일반적인 것은 SmartScraperGraph로, 사용자 프롬프트와 소스 URL이 주어진 단일 페이지에서 정보를 추출합니다.
from scrapegraphai.graphs import SmartScraperGraph
# 스크래핑 파이프라인에 대한 구성 정의
graph_config = {
"llm": {
"model": "ollama/llama3.2",
"model_tokens": 8192,
"format": "json",
},
"verbose": True,
"headless": False,
}
# SmartScraperGraph 인스턴스 생성
smart_scraper_graph = SmartScraperGraph(
prompt="웹페이지에서 유용한 정보를 추출하세요. 회사가 하는 일에 대한 설명, 창립자 및 소셜 미디어 링크를 포함하세요",
source="https://scrapegraphai.com/",
config=graph_config
)
# 파이프라인 실행
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))
Note
OpenAI나 다른 모델들은 LLM 설정만 바꾸면 됩니다!
graph_config = { "llm": { "api_key": "YOUR_OPENAI_API_KEY", "model": "openai/gpt-4o-mini", }, "verbose": True, "headless": False, }
출력은 다음과 같은 dictionary 형태가 될 것입니다:
{
"description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
"founders": [
{
"name": "",
"role": "Founder & Technical Lead",
"linkedin": "https://www.linkedin.com/in/perinim/"
},
{
"name": "Marco Vinciguerra",
"role": "Founder & Software Engineer",
"linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
},
{
"name": "Lorenzo Padoan",
"role": "Founder & Product Engineer",
"linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links": {
"linkedin": "https://www.linkedin.com/company/101881123",
"twitter": "https://x.com/scrapegraphai",
"github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
}
}
여러 페이지에서 정보를 추출하거나, Python 스크립트를 생성하거나, 심지어 오디오 파일을 생성하는 데 사용할 수 있는 다른 파이프라인도 있습니다.
| 파이프라인 이름 | 설명 |
|---|---|
| SmartScraperGraph | 사용자 프롬프트와 입력 소스만 있으면 되는 단일 페이지 스크래퍼입니다. |
| SearchGraph | 검색 엔진의 상위 n개 검색 결과에서 정보를 추출하는 다중 페이지 스크래퍼입니다. |
| SpeechGraph | 웹사이트에서 정보를 추출하고 오디오 파일을 생성하는 단일 페이지 스크래퍼입니다. |
| ScriptCreatorGraph | 웹사이트에서 정보를 추출하고 파이썬 스크립트를 생성하는 단일 페이지 스크래퍼입니다. |
| SmartScraperMultiGraph | 단일 프롬프트와 출처 목록이 주어지면 여러 페이지에서 정보를 추출하는 다중 페이지 스크래퍼입니다. |
| ScriptCreatorMultiGraph | 여러 페이지와 소스에서 정보를 추출하기 위한 파이썬 스크립트를 생성하는 다중 페이지 스크래퍼입니다. |
각 그래프에는 다중 버전이 있습니다. 이를 통해 LLM을 병렬로 호출할 수 있습니다.
OpenAI, Groq, Azure, Gemini와 같은 API를 통해 다양한 LLM을 사용할 수 있으며, Ollama를 이용한 로컬 모델도 가능합니다.
로컬 모델을 사용하려면 Ollama를 설치하고 ollama pull 명령을 사용하여 모델을 다운로드해야 합니다.
📖 문서
ScrapeGraphAI 관련 문서는 여기에서 확인하실 수 있습니다. Docusaurus도 여기에서 확인해 보세요.
🤝 기여
자유롭게 기여하고 Discord 서버에 참여하여 개선 사항을 논의하고 제안해 주세요!
기여 가이드라인을 참고하세요.
🔗 ScrapeGraph API & SDKs
시스템에 ScrapeGraph를 통합하기 위한 빠른 솔루션을 찾고 있다면, 여기!에서 강력한 API를 확인해 보세요.
Python과 Node.js SDK를 제공하여 프로젝트에 쉽게 통합할 수 있습니다. 아래에서 확인해 보세요.
| SDK | 언어 | GitHub 링크 |
|---|---|---|
| Python SDK | Python | scrapegraph-py |
| Node.js SDK | Node.js | scrapegraph-js |
공식 API 문서는 여기에서 확인할 수 있습니다.
🔥 벤치마크
Firecrawl 벤치마크 Firecrawl benchmark에 따르면, ScrapeGraph는 시장에서 최고의 페처입니다!
📈 텔레메트리
저희는 패키지의 품질과 사용자 경험을 향상시키기 위해 익명의 사용 지표를 수집합니다. 이 데이터는 개선 사항의 우선순위를 정하고 호환성을 보장하는 데 도움이 됩니다. 옵트아웃하려면 환경 변수 SCRAPEGRAPHAI_TELEMETRY_ENABLED=false를 설정하세요. 자세한 내용은 여기에서 설명서를 참조하세요.
❤️ 기여자들
🎓 인용
우리의 라이브러리를 연구 목적으로 사용한 경우 다음과 같이 인용해 주세요:
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {대규모 언어 모델을 활용한 스크래핑용 Python 라이브러리}
}
저자들
| 연락처 | |
|---|---|
| Marco Vinciguerra | |
| Lorenzo Padoan |
📜 라이선스
ScrapeGraphAI는 MIT License로 배포되었습니다. 자세한 내용은 LICENSE 파일을 참조하세요.
감사의 말
- 프로젝트에 기여한 모든 분들과 오픈 소스 커뮤니티에 감사드립니다.
- ScrapeGraphAI는 데이터 탐색 및 연구 목적으로만 사용되어야 합니다. 우리는 라이브러리의 오용에 대해 책임을 지지 않습니다.
Made with ❤️ by ScrapeGraph AI

