feat: add integration for infos

2026-07-01 21:00:48 +08:00 · 2024-07-01 21:19:16 +02:00 · 2024-07-01 21:19:16 +02:00 · 3bf5f570a8
commit 3bf5f570a8
parent e3a19c2059
16 changed files with 96 additions and 6 deletions
--- a/examples/extras/custom_prompt.py
+++ b/examples/extras/custom_prompt.py
@ -0,0 +1,50 @@
 """ 
 Basic example of scraping pipeline using SmartScraper
 """
 import os
 import json
 from dotenv import load_dotenv
 from scrapegraphai.graphs import SmartScraperGraph
 from scrapegraphai.utils import prettify_exec_info
 load_dotenv()
 # ************************************************
 # Define the configuration for the graph
 # ************************************************
 openai_key = os.getenv("OPENAI_APIKEY")
 prompt = "Some more info"
 graph_config = {
    "llm": {
        "api_key": openai_key,
        "model": "gpt-3.5-turbo",
    },
    "additional_info": prompt,
    "verbose": True,
    "headless": False,
 }
 # ************************************************
 # Create the SmartScraperGraph instance and run it
 # ************************************************
 smart_scraper_graph = SmartScraperGraph(
    prompt="List me all the projects with their description",
    # also accepts a string with the already downloaded HTML code
    source="https://perinim.github.io/projects/",
    config=graph_config,
 )
 result = smart_scraper_graph.run()
 print(json.dumps(result, indent=4))
 # ************************************************
 # Get graph execution info
 # ************************************************
 graph_exec_info = smart_scraper_graph.get_execution_info()
 print(prettify_exec_info(graph_exec_info))
--- a/scrapegraphai/graphs/csv_scraper_graph.py
+++ b/scrapegraphai/graphs/csv_scraper_graph.py
@ -50,6 +50,7 @@ class CSVScraperGraph(AbstractGraph):
            output=["answer"],
            node_config={
                "llm_model": self.llm_model,
                "additional_info": self.config.get("additional_info"),
                "schema": self.schema,
            }
        )
--- a/scrapegraphai/graphs/deep_scraper_graph.py
+++ b/scrapegraphai/graphs/deep_scraper_graph.py
@ -95,6 +95,7 @@ class DeepScraperGraph(AbstractGraph):
            output=["answer"],
            node_config={
                "llm_model": self.llm_model,
                "additional_info": self.config.get("additional_info"),
                "schema": self.schema
            }
        )
--- a/scrapegraphai/graphs/json_scraper_graph.py
+++ b/scrapegraphai/graphs/json_scraper_graph.py
@ -75,6 +75,7 @@ class JSONScraperGraph(AbstractGraph):
            output=["answer"],
            node_config={
                "llm_model": self.llm_model,
                "additional_info": self.config.get("additional_info"),
                "schema": self.schema
            }
        )
--- a/scrapegraphai/graphs/markdown_scraper_graph.py
+++ b/scrapegraphai/graphs/markdown_scraper_graph.py
@ -76,6 +76,7 @@ class MDScraperGraph(AbstractGraph):
            output=["answer"],
            node_config={
                "llm_model": self.llm_model,
                "additional_info": self.config.get("additional_info"),
                "schema": self.schema,
            }
        )
--- a/scrapegraphai/graphs/omni_scraper_graph.py
+++ b/scrapegraphai/graphs/omni_scraper_graph.py
@ -18,7 +18,6 @@ from ..nodes import (
 from ..models import OpenAIImageToText
 class OmniScraperGraph(AbstractGraph):
    """
    OmniScraper is a scraping pipeline that automates the process of 
@ -60,7 +59,6 @@ class OmniScraperGraph(AbstractGraph):
        super().__init__(prompt, config, source, schema)
        self.input_key = "url" if source.startswith("http") else "local_dir"
    def _create_graph(self) -> BaseGraph:
        """
@ -104,6 +102,7 @@ class OmniScraperGraph(AbstractGraph):
            output=["answer"],
            node_config={
                "llm_model": self.llm_model,
                "additional_info": self.config.get("additional_info"),
                "schema": self.schema
            }
        )
--- a/scrapegraphai/graphs/pdf_scraper_graph.py
+++ b/scrapegraphai/graphs/pdf_scraper_graph.py
@ -89,6 +89,7 @@ class PDFScraperGraph(AbstractGraph):
            output=["answer"],
            node_config={
                "llm_model": self.llm_model,
                "additional_info": self.config.get("additional_info"),
                "schema": self.schema
            }
        )
--- a/scrapegraphai/graphs/script_creator_graph.py
+++ b/scrapegraphai/graphs/script_creator_graph.py
@ -84,6 +84,7 @@ class ScriptCreatorGraph(AbstractGraph):
            output=["answer"],
            node_config={
                "llm_model": self.llm_model,
                "additional_info": self.config.get("additional_info"),
                "schema": self.schema,
            },
            library=self.library,
--- a/scrapegraphai/graphs/smart_scraper_graph.py
+++ b/scrapegraphai/graphs/smart_scraper_graph.py
@ -91,6 +91,7 @@ class SmartScraperGraph(AbstractGraph):
            output=["answer"],
            node_config={
                "llm_model": self.llm_model,
                "additional_info": self.config.get("additional_info"),
                "schema": self.schema,
            }
        )
--- a/scrapegraphai/graphs/speech_graph.py
+++ b/scrapegraphai/graphs/speech_graph.py
@ -84,6 +84,7 @@ class SpeechGraph(AbstractGraph):
            output=["answer"],
            node_config={
                "llm_model": self.llm_model,
                "additional_info": self.config.get("additional_info"),
                "schema": self.schema
            }
        )
--- a/scrapegraphai/graphs/xml_scraper_graph.py
+++ b/scrapegraphai/graphs/xml_scraper_graph.py
@ -77,6 +77,7 @@ class XMLScraperGraph(AbstractGraph):
            output=["answer"],
            node_config={
                "llm_model": self.llm_model,
                "additional_info": self.config.get("additional_info"),
                "schema": self.schema
            }
        )
--- a/scrapegraphai/nodes/generate_answer_csv_node.py
+++ b/scrapegraphai/nodes/generate_answer_csv_node.py
@ -58,11 +58,14 @@ class GenerateAnswerCSVNode(BaseNode):
            node_name (str): name of the node
        """
        super().__init__(node_name, "node", input, output, 2, node_config)
-        
+
        self.llm_model = node_config["llm_model"]
        self.verbose = (
            False if node_config is None else node_config.get("verbose", False)
        )
        self.additional_info = node_config.get("additional_info")
    def execute(self, state):
        """
@ -99,9 +102,14 @@ class GenerateAnswerCSVNode(BaseNode):
            output_parser = JsonOutputParser(pydantic_object=self.node_config["schema"])
        else:
            output_parser = JsonOutputParser()
        if self.additional_info is not None:
            template_no_chunks_csv += self.additional_info
            template_chunks_csv += self.additional_info
            template_merge_csv += self.additional_info
        format_instructions = output_parser.get_format_instructions()
-   
+
        chains_dict = {}
        # Use tqdm to add progress bar
--- a/scrapegraphai/nodes/generate_answer_node.py
+++ b/scrapegraphai/nodes/generate_answer_node.py
@ -54,6 +54,7 @@ class GenerateAnswerNode(BaseNode):
            False if node_config is None else node_config.get("script_creator", False)
        )
        self.additional_info = node_config.get("additional_info")
    def execute(self, state: dict) -> dict:
        """
@ -98,6 +99,11 @@ class GenerateAnswerNode(BaseNode):
            template_chunks_prompt = template_chunks
            template_merge_prompt = template_merge
        if self.additional_info is not None:
            template_no_chunks_prompt += self.additional_info
            template_chunks_prompt += self.additional_info
            template_merge_prompt += self.additional_info
        chains_dict = {}
        # Use tqdm to add progress bar
@ -118,7 +124,6 @@ class GenerateAnswerNode(BaseNode):
                    partial_variables={"context": chunk.page_content,
                                        "chunk_id": i + 1,
                                        "format_instructions": format_instructions})
            # Dynamically name the chains based on their index
            chain_name = f"chunk{i+1}"
            chains_dict[chain_name] = prompt | self.llm_model | output_parser
--- a/scrapegraphai/nodes/generate_answer_omni_node.py
+++ b/scrapegraphai/nodes/generate_answer_omni_node.py
@ -46,11 +46,13 @@ class GenerateAnswerOmniNode(BaseNode):
        self.llm_model = node_config["llm_model"]
        if isinstance(node_config["llm_model"], Ollama):
            self.llm_model.format="json"
-            
+
        self.verbose = (
            False if node_config is None else node_config.get("verbose", False)
        )
        self.additional_info = node_config.get("additional_info")
    def execute(self, state: dict) -> dict:
        """
        Generates an answer by constructing a prompt from the user's input and the scraped
@ -86,6 +88,11 @@ class GenerateAnswerOmniNode(BaseNode):
        else:
            output_parser = JsonOutputParser()
        if self.additional_info is not None:
            template_no_chunk_omni += self.additional_info
            template_chunks_omni += self.additional_info
            template_merge_omni += self.additional_info
        format_instructions = output_parser.get_format_instructions()
--- a/scrapegraphai/nodes/generate_answer_pdf_node.py
+++ b/scrapegraphai/nodes/generate_answer_pdf_node.py
@ -61,10 +61,13 @@ class GenerateAnswerPDFNode(BaseNode):
        self.llm_model = node_config["llm_model"]
        if isinstance(node_config["llm_model"], Ollama):
            self.llm_model.format="json"
        self.verbose = (
            False if node_config is None else node_config.get("verbose", False)
        )
        self.additional_info = node_config.get("additional_info")
    def execute(self, state):
        """
        Generates an answer by constructing a prompt from the user's input and the scraped
@ -100,6 +103,11 @@ class GenerateAnswerPDFNode(BaseNode):
            output_parser = JsonOutputParser(pydantic_object=self.node_config["schema"])
        else:
            output_parser = JsonOutputParser()
        if self.additional_info is not None:
            template_no_chunks_pdf += self.additional_info
            template_chunks_pdf += self.additional_info
            template_merge_pdf += self.additional_info
        format_instructions = output_parser.get_format_instructions()
--- a/scrapegraphai/nodes/generate_scraper_node.py
+++ b/scrapegraphai/nodes/generate_scraper_node.py
@ -54,6 +54,8 @@ class GenerateScraperNode(BaseNode):
            False if node_config is None else node_config.get("verbose", False)
        )
        self.additional_info = node_config.get("additional_info")
    def execute(self, state: dict) -> dict:
        """
        Generates a python script for scraping a website using the specified library.
@ -106,6 +108,8 @@ class GenerateScraperNode(BaseNode):
        USER QUESTION: {question}
        SCHEMA INSTRUCTIONS: {schema_instructions}
        """
        if self.additional_info is not None:
            template_no_chunks += self.additional_info
        if len(doc) > 1:
            raise NotImplementedError(