feat: fixed custom_graphs example and robots_node

2026-06-25 21:11:11 +08:00 · 2024-05-05 22:02:24 +02:00 · 2024-05-05 22:02:24 +02:00 · 84fcb44aaa
commit 84fcb44aaa
parent 8c5397f67a
5 changed files with 139 additions and 15 deletions
--- a/examples/openai/custom_graph_openai.py
+++ b/examples/openai/custom_graph_openai.py
@ -4,6 +4,8 @@ Example of custom graph using existing nodes
 import os
 from dotenv import load_dotenv
 from langchain_openai import OpenAIEmbeddings
 from scrapegraphai.models import OpenAI
 from scrapegraphai.graphs import BaseGraph
 from scrapegraphai.nodes import FetchNode, ParseNode, RAGNode, GenerateAnswerNode, RobotsNode
@ -20,7 +22,7 @@ graph_config = {
        "api_key": openai_key,
        "model": "gpt-3.5-turbo",
        "temperature": 0,
-        "streaming": True
+        "streaming": False
    },
 }
@ -29,33 +31,50 @@ graph_config = {
 # ************************************************
 llm_model = OpenAI(graph_config["llm"])
 embedder = OpenAIEmbeddings(api_key=llm_model.openai_api_key)
 # define the nodes for the graph
 robot_node = RobotsNode(
    input="url",
    output=["is_scrapable"],
-    node_config={"llm_model": llm_model}
+    node_config={
        "llm_model": llm_model,
        "verbose": True,
        }
 )
 fetch_node = FetchNode(
    input="url | local_dir",
    output=["doc"],
-    node_config={"headless": True, "verbose": True}
+    node_config={
        "verbose": True,
        "headless": True,
    }
 )
 parse_node = ParseNode(
    input="doc",
    output=["parsed_doc"],
-    node_config={"chunk_size": 4096}
+    node_config={
        "chunk_size": 4096,
        "verbose": True,
    }
 )
 rag_node = RAGNode(
    input="user_prompt & (parsed_doc | doc)",
    output=["relevant_chunks"],
-    node_config={"llm_model": llm_model},
+    node_config={
        "llm_model": llm_model,
        "embedder_model": embedder,
        "verbose": True,
    }
 )
 generate_answer_node = GenerateAnswerNode(
    input="user_prompt & (relevant_chunks | parsed_doc | doc)",
    output=["answer"],
-    node_config={"llm_model": llm_model},
+    node_config={
        "llm_model": llm_model,
        "verbose": True,
    }
 )
 # ************************************************
--- a/examples/openai/smart_scraper_openai.py
+++ b/examples/openai/smart_scraper_openai.py
@ -21,7 +21,7 @@ graph_config = {
        "api_key": openai_key,
        "model": "gpt-3.5-turbo",
    },
-    "verbose": True,
+    "verbose": False,
 }
 # ************************************************
--- a/scrapegraphai/graphs/abstract_graph.py
+++ b/scrapegraphai/graphs/abstract_graph.py
@ -56,7 +56,7 @@ class AbstractGraph(ABC):
        self.execution_info = None
        # Set common configuration parameters
-        self.verbose = True if config is None else config.get("verbose", False)
+        self.verbose = False if config is None else config.get("verbose", False)
        self.headless = True if config is None else config.get(
            "headless", True)
        common_params = {"headless": self.headless,
--- a/scrapegraphai/nodes/graphs_iterator_node.py
+++ b/scrapegraphai/nodes/graphs_iterator_node.py
@ -0,0 +1,105 @@
 """
 Example of custom graph using existing nodes
 """
 import os
 from dotenv import load_dotenv
 from langchain_openai import OpenAIEmbeddings
 from scrapegraphai.models import OpenAI
 from scrapegraphai.graphs import BaseGraph
 from scrapegraphai.nodes import FetchNode, ParseNode, RAGNode, GenerateAnswerNode, SearchInternetNode
 load_dotenv()
 # ************************************************
 # Define the configuration for the graph
 # ************************************************
 openai_key = os.getenv("OPENAI_APIKEY")
 graph_config = {
    "llm": {
        "api_key": openai_key,
        "model": "gpt-3.5-turbo",
    },
 }
 # ************************************************
 # Define the graph nodes
 # ************************************************
 llm_model = OpenAI(graph_config["llm"])
 embedder = OpenAIEmbeddings(api_key=llm_model.openai_api_key)
 search_internet_node = SearchInternetNode(
    input="user_prompt",
    output=["url"],
    node_config={
        "llm_model": llm_model
    }
 )
 fetch_node = FetchNode(
    input="url | local_dir",
    output=["doc"],
    node_config={
        "verbose": True,
        "headless": True,
    }
 )
 parse_node = ParseNode(
    input="doc",
    output=["parsed_doc"],
    node_config={
        "chunk_size": 4096,
        "verbose": True,
    }
 )
 rag_node = RAGNode(
    input="user_prompt & (parsed_doc | doc)",
    output=["relevant_chunks"],
    node_config={
        "llm_model": llm_model,
        "embedder_model": embedder,
        "verbose": True,
    }
 )
 generate_answer_node = GenerateAnswerNode(
    input="user_prompt & (relevant_chunks | parsed_doc | doc)",
    output=["answer"],
    node_config={
        "llm_model": llm_model,
        "verbose": True,
    }
 )
 # ************************************************
 # Create the graph by defining the connections
 # ************************************************
 graph = BaseGraph(
    nodes=[
        search_internet_node,
        fetch_node,
        parse_node,
        rag_node,
        generate_answer_node,
    ],
    edges=[
        (search_internet_node, fetch_node),
        (fetch_node, parse_node),
        (parse_node, rag_node),
        (rag_node, generate_answer_node)
    ],
    entry_point=search_internet_node
 )
 # ************************************************
 # Execute the graph
 # ************************************************
 result, execution_info = graph.execute({
    "user_prompt": "List me all the typical Chioggia dishes."
 })
 # get the answer from the result
 result = result.get("answer", "No answer found.")
 print(result)
--- a/scrapegraphai/nodes/robots_node.py
+++ b/scrapegraphai/nodes/robots_node.py
@ -2,9 +2,9 @@
 RobotsNode Module
 """
-from typing import List
+from typing import List, Optional
 from urllib.parse import urlparse
-from langchain_community.document_loaders import AsyncHtmlLoader
+from langchain_community.document_loaders import AsyncChromiumLoader
 from langchain.prompts import PromptTemplate
 from langchain.output_parsers import CommaSeparatedListOutputParser
 from .base_node import BaseNode
@ -34,7 +34,7 @@ class RobotsNode(BaseNode):
        node_name (str): The unique identifier name for the node, defaulting to "Robots".
    """
-    def __init__(self, input: str, output: List[str],  node_config: dict, force_scraping=True,
+    def __init__(self, input: str, output: List[str],  node_config: Optional[dict]=None, force_scraping=True,
                 node_name: str = "Robots"):
        super().__init__(node_name, "node", input, output, 1)
@ -93,11 +93,11 @@ class RobotsNode(BaseNode):
        else:
            parsed_url = urlparse(source)
            base_url = f"{parsed_url.scheme}://{parsed_url.netloc}"
-            loader = AsyncHtmlLoader(f"{base_url}/robots.txt")
+            loader = AsyncChromiumLoader(f"{base_url}/robots.txt")
            document = loader.load()
-            if "ollama" in self.llm_model.model:
+            if "ollama" in self.llm_model.model_name:
-                self.llm_model.model = self.llm_model.model.split("/")[-1]
+                self.llm_model.model_name = self.llm_model.model_name.split("/")[-1]
-                model = self.llm_model.model.split("/")[-1]
+                model = self.llm_model.model_name.split("/")[-1]
            else:
                model = self.llm_model.model_name