fix: pdf scraper bug

2026-06-25 21:11:11 +08:00 · 2024-05-22 11:54:55 +02:00 · 2024-05-22 11:54:55 +02:00 · f2dffe534f
commit f2dffe534f
parent 2e1c79d960
1 changed files with 3 additions and 2 deletions
--- a/scrapegraphai/nodes/fetch_node.py
+++ b/scrapegraphai/nodes/fetch_node.py
@ -86,13 +86,14 @@ class FetchNode(BaseNode):
            input_keys[0] == "json_dir"
            or input_keys[0] == "xml_dir"
            or input_keys[0] == "csv_dir"
+            or input_keys[0] == "pdf_dir"
        ):
            compressed_document = [
                Document(page_content=source, metadata={"source": "local_dir"})
            ]
            state.update({self.output[0]: compressed_document})
            return state
-        
+   
        # handling for pdf
        elif input_keys[0] == "pdf":
            loader = PyPDFLoader(source)
@ -108,7 +109,7 @@ class FetchNode(BaseNode):
            ]
            state.update({self.output[0]: compressed_document})
            return state
-        
+    
        elif input_keys[0] == "json":
            f = open(source)
            compressed_document = [