Renaming

erikkastelec · erikkastelec · commit 9958220a74ca · 2020-08-09T18:45:51.000+02:00
diff --git a/PDFScraper/__init__.py b/PDFScraper/__init__.py
diff --git a/PDFScraper/batchProcessing.py b/PDFScraper/batchProcessing.py
@@ -1,7 +1,7 @@
 import os
 
-from pdfExtractor.dataStructure import Document
-from pdfExtractor.dataStructure import Documents
+from PDFScraper.dataStructure import Document
+from PDFScraper.dataStructure import Documents
 
 
 def find_pdfs_in_path(docs: Documents, path: str):
diff --git a/PDFScraper/dataStructure.py b/PDFScraper/dataStructure.py
diff --git a/PDFScraper/main.py b/PDFScraper/main.py
@@ -5,11 +5,11 @@
 import sys
 import tempfile
 
-from pdfExtractor.batchProcessing import find_pdfs_in_path
-from pdfExtractor.dataStructure import Documents
-from pdfExtractor.outputGenerator import generate_html
-from pdfExtractor.pdfParser import extract_info, extract_table_of_contents, get_pdf_object, \
-    extract_page_layouts, get_filename, pdf_to_image, parse_layouts, extract_text_ocr
+from PDFScraper.batchProcessing import find_pdfs_in_path
+from PDFScraper.dataStructure import Documents
+from PDFScraper.outputGenerator import generate_html
+from PDFScraper.pdfParser import extract_info, extract_table_of_contents, get_pdf_object, \
+    extract_page_layouts, get_filename, pdf_to_image, parse_layouts, extract_text_ocr, extract_tables
 
 # Define logger level helper
 switcher = {
@@ -52,7 +52,7 @@ def str2bool(v):
 log_level = switcher.get(args["log_level"])
 searchWord = args["search"]
 tessdata_location = args["tessdata"]
-extract_tables = args["tables"]
+tables_extract = args["tables"]
 
 # Set up logger
 logger = logging.getLogger(__name__)
@@ -61,7 +61,7 @@ def str2bool(v):
 consoleHandler = logging.StreamHandler()
 consoleHandler.setLevel(log_level)
 consoleHandler.setFormatter(formatter)
-fileHandler = logging.FileHandler('pdfExtractor.log', 'w')
+fileHandler = logging.FileHandler('PDFScraper.log', 'w')
 fileHandler.setLevel(log_level)
 fileHandler.setFormatter(formatter)
 logger.addHandler(consoleHandler)
@@ -102,7 +102,7 @@ def signal_handler(sign, frame):
         logger.debug('Table of contents: \n' + doc.table_of_contents_to_string())
         extract_page_layouts(doc)
         # table extraction is possible only for text based PDFs
-        if extract_tables:
+        if tables_extract:
             extract_tables(doc, output_path)
         parse_layouts(doc)
         if len(doc.paragraphs) == 0:
@@ -112,7 +112,7 @@ def signal_handler(sign, frame):
             extract_text_ocr(doc, tessdata_location)
             get_pdf_object(doc)
             extract_page_layouts(doc)
-            if extract_tables:
+            if tables_extract:
                 extract_tables(doc, output_path)
             parse_layouts(doc)
             logger.debug(doc.text)
@@ -127,5 +127,5 @@ def signal_handler(sign, frame):
 logger.info('Stopping')
 generate_html(output_path, docs, searchWord)
 # clean up temporary directory
-shutil.rmtree(tempfile.gettempdir() + "/pdfExtractor", ignore_errors=True)
+shutil.rmtree(tempfile.gettempdir() + "/PDFScraper", ignore_errors=True)
 sys.exit(0)
diff --git a/PDFScraper/outputGenerator.py b/PDFScraper/outputGenerator.py
@@ -7,7 +7,7 @@
 from fuzzywuzzy import fuzz, process
 from yattag import Doc, indent
 
-from pdfExtractor.dataStructure import Documents
+from PDFScraper.dataStructure import Documents
 
 
 def generate_html(output_path: str, docs: Documents, search_word: str):
@@ -282,7 +282,7 @@ def generate_html(output_path: str, docs: Documents, search_word: str):
                     for table in document.tables:
                         with tag('div', id="table" + str(table_index), klass="container"):
                             table_index += 1
-                            tempfile_path = tempfile.gettempdir() + "/pdfExtractor"
+                            tempfile_path = tempfile.gettempdir() + "/PDFScraper"
                             try:
                                 os.makedirs(tempfile_path)
                             except FileExistsError:
diff --git a/PDFScraper/pdfParser.py b/PDFScraper/pdfParser.py
@@ -22,19 +22,19 @@
 from pdfminer.pdfparser import PDFParser
 from pytesseract import TesseractNotFoundError, TesseractError
 
-from pdfExtractor.dataStructure import Document
+from PDFScraper.dataStructure import Document
 
 # Set up logger
 log_level = 20
 if TYPE_CHECKING:
-    from pdfExtractor.main import log_level
+    from PDFScraper.main import log_level
 logger = logging.getLogger(__name__)
 logger.setLevel(log_level)
 formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 consoleHandler = logging.StreamHandler()
 consoleHandler.setLevel(log_level)
 consoleHandler.setFormatter(formatter)
-fileHandler = logging.FileHandler('pdfExtractor.log', 'w')
+fileHandler = logging.FileHandler('PDFScraper.log', 'w')
 fileHandler.setLevel(log_level)
 fileHandler.setFormatter(formatter)
 logger.addHandler(consoleHandler)
@@ -50,7 +50,7 @@ def get_filename(document: Document):
 def pdf_to_image(document: Document):
     pages = pdf2image.convert_from_path(pdf_path=document.path, dpi=300)
     # TODO: implement saving to temp dir with mkstemp for better security
-    tempfile_path = tempfile.gettempdir() + "/pdfExtractor"
+    tempfile_path = tempfile.gettempdir() + "/PDFScraper"
     try:
         os.makedirs(tempfile_path)
     except FileExistsError:
@@ -64,9 +64,9 @@ def pdf_to_image(document: Document):
 def extract_text_ocr(document: Document, tessdata_location: str):
     pdf_pages = []
     for i in range(document.num_pages):
-        img = cv2.imread(tempfile.gettempdir() + "/pdfExtractor" + "/" + document.filename + "_" + str(i) + ".jpg")
+        img = cv2.imread(tempfile.gettempdir() + "/PDFScraper" + "/" + document.filename + "_" + str(i) + ".jpg")
         # remove temporary image file
-        os.remove(tempfile.gettempdir() + "/pdfExtractor" + "/" + document.filename + "_" + str(i) + ".jpg")
+        os.remove(tempfile.gettempdir() + "/PDFScraper" + "/" + document.filename + "_" + str(i) + ".jpg")
         # RGB to grayscale
         img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
         # Threshold
@@ -81,11 +81,11 @@ def extract_text_ocr(document: Document, tessdata_location: str):
         try:
             config_options = '--psm 1 --tessdata-dir ' + tessdata_location
             text = pytesseract.image_to_pdf_or_hocr(img, extension='pdf', lang=language, config=config_options)
-            with open(tempfile.gettempdir() + "/pdfExtractor" + "/" + document.filename + "_" + str(i) + ".pdf",
+            with open(tempfile.gettempdir() + "/PDFScraper" + "/" + document.filename + "_" + str(i) + ".pdf",
                       'w+b') as f:
                 f.write(text)
                 pdf_pages.append(
-                    tempfile.gettempdir() + "/pdfExtractor" + "/" + document.filename + "_" + str(i) + ".pdf")
+                    tempfile.gettempdir() + "/PDFScraper" + "/" + document.filename + "_" + str(i) + ".pdf")
         except TesseractNotFoundError:
             logger.error("Tesseract is not installed. Exiting")
             sys.exit(1)
@@ -99,10 +99,10 @@ def extract_text_ocr(document: Document, tessdata_location: str):
         for i in range(pdf_reader.numPages):
             page = pdf_reader.getPage(i)
             pdf_writer.addPage(page)
-    with open(tempfile.gettempdir() + "/pdfExtractor" + "/" + document.filename + ".pdf", 'w+b') as out:
+    with open(tempfile.gettempdir() + "/PDFScraper" + "/" + document.filename + ".pdf", 'w+b') as out:
         pdf_writer.write(out)
         out.close()
-        document.ocr_path = tempfile.gettempdir() + "/pdfExtractor" + "/" + document.filename + ".pdf"
+        document.ocr_path = tempfile.gettempdir() + "/PDFScraper" + "/" + document.filename + ".pdf"
     # cleanup temporary files
     for filename in pdf_pages:
         os.remove(filename)
diff --git a/README.md b/README.md
@@ -1,4 +1,4 @@
-# pdfSearch
+# PDFScraper
 CLI program for searching text and tables inside of PDF documents and displaying results in HTML. It combines [Pdfminer.six](https://github.com/pdfminer/pdfminer.six), [Camelot](https://github.com/camelot-dev/camelot) and [Tesseract OCR](https://github.com/tesseract-ocr/tesseract) in a single program, which is simple to use.
 
 # How to install
diff --git a/setup.py b/setup.py
@@ -4,14 +4,14 @@
     long_description = fh.read()
 
 setuptools.setup(
-    name="pdfSearch",
+    name="PDFScraper",
     version="1.0.0",
     author="Erik Kastelec",
     author_email="erikkastelec@gmail.com",
     description="PDF text and table search",
     long_description=long_description,
     long_description_content_type="text/markdown",
-    url="https://github.com/erikkastelec/pdfSearch",
+    url="https://github.com/erikkastelec/PDFScraper",
     packages=setuptools.find_packages(),
     classifiers=[
         "Programming Language :: Python :: 3",