microsoft · tungsten106 · Dec 19, 2024 · Dec 23, 2024 · Dec 23, 2024 · Dec 24, 2024
diff --git a/pyproject.toml b/pyproject.toml
@@ -33,6 +33,7 @@ dependencies = [
   "pandas",
   "openpyxl",
   "pdfminer.six",
+  "pymupdf4llm",
   "puremagic",
   "pydub",
   "youtube-transcript-api",

diff --git a/src/markitdown/_markitdown.py b/src/markitdown/_markitdown.py
@@ -24,6 +24,7 @@
 import pandas as pd
 import pdfminer
 import pdfminer.high_level
+import pymupdf4llm
 import pptx
 
 # File-format detection
@@ -676,19 +677,27 @@ def convert(self, local_path, **kwargs) -> Union[None, DocumentConverterResult]:
 
 class PdfConverter(DocumentConverter):
     """
-    Converts PDFs to Markdown. Most style information is ignored, so the results are essentially plain-text.
+    Converts PDFs to Markdown. Most style information is ignored, so the results are essentially plain-text.    
     """
 
     def convert(self, local_path, **kwargs) -> Union[None, DocumentConverterResult]:
+        """
+        Example:
+        >>> source = "https://arxiv.org/pdf/2308.08155v2.pdf"
+        >>> markitdown.convert(source, pdf_engine="pymupdf4llm")
+        """
         # Bail if not a PDF
         extension = kwargs.get("file_extension", "")
         if extension.lower() != ".pdf":
             return None
-
-        return DocumentConverterResult(
-            title=None,
-            text_content=pdfminer.high_level.extract_text(local_path),
-        )
+        pdf_engine = kwargs.get("pdf_engine", "pdfminer")
+        if pdf_engine == "pdfminer":
+            text_content = pdfminer.high_level.extract_text(local_path)
+        elif pdf_engine == "pymupdf4llm":
+            text_content = pymupdf4llm.to_markdown(local_path, show_progress=False)
+        else:
+            return None     # unknown method
+        return DocumentConverterResult(title=None, text_content=text_content)
 
 
 class DocxConverter(HtmlConverter):