ExtractThinker:一款灵活的开源文档智能工具,利用大语言模型 ( LLMs ) 从文档中提取结构化数据。
ExtractThinker 是一款灵活的文档智能工具,它利用大型语言模型 ( LLMs ) 从文档中提取结构化数据并进行分类,其功能类似于 ORM,可实现无缝文档处理工作流程。
该工具支持PDF、图片、表格等多种格式,可以自定义提取规则、自动分类、自动判断文件类型,并根据不同的类型提取不同的信息。支持异步处理大文档,批量处理多个文档。
关键特性
- 灵活的文档加载器:支持多种文档加载方式,包括Tesseract OCR、Azure表单识别器、AWS Textract、Google文档AI等。
- 可定制的提取:使用Pydantic模型定义自定义提取,以实现精确的数据抽取。
- 高级分类:使用自定义分类和策略对文档或文档部分进行分类。
- 异步处理:利用异步处理高效管理大型文档。
- 多格式支持:无缝处理各种文档格式,如PDF、图像、电子表格等。
- ORM风格交互:以类似ORM的方式与文档和语言模型(LLM)交互,以便直观开发。
- 分割策略:实施惰性或急切的分割策略,以逐页或整体处理文档。
- 与LLM集成:轻松集成不同的语言模型提供商,如OpenAI、Anthropic、Cohere等。
- 社区驱动开发:受LangChain生态系统启发,专注于智能文档处理。