探索本项目的文档 »
查看Demo
·
报告Bug
·
提出新特性
mm-chatocr 是一个能够支持 文字提取-特定字段提取 的大模型,由 InternLM2-chat-7B 指令微调而来,欢迎大家star~⭐⭐
ChatOCR的核心思想是实现OCR模型提取文字信息,并使用LLM(Large Language Model)分析其识别结果,直接给出所关注的关键信息。
ChatOCR的工作原理主要基于OCR(Optical Character Recognition,光学字符识别)技术和大型语言模型(LLM)的结合。
-
首先,OCR模型被用来对输入图像进行文字检测和识别处理。在这个阶段,ChatOCR可能采用了一系列高级的OCR技术,如深度学习算法,来准确地检测和识别图像中的文字。这些文字信息随后被提取出来,作为后续处理的输入。
-
接下来,识别出的文字信息被送入大型语言模型进行处理。LLM具有强大的自然语言处理能力,可以理解并分析这些文字信息的含义。通过对文字信息的语义理解,LLM能够提取出关键信息,并生成相应的自然语言回复。
-
具体来说,ChatOCR可能首先使用OCR模型对图像进行预处理,将图像中的文字转换成机器可读的文本格式。然后,这些文本信息被送入LLM进行进一步的分析和处理。LLM可能会根据文本的语义内容和上下文信息,生成与输入图像相关的回复或执行相应的任务。
-
需要注意的是,ChatOCR的工作原理可能还涉及到其他一些技术和方法,如图像处理、文本预处理、自然语言生成等,以提高系统的准确性和效率。此外,具体的实现方式可能会因不同的应用场景和需求而有所差异。
- 2024.2.3 完成mm-chatocr第一版并部署上线 https://openxlab.org.cn/apps/detail/Farewell1/CHAT-OCR 😀
- 硬件:A100 40G(目前测试调节app.py中的参数显存推理时显存最低占用6G,使用Xtuner微调时占用16G左右)
- Clone the repo
git clone https://github.com/8baby8/internllm-ocr.git
更多详情
请阅读数据构建指南查阅
本次微调用到的数据集见datasets
详见微调指南
详见部署指南
贡献使开源社区成为一个学习、激励和创造的绝佳场所。你所作的任何贡献都是非常感谢的。
- Fork the Project
- Create your Feature Branch (
git checkout -b feature/AmazingFeature
) - Commit your Changes (
git commit -m 'Add some AmazingFeature'
) - Push to the Branch (
git push origin feature/AmazingFeature
) - Open a Pull Request
该项目使用Git进行版本管理。您可以在repository参看当前可用版本。
Farewell@飞桨星河社区UID:2460331
侯玉鹏@飞桨星河社区UID:2544861
该项目签署了MIT 授权许可,详情请参阅 LICENSE