Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

解析文档中公式 #6

Open
Wzixiao opened this issue Aug 9, 2023 · 4 comments
Open

解析文档中公式 #6

Wzixiao opened this issue Aug 9, 2023 · 4 comments

Comments

@Wzixiao
Copy link
Contributor

Wzixiao commented Aug 9, 2023

在"2003年春季高考(北京)数学(理)试题"这种文件中,文件内容中公式目前无法被提取,例如此文件中的第一题,
在 "https://huggingface.co/datasets/ranWang/questions_with_answers/viewer/ranWang--questions_with_answers/train?row=63" 在预览第一页第四个试卷中

方案1. https://github.com/breezedeus/Pix2Text/blob/main/README_en.md

@liyongsea
Copy link

liyongsea commented Aug 16, 2023

@图北
思路1 word解析公式

思路2 pdf或者图像转latex (entroppy)

  • pix2text

@fzp0515
Copy link

fzp0515 commented Sep 12, 2023

  • 任务:旧试卷(特指2017年以前的试卷,数学公式以equation editor 3.0 格式的docx)to latex
    • 背景:
      • 微软2007年以前使用第三方equation editor 3.0插件编辑公式
      • 2017年发现安全泄露弃用ee,使用omml(Office Math Markup Language)编辑公式
      • 旧试卷大多数都是ee编码公式,当前不转换只能得到wtf格式的图片
      • 公式ocr成本高,精度低
    • 任务分解思路:
      • 任务一:ee编码转omml
      • 任务二:omml编码公式的docx转latex
    • 状态:
      • 任务一四个方案均不可行,需要vba的技术支持
      • 任务二已完成

@fzp0515
Copy link

fzp0515 commented Sep 12, 2023

  • 任务:旧试卷(特指2017年以前的试卷,数学公式以equation editor 3.0 格式的docx)to latex

    • 背景:

      • 微软2007年以前使用第三方equation editor 3.0插件编辑公式
      • 2017年发现安全泄露弃用ee,使用omml(Office Math Markup Language)编辑公式
      • 旧试卷大多数都是ee编码公式,当前不转换只能得到wtf格式的图片
      • 公式ocr成本高,精度低
    • 任务分解思路:

      • 任务一:ee编码转omml
      • 任务二:omml编码公式的docx转latex
    • 状态:

      • 任务一四个方案均不可行,需要vba的技术支持
      • 任务二已完成

任务一现在已尝试思路:

@liyongsea
Copy link

vba批处理。chatgpt给出的宏运行报错,需要技术支持。
-> 阿伟来帮忙看一下能不能写出来

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants