赋予机器类人的多模态信息解析才能是实现通用人工智能的一大柱石。

一、现有大模型文档解析的挑战

1.1、文档解析技能流程

随着信息化和数字化的飞速发展，咱们每天都面临着包括财务报表、商业合同、技能陈述等海量的文档数据。从研究价值的视点来看，这些文档不只蕴含了各行业处理内外部事务的详尽细节和深沉的知识积累，更汇聚了丰厚的行业相关实体和数字信息。而在形式上，这些文档则呈现出多元化的杂乱性，如双栏排版、手写字体、印章标记、有线表格与无线表格等元素的交错，使得文档解析和信息提取成为一项极具挑战和价值的使命。

文档解析技能是从这些海量且杂乱的数据中高效精确地提取有价值信息的要害。它从输入文档图画开始，通过图画处理、版面剖析、内容辨认和语义了解等流程，最终输出结构化电子文档或语义信息。通过文档解析技能，咱们能够深入了解文档的结构、内容和主题，使得信息更易于检索、剖析和使用。其间：

它们在实际运用中仍然面临着必定的挑战和约束，下面咱们运用LLM对文档解析中的一些经典问题进行剖析：

图画处理难题——图画倾斜纠正

下面，咱们测验将一段具有倾斜视点的文档图片输入到LLM中，如下图所示，由于文档图画存在显著的倾斜度，LLM在主动进行图画倾斜纠正时遇到了困难，导致了内容解析的失败。这一挑战凸显了当时LLM在图画预处理和纠正方面仍面临必定的困难。

版面剖析难题——逻辑结构辨认

在下图所示的示例中，咱们测验将一篇具有无线有线混排的表格文档输入给LLM中，并就其间的“AdaBoost需求运用到的特征”进行发问，能够发现，在运用大模型自带的解析时，找到的信息与原始文档相悖，这一过错信息无疑给用户带来严重的误导。

内容辨认难题——公式辨认解析

数学公式，作为文本中共同的元素，通常交融了文字和符号，呈现出杂乱的二维结构联系。在辨认这些公式时，不只需求对构成其基础的文字和符号进行精确辨认，还需深入剖析这些元素之间的二维结构，精确描绘它们之间的联系。在如下图示的事例中，咱们将一篇包括中等难度公式的文档输入到LLM中，希望它能协助总结节点定位差错的公式。虽然LLM输出了相应的公式，但仔细观察后不难发现，该公式明显缺少一个要害的根号，产生必定的误导。这一忽略表明，LLM在结构化符号和图形辨认方面仍有待提高，在处理数学公式这类具有严格结构和逻辑的文本元素时，其精确性和完整性仍需进一步加强。

语义了解难题——阅读顺序揣度

语义了解阶段的核心使命是辨认并了解文档中不同部分之间的内在相关和逻辑联系。在原始文档中，“把握跨境付出数据取得与流量数据价值定位的主动权”这一要害论点与第⑦篇《大力增强付出产业世界竞争力》之间存在清晰的对应联系。而当咱们将此文档输入到LLM系统时，它未能按照人类的思想逻辑来正确解析和展现文档内容。相反，其过错地假造了一篇文献作为回应，这凸显了当时LLM在语义了解，尤其是阅读顺序与逻辑相关揣度方面的不足。

二、TextIn文档解析实测流程

针对以上痛点，合合信息凭仗其强壮的研发实力，成功自研出TextIn文档解析技能。该技能深度交融了文字辨认、计算机图形图画技能以及智能图画处理引擎，使得纸质文档或图片中的文字信息能够敏捷、精准地转化为计算机易于处理的文本格局。目前，TextIn渠道已经开放了通用文档解析的试用权限和API调试接口，任何开发者都能够注册账号并注册运用。

2.1、网页在线调用效果

首要进入TextIn官网：www.textin.com/console/rec… 挑选1千页的套餐进行试用。

点击注册试用，然后进入工作台，找到已注册机器人-公有云API-通用文档解析-在线运用。

进入网页后，上传一份检索陈述的扫描件，能够看到，TextIn通用文档解析能够精准地辨认扫描件中的表格元素。不论是简略的单行表格仍是杂乱的跨页表格，它都能精确地捕捉并创建出结构清晰、布局合理的电子表格，还能将单元格的内容一一对应解析，保证数据项都被精确无误地提取。

2.2、本地API调试效果实测

除了在线调用，TextIn通用文档解析还供给了API调试与示例代码，首要点击API集成，进入API文档。

API文档给出了恳求头、URL参数、恳求体阐明、呼应体阐明和过错码阐明，包括必要的认证信息、内容类型、清晰的示例和阐明、字段的意义和格局。这里我运用JS设计一个简略的demo，其间onload事件处理函数用于获取读取到的文件数据（ArrayBuffer），XMLHttpRequest目标向服务器发送数据后，onreadystatechange事件处理函数查看恳求的readyState特点并对返回内容进行解析，主要核心代码如下：

<!DOCTYPE html>
<html lang="zh-CN">
<head>
  <meta charset="UTF-8">
  <title>文档解析演示</title>
</head>
<body>
  <div class="container">
    <h2>上传文件</h2>
    <div class="file-upload">
      <input type="file" id="fileInput">
      <label for="fileInput">挑选文件</label>
    </div>
  </div>
  <script>
    document.querySelector('#fileInput').addEventListener('change', function (e) {
      var file = e.target.files[0];
      var reader = new FileReader();
      reader.readAsArrayBuffer(file);
      reader.onload = function (e) {
        var fileData = this.result;
        var xhr = new XMLHttpRequest();
        var appId = '4956***********************f0';
        var secretCode = '10be2*********************c18';
        var url = 'https://api.textin.com/ai/service/v1/pdf_to_markdown';
        xhr.open('POST', url);
        xhr.setRequestHeader('x-ti-app-id', appId);
        xhr.setRequestHeader('x-ti-secret-code', secretCode);
        console.log("loading")
        xhr.onreadystatechange = function () {
          if (xhr.readyState === 4) {
            var response = xhr.response;
            var obj = {};
            try {
              obj = JSON.parse(response);
            } catch (e) {
              console.error('Error parsing JSON response:', e);
            }
            console.log("success")
            console.log(obj.result)
            if (obj.result && obj.result.item_list && obj.result.item_list.length > 0) {
              console.log(obj.result.item_list);
            }
          }
        };
        xhr.send(fileData);
      };
    });
  </script>
</body>
</html>

实际运用时，只需求点击挑选文件，然后上传需求解析的PDF或图片，在右侧就会打印出对应的解析成果。

2.3、开始实践——根据TextIn文档解析 + Kimi的智能文档解析帮手

文档解析技能以其精湛的技能，致力于将多样化格局的文档转化为计算机易于了解和操作的文本格局。而强壮的大型言语模型则以其卓越的才能，能够深入了解和把握不同文本格局的上下文脉络，精准捕捉文本中蕴含的深层语义，然后生成愈加贴合用户需求的下流使命输出。

那么，我不禁考虑：是否有可能将TextIn文档解析API与LLM的言语了解才能巧妙结合，打造出一个高效且强壮的文档处理流程？话不多说，让咱们当即付诸实践。首要，咱们调用TextIn文档解析API，将原本难以直接运用的文档（如PDF和图片格局）转化为计算机易于了解的信息，挑选输出Markdown或JSON格局的文档内容，为后续的数据剖析和处理供给清晰、结构化的数据支撑。

接下来，咱们将TextIn API生成的Markdown数据或JSON数据作为输入传递给LLM，本次实践选用了moonshot的Kimi。通过这一过程，咱们为Kimi供给了丰厚的结构化数据，使其能够深入剖析文档内容，并为后续处理供给更为全面和精确的上下文支撑。

最后使用LLM的才能，对输入的JSON数据进行处理，根据特定的业务场景和用户需求，咱们能够让LLM执行一系列高级使命，如生成摘要、提取要害信息、分类总结等。以下图的村庄旅行热度季节改变规则为例，咱们能够将包括村庄旅行数据的JSON文件输入给LLM。LLM会使用其深度学习和自然言语处理的才能，剖析这些数据，辨认出村庄旅行热度的季节性趋势和改变规则，根据这些剖析，生成一份详尽的剖析陈述，包括村庄旅行热度的季节剖析、未来趋势猜测以及相应的主张或策略，然后为村庄旅行的决策者供给有价值的参阅，帮助规划和办理村庄旅行资源，提升游客的满意度和体会。

通过以上体会，能够看到，TextIn文档解析API以其卓越的性能为咱们供给了强壮的文档解析东西，而Kimi智能文档帮手则以其对文本深层语义的精准捕捉和了解才能，进一步提升了文档内容的下流使命处理水平，结合两者，不只打破了传统文档处理的限制，还能够实现对文档更深层次的了解和处理，并且能够应对各种类型文档处理需求。幻想一下，当你面对一堆冗杂的PDF文件、图片或扫描件时，你不再需求逐页翻阅、手动输入或依赖低效的OCR东西，而是能够凭借TextIn文档解析 + LLM将其敏捷转化为结构化的文本数据，从而提取要害信息、生成摘要、分类归档，乃至进行更杂乱的文本发掘和数据剖析。

如果你对智能图画处理、文字表格辨认、文档内容提取感兴趣，那么我强烈推荐你前往TextIn的官方网站进行亲自体会。让TextIn成为你文档处理的得力帮手，让智能化、高效化的文档解析成为你工作的新常态吧！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

【LLM落地应用实战】LLM + TextIn文档解析技术实测