Azure 认知搜索中的 AI 扩充,azure ai 内容审核-ESG跨境

Azure 认知搜索中的 AI 扩充,azure ai 内容审核

来源网络
来源网络
2022-07-05
点赞icon 0
查看icon 543

Azure 认知搜索中的 AI 扩充,azure ai 内容审核Azure 认知搜索中的 AI 扩充AI扩充是索引器的扩展,可用于从图像、Blob和其他非结构化数据源中提取文本。利用扩充和提取,可以使内容在索引器输出对象(搜索索引或知识存储)中更容易搜索。提取和扩充使用附加到索引器驱动管道上的认知技能来实现。可以使用M......

Azure 认知搜索中的 AI 扩充,azure ai 内容审核




Azure 认知搜索中的 AI 扩充

AI扩充是索引器的扩展,可用于从图像、Blob和其他非结构化数据源中提取文本。利用扩充和提取,可以使内容在索引器输出对象(搜索索引或知识存储)中更容易搜索。

提取和扩充使用附加到索引器驱动管道上的认知技能来实现。可以使用Microsoft的内置技能,也可以将外部处理嵌入到所创建的自定义技能中。自定义技能的示例可能包括面向特定领域(例如金融、科技出版或医疗)的自定义实体模块或文档分类器。

内置技能分为以下类别:

“自然语言处理”技能包括实体识别、语言检测、关键短语提取、文本操作、情绪检测和PII检测。通过这些技能,非结构化文本在索引中映射为可搜索和可筛选的字段。

“图像处理”技能包括光学字符识别(OCR)和视觉特征标识,例如面部检测、图像解释、图像识别(名人和地标)或属性(例如图像方向)。这些技能创建图像内容的文本表示形式,这样就可以使用Azure认知搜索的查询功能来搜索这些内容了。

扩充管道关系图

Azure认知搜索中的内置技能基于认知服务API中预先训练的机器学习模型:计算机视觉和文本分析。若要在内容处理期间利用这些资源,可以附加认知服务资源。

数据引入阶段应用了自然语言和图形处理,其结果会成为Azure认知搜索的可搜索索引中文档撰写内容的一部分。数据作为Azure数据集的来源,然后使用任意所需的内置技能通过索引管道进行推快递。

何时使用AI扩充

如果原始内容为非结构化文本、图像内容或需要语言检测和翻译的内容,则应考虑使用内置认知技能。通过内置认知技能应用AI,可以对此内容进行解锁,在搜索和数据科学应用中提高其价值和实用性。

此外,如果你有要集成到管道中的开源、第三方或第一方代码,则可以考虑添加自定义技能。标识各种文档类型的突出特征的分类模型属于此类别,但可以使用将值添加到内容的任何包。

有关内置技能的详细信息

使用内置技能组合起来的技能组非常适合以下应用方案:

需要对其启用全文搜索的已扫描文档(JPEG)。可以附加光学字符识别(OCR)技能,以便标识、提取和引入JPEG文件中的文本。

组合使用图像和文本的PDF。PDF中的文本可以在索引期间提取,不需使用扩充步骤,但在添加图像并进行自然语言处理的情况下,所产生的结果通常比标准索引提供的结果要好。

需对其应用语言检测并可能对其应用文本翻译的多语言内容。

非结构化或半结构化的文档,其中包含的内容有固有的含义,或者其上下文隐藏在更大的文档中。

Blob特别包含打包到单个字段中的大内容正文。将图像和自然语言处理技能附加到索引器以后,即可创建新信息,该信息存在于原始内容中,但在其他情况下并不显示为非重复字段。某些对你有帮助的可用内置认知技能:关键短语提取、情绪分析、实体识别(人、组织和位置)。

另外,内置技能还可以用来通过文本拆分、合并和形状操作来重新构造内容。

有关自定义技能的详细信息

自定义技能可以支持更复杂的方案,例如识别表单,或者使用你提供的模型进行自定义实体检测,以及在自定义技能Web界面中进行包装。自定义技能的一些示例:表单识别器、集成必应实体搜索API、自定义实体识别。

扩充管道中的步骤

扩充管道基于索引器。索引器根据索引与数据源之间的字段到字段映射填充索引,以进行文档破解。技能(现已附加到索引器)根据你定义的技能组截获并扩充文档。编制索引后,可以使用所有受Azure认知搜索支持的查询类型通过搜索请求来访问内容。本部分引导索引器的新手完成这些步骤。

步骤1:连接和文档破解阶段

在管道的开头部分包含非结构化文本或非文本内容(例如图像、扫描的文档或JPEG文件)。数据必须存在于可由索引器访问的Azure数据存储服务中。索引器可以“破解”源文档,以从源数据提取文本。文档破解是在编制索引期间从非文本源提取或创建文本内容的过程。

文档破解阶段

支持的源包括Azure Blob存储、Azure表存储、Azure SQL数据库和Azure Cosmos DB。可从以下类型的文件提取基于文本的内容:PDF、Word、PowerPoint、CSV文件。有关完整列表,请参阅支持的格式。编制索引需要花费一定的时间,因此请从较少的有代表性数据集着手,然后随着解决方案的不断成熟,逐渐增加数据集的大小。

步骤2:认知技能和扩充阶段

扩充通过认知技能执行,这些技能执行原子操作。例如,在破解PDF后,可以应用实体识别、语言检测或关键短语提取,以便在索引中生成本来未在源代码中提供的新字段。管道中使用的技能的集合统称为技能集。

扩充阶段

技能集基于你提供的、与该技能集连接的内置认知技能或自定义技能。技能集既可以很精简,也可以很复杂,它不仅确定处理的类型,而且还确定运算的顺序。技能集以及定义为索引器一部分的字段映射全面指定扩充管道。有关将所有组成部分一起提取的详细信息,请参阅定义技能集。

在内部,管道生成扩充文档的集合。可以确定要将扩充文档的哪些部分映射到搜索索引中可编制索引的字段。例如,如果应用了关键短语提取和实体识别技能,则这些新字段将成为扩充文档的一部分,并可以映射到索引中的字段。请参阅注释详细了解输入/输出的形成。

添加用于保存扩充的knowledgeStore元素

搜索REST apiversion=20200630使用knowledgeStore定义来扩展技能组。该定义提供Azure存储连接以及描述如何存储扩充的投影。这是对索引的补充。在标准的AI管道中,扩充文档是临时的,仅在编制索引期间使用,然后被丢弃。扩充文档将通过知识存储保存起来。有关详细信息,请参阅知识存储。

步骤3:搜索索引和基于查询的访问

完成处理后,便会获得由扩充的文档组成的搜索索引,这些文档在Azure认知搜索中可全文搜索。开发者和用户可以通过查询索引来访问管道生成的扩充内容。

带搜索图标的索引

索引类似于可为Azure认知搜索创建的其他任何对象:可以使用自定义分析器进行补充、调用模糊搜索查询、添加筛选的搜索结果,或试着使用评分配置文件为搜索结果重新整型。

索引从某个索引架构生成。该架构定义字段、属性,以及附加到特定索引的其他构造,例如评分配置文件和同义词映射。定义并填充索引后,可以增量方式编制索引,以拾取新的和更新的源文档。某些修改需要完全重新生成。在架构设计稳定之前,应使用小型数据集。有关详细信息,请参阅如何重新生成索引。

清单:典型工作流

1.将Azure源数据分解为代表性样本。编制索引需要花费一定的时间,因此请从较少的有代表性数据集着手,然后随着解决方案的不断成熟,逐渐增加数据集的大小。

2.在Azure认知搜索中创建数据源对象,以便提供用于数据检索的连接字符串。

3.使用扩充步骤创建技能集。

4.定义索引架构。字段集合包含源数据中的字段。还应该抽出其他字段,以保存扩充期间创建的内容的生成值。

5.定义引用数据源、技能集和索引的索引器。

6.在索引器中,添加outputFieldMappings。此节将技能集的输出(步骤3)映射到索引架构中的输入字段(步骤4)。

7.发快递刚刚创建的“创建索引器”请求(一个POST请求,其请求正文包含索引器定义),用于表示Azure认知搜索中的索引器。通过此步骤运行索引器,并调用管道。

8.运行查询以评估结果,并修改代码以更新技能集、架构或索引器配置。

9.重新生成管道之前重置索引器。


文章推荐
App Annie【成功故事】聚焦 Stillfront 如何收购&管理16家游戏工作室
Azure Storage 系列(一)入门简介,azure storage
APP如何提高在AppStore的展示下载转化率,app store获取项目很慢
App Store常见的App拒绝情况,app store审核一直被拒


特别声明:以上文章内容仅代表作者本人观点,不代表ESG跨境电商观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与ESG跨境电商联系。

搜索 放大镜
韩国平台交流群
加入
韩国平台交流群
扫码进群
欧洲多平台交流群
加入
欧洲多平台交流群
扫码进群
美国卖家交流群
加入
美国卖家交流群
扫码进群
ESG跨境专属福利分享群
加入
ESG跨境专属福利分享群
扫码进群
拉美电商交流群
加入
拉美电商交流群
扫码进群
亚马逊跨境增长交流群
加入
亚马逊跨境增长交流群
扫码进群
《开店大全-全球合集》
《开店大全-主流平台篇》
《开店大全-东南亚篇》
《CD平台自注册指南》
《开店大全-俄罗斯篇》
《韩国站内推广指南》
《韩国热销品预测》
《开店大全-日韩篇》
《开店大全-拉美篇》
《开店大全-欧洲篇》
通过ESG入驻平台,您将解锁
绿色通道,更高的入驻成功率
专业1v1客户经理服务
运营实操指导
运营提效资源福利
平台官方专属优惠
联系顾问

平台顾问

平台顾问 平台顾问

微信扫一扫
马上联系在线顾问

icon icon

小程序

微信小程序

ESG跨境小程序
手机入驻更便捷

icon icon

返回顶部