2023年11月3日

详解华为12种数据采集技术及应用实践

作者 admin

随着企业业务数字化转型的推进,非数字原生企业对数据的感知和获取提出了新的要求和挑战。 运营需求。 企业需要构建数据感知能力,使用现代手段收集和获取数据,减少人工录入。 数据感知能力架构如图7-2所示。

工控数据采集设备_音频采集设备_银行芯片卡采集设备/

▲图7-2 数据感知

数据感知分为“硬感知”和“软感知”,分别面向不同的场景。 “硬感知”主要是利用设备或装置采集数据,采集对象是物理世界中的物理实体,或以物理实体为载体的信息、事件、过程等。

然而,“软感知”使用软件或各种技术来收集数据。 收集的对象存在于数字世界中,通常不依赖物理设备进行收集。 如图7-3所示。

银行芯片卡采集设备_音频采集设备_工控数据采集设备/

▲图7-3 感知分类

01 基于物理世界的“硬感知”能力

数据采集​​方式主要经历了人工采集和自动采集两个阶段。 自动采集技术还在不断发展,不同应用领域所采用的具体技术手段也不尽相同。 基于物理世界的“硬感知”依赖于数据采集,这是将物理对象镜像到数字世界的主要渠道,是构建数据感知的关键,是实现人工智能的基础。

根据目前的技术水平和应用场景,我们将“硬感知”分为9类,每类都有自己的特点和应用场景,如图7-4所示。

银行芯片卡采集设备_工控数据采集设备_音频采集设备/

▲图7-4 9种“硬感知”

1. 条形码和二维码

条形码或条形码是按照一定的编码规则排列若干条宽度不同的黑条和空白来表示一组信息的图形标识。 通常,一维条码可以表示的字符集不超过10个数字、26个英文字母和一些特殊字符,条码字符集最多可以表示的字符数为128个ASCII字符,数量信息非常有限。

二维码是按照一定规律以特定几何图案分布在平面上的黑白图案,用于记录数据符号信息。 二维码信息量巨大。 可以将使用一维条码时后台数据库中存储的信息加入到条码中。 可以直接读取条码获取相应信息,二维码还具有纠错和防伪功能。 提高数据安全性。

2. 磁卡

磁卡是一种以磁性载体记录字符和数字信息,用于存储身份信息的卡状磁记录介质。 根据所用基材的不同,可分为PET卡、PVC卡和纸卡三种; 根据磁层结构的不同,可分为磁条卡和全涂层磁卡两种。

磁卡的优点是成本低廉,因此易于推广,但缺点也很明显,如卡片的保密性和安全性较差,使用磁卡的应用系统需要可靠的计算机系统支持和一个中央数据库。

3.射频识别

RFID(Radio Frequency Identification,射频识别)是一种非接触式自动识别技术,它利用射频进行非接触式双向数据通信,利用射频读写记录介质(电子标签或无线电频率卡)。 从而达到识别目标和数据交换的目的。

基于特殊业务场景的需求,NFC(Near Field Communication,近场通信)是在RFID的基础上发展起来的。 NFC在本质上与RFID没有太大区别,应用上的区别如下。

4.OCR和ICR

OCR(Optical Character Recognition,光学字符识别)是指电子设备​​(如扫描仪或数码相机)检查打印在纸上的字符,通过检测边缘的明暗图案来确定其形状,并将其形状转化为计算机的过程文本 。 如何调试或利用辅助信息来提高识别准确率是OCR的一个重要课题。

ICR(Intelligent Character Recognition,智能字符识别)是一种更高级的OCR。 它植入了计算机深度学习的人工智能技术,利用语义推理和语义分析,根据字符上下文句子信息,结合语义知识库,补全未识别字符的信息,解决了OCR的技术缺陷。

一个OCR识别系统,从图像到结果输出,必须经过图像输入、图像预处理、文本特征提取、比对识别,最后人工校正,纠正错误文本,输出结果。

目前,OCR和ICR技术在业内已有较为成熟的解决方案提供商,非数字原生企业无需自主开发即可完成相关技术的部署和数据采集。

5.图像数据采集

图像数据采集是指利用计算机对图像进行采集、处理、分析和理解,以识别不同模式的目标和物体的技术。 它是深度学习算法的实际应用。

图像数据采集步骤如图7-5所示。

银行芯片卡采集设备_工控数据采集设备_音频采集设备/

▲图7-5 图像获取步骤

6. 音频数据采集

语音识别技术,也称为自动语音识别 (ASR),将人类语音的词汇内容转换为计算机可读的输入,例如二进制代码、字符序列或文本文件。

目前,音频数据采集技术在业界也有比较成熟的方案提供商,通过方案提供商的技术可以方便的完成技术部署和数据采集。

收集的声音存储为音频文件。 音频文件是指录音设备录制的原始声音,直接记录真实声音的二进制采样数据,是互联网多媒体中的重要文件。 音频获取方式包括下载音频、麦克风录音、MP3录音、电脑录音、从CD获取音频等。

7.视频数据采集

视频是动态数据,内容随时间变化,声音与运动图像同步。 视频信息通常体积较大,综合了图像、声音、文字等多种信息。

获取视频的方式包括从互联网上下载、从VCD或DVD中截取、从录像带中采集、用摄像机拍摄等,以及购买视频资料、录屏等。

8、传感器数据采集

传感器是一种检测装置,它能感受被检测到的信息,并能将检测到的信息按照一定的规律转换成信号或其他所需形式的信息输出,以满足信息采集、传输、处理、存储和检测等要求。展示。 、记录等要求。 信号类型包括IEPE信号、电流信号、电压信号、脉冲信号、I/O信号、电阻变化信号等。

传感器数据的主要特点是多源、实时、时序、海量、高噪声、异构、低值密度等,给数据通信和处理带来了困难。

9.工业设备数据采集

工业设备数据是工业机械设备产生的数据的总称。 机器中有许多功能特定的组件(阀门、开关、压力表、摄像头等),它们接受来自工业设备和系统的命令以打开、关闭或报告数据。 工业设备和系统可以收集、存储、处理和传输数据。 工业设备目前应用于很多行业,包括联网设备和非联网设备。

工业设备数据采集应用广泛,如可编程逻辑控制器(PLC)的现场监控、数控设备的故障诊断与检测、特种设备等大型工控设备的远程监控等。

02 “硬感知”能力在华为的实践

“硬感知”对非数字原生企业有着广阔的前景,因为在数字时代,非数字原生企业拥有大量的生产线、工艺技术、实物、物流设备等,都需要用“硬感知”来实现数据。 感知和收集。 作为典型的非数字原生企业,华为对九类数据的“硬感知”能力已经应用到各个领域,并发挥了实际的商业价值。

1.门店数字化

如图7-6所示,通过七种数据采集方式支撑运营效率和消费者体验的持续提升。

银行芯片卡采集设备_音频采集设备_工控数据采集设备/

▲图7-6 门店数字化

2、场地数字化

如图7-7所示,站点主要位于高层或室外环境,勘测和日常维护难度较大。 通过360度全景摄影和OCR,构建完整的围栏尺寸、塔高、机房尺寸、现场实物。 设备尺寸、天线高度、布线距离、天线方位角、下倾角、扇区等数字镜像,实现现场勘测规划数字化,实地直接施工,避免现场重复勘测和设计调整。

银行芯片卡采集设备_音频采集设备_工控数据采集设备/

▲图7-7 工地数字化 ▲图7-7 工地数字化

03 基于数字世界的“软感知”能力

物理世界的“硬感知”是将物理对象构建到数字世界的主要通道,是构建数据孪生的关键。 数字世界中已经存在的分散、异构的信息,可以通过“软感知”能力实现。 使用。 目前,“软感知”相对成熟,随着数字原生企业的兴起得到广泛应用。 我们将“软感知”分为3类,如图7-8所示。

银行芯片卡采集设备_工控数据采集设备_音频采集设备/

▲图7-8 三种“软感知”

1.埋葬

埋点是数据采集领域的一个术语,尤其是在用户行为数据采集领域,指的是捕捉特定用户行为或事件的相关技术。 埋点的技术本质是监控软件应用运行过程中的事件,在发生时判断并捕获需要关注的事件。

埋点的主要功能是帮助业务和数据分析师突破固有的信息壁垒,为理解用户交互行为、扩展用户信息、推进运营机会提供数据支持。 在产品数据分析初期,业务人员通过自己或第三方的数据统计平台了解App用户访问的数据指标,包括新增用户数和活跃用户数。

这些指标可以帮助企业从宏观角度了解用户访问的整体情况和趋势,从整体上把握产品的运行状态,通过对埋点获取的数据进行分析,制定产品改进策略。

目前主要有以下几种埋点技术,每种埋点技术都有其独特的优缺点,可以根据业务需要进行搭配使用。

2.日志数据收集

日志数据收集是实时收集服务器、应用程序、网络设备等产生的日志记录。这个过程的目的是识别操作错误、配置错误、入侵企图、策略违反或安全问题。

在企业业务管理中,根据IT系统建设和运行产生的日志内容,日志可以分为三类。 由于系统的多样化和分析维度的差异,日志管理面临着许多数据管理问题。

3.网络爬虫

网络爬虫又称网络蜘蛛、网络机器人,是一种按照一定规则自动抓取网页信息的程序或脚本。

搜索和数字化运营需求的兴起,带动了爬虫技术的快速发展。 作为网络、数据库和机器学习的交集,爬虫技术已经成为满足个性化数据需求的最佳实践。

Python、Java、PHP、C#、Go等语言都可以实现爬虫,尤其是Python配置爬虫的便捷性,使得爬虫技术迅速普及,也引起了政府、企业界、个人的重视信息安全和隐私。

04 “软感知”能力在华为的实践

“软感知”主要为产品的持续运行提供服务,基于对产品日志和用户行为的感知来完善产品功能。 以华为内部数据管理平台为例(如图7-9所示),数据管理平台的数字化运营需要识别用户行为,从而提升运营效率和用户数据消费体验。

工控数据采集设备_银行芯片卡采集设备_音频采集设备/

▲图7-9 数据管理平台用户标签

通过埋点平台,在界面上抓取用户从数据定位到最终消费的浏览过程和停留时间,并关联用户的部门、职位、地点等信息,自动生成用户画像和数据画像,确定用户细分范围,定义具有相同认知背景和业务场景的用户,为搜索提供可识别的分类资产,定义数据资产分类,为不同的用户定义不同的资产范围,减少匹配差异和搜索引擎复杂度,训练搜索引擎和推荐算法提供最优数据推荐结果和排名位置。

12类感知能力在企业的应用,突破了原有人工维护数据的局限。 但无论是“软感知”还是“硬感知”,如果生成的数据不纳入企业整体数据管理体系,如果仅以独立数据的形式存在,则无法应对复杂的企业数字化转型。

作者简介: 华为数据管理部作为集团层面的数据管理机构,主要负责公司数据工作的战略规划、路线图措施和实施; 数据从生成到消费全生命周期管理的治理框架、流程规范、方法和方法 IT工具的制定和实施; 公司级信息架构设计及数据资产治理与维护; 主持集团层面数据相关项目,推进以数据为核心的数字化转型。

本文节选自《华为数据之道》,经发布者授权发布。

工控数据采集设备_音频采集设备_银行芯片卡采集设备/