北京海天瑞声科技股份有限公司

企业介绍
  • 注册地: 北京
  • 成立日期: 2005-05-11
  • 组织形式: 中小微民企
  • 统一社会信用代码: 91110108776388751R
  • 法定代表人: 贺琳
  • 董事长: 贺琳
  • 电话: 010-62660053
  • 传真: 010-62660053
  • 企业官网: www.haitianruisheng.com
  • 企业邮箱: ir@haitianruisheng.com
  • 办公地址: 北京市海淀区知春路68号院1号楼4层401
  • 邮编: 100098
  • 主营业务: AI训练数据的研发设计、生产及销售业务
  • 经营范围: 技术开发、技术服务、技术咨询、技术转让、技术推广;销售计算机、软件;货物进出口、技术进出口;出租办公用房;经营电信业务、增值电信业务、互联网信息与服务业务。
  • 企业简介: 北京海天瑞声科技股份有限公司(股票代码:688787)成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。海天瑞声向全行业提供多语言、跨领域、跨模态的人工智能数据及相关数据服务,涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。深耕行业近20年,与阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,以专业、可靠、安全的数据服务,成功交付数千个定制项目,深得客户信赖。依托覆盖70多个国家、近200种语言及方言的优质资源,技术完善的算法研发团队,经验丰富的项目团队,全方位助力AI前沿项目的全球商业落地。
  • 发展进程: 发行人由前身海天瑞声有限整体变更设立。2005年5月9日,贺琳和俞舸签署《北京海天瑞声科技有限公司章程》,共同出资设立海天瑞声有限。根据该章程,海天瑞声有限注册资本为30万元,其中,贺琳以货币出资27万元、俞舸以货币出资3万元。根据北京市工商局2004年2月颁布实施的《北京市工商局改革市场准入制度优化经济发展环境若干意见》的规定,贺琳、俞舸分别于2005年5月9日向海天瑞声有限于中国农业银行北京市海淀区支行开立的企业入资专用账户缴纳27万元、3万元,并向北京市工商局提供了中国农业银行北京市分行出具的《交存入资资金凭证》。2005年5月11日,北京市工商局向海天瑞声有限核发《企业法人营业执照》(注册号:1101082832381),海天瑞声有限成立。根据中兴华会计师事务所(特殊普通合伙)出具的《北京海天瑞声科技股份有限公司出资复核报告》(中兴华核字[2020]第010114号),经审验,截至2005年5月9日,贺琳缴纳出资款27万元,俞舸缴纳出资款3万元。 发行人系海天瑞声有限以2017年8月31日为基准日,以经审计净资产折股,整体变更设立的股份有限公司。2017年11月6日,瑞华会计师事务所(特殊普通合伙)出具《审计报告》(瑞华审字[2017]02280059号),截至2017年8月31日,海天瑞声有限的净资产值为8,810.95万元。根据中兴华会计师事务所(特殊普通合伙)出具的《审计报告专项复核报告》(中兴华核字(2020)第010135号),海天瑞声有限截至2017年8月31日净资产情况与上述情况一致。2017年11月6日亚洲(北京)资产评估有限公司(后更名为蓝策亚洲(北京)资产评估有限公司)出具《评估报告》(京亚评报字[2017]第110号),以2017年8月31日为评估基准日,按资产基础法海天瑞声净资产的评估值为9,498.99万元。2017年11月9日,海天瑞声有限通过股东会决议,同意公司以截至2017年8月31日经审计净资产8,810.95万元按照1:0.3405的比例折合3,000万股,整体变更为股份有限公司。根据中兴华会计师事务所(特殊普通合伙)出具《验资报告》(中兴华验字(2020)第010005号),公司之全体发起人已按发起人协议、章程之规定,以其拥有的有限公司截止2017年8月31日经审计净资产88,109,473.40元,作价88,109,473.40元,其中3,000万元折合为公司的股本,股份总额为3,000万股,每股面值1元,缴纳注册资本3,000万元整,余额58,109,473.40元计入资本公积。2017年11月24日,北京市工商局海淀分局向发行人颁发了《营业执照》(统一社会信用代码:91110108776388751R)。 根据2017年4月20日海天瑞声有限召开的股东会决议、转让各方签署的股权转让协议以及投资协议,中瑞立将其持有的6.07万元出资额作价454.905万元转让给上海丰琬,中瑞立将其持有的10.13万元出资额作价760.095万元转让给上海兴富,杭州银杏数以1,300.00万元的价格认缴公司新增注册资本17.33万元,杭州士兰以1,000.00万元的价格认缴公司新增注册资本13.33万元,天津金星以1,530.095万元的价格认缴公司新增注册资本20.40万元,上海兴富以219.905万元的价格认缴公司新增注册资本2.94万元。根据2017年11月9日海天瑞声有限的股东会决议,海天瑞声有限拟整体变更为股份有限公司。同日,原有限公司股东作为拟变更设立的股份有限公司的发起人,签订《发起人协议》并召开创立大会共同发起设立股份有限公司,整体变更后的公司名称为“北京海天瑞声科技股份有限公司”。2019年12月4日,海天瑞声召开临时股东大会,会议通过决议,同意向中移投资、中网投分别定向发行81万股、129万股股份,每股认购价格为62元;本次定向增发后,发行人注册资本增加至3,210万元,股份总数增加至3,210万股;同意就股份转让及增加注册资本事项相应修改公司章程。2019年12月26日,中移投资与海天瑞声、贺琳签署《股份认购协议》,约定中移投资以5,022万元的价格认购公司发行的81万股新增股份,每股认购价格为62元,对应新增注册资本81万元。2019年12月26日,中网投与海天瑞声、贺琳签署《投资协议》,约定中网投以7,998万元的价格认购公司发行的129万股新增股份,每股认购价格为62元,对应新增注册资本129万元。上述新增入股价格系各方结合中联资产评估集团有限公司出具的评估报告对应的企业评估价值协商确定。2019年12月19日,中联资产评估集团有限公司出具《中移投资控股有限责任公司拟向北京海天瑞声科技股份有限公司增资项目资产评估报告》(中联评报字[2019]第2231号),经评估,于本次评估基准日2019年6月30日,海天瑞声净资产(股东全部权益)评估值为186,668.45万元。2019年12月26日,上述评估报告已经国务院国有资产监督管理委员会备案。根据中兴华会计师事务所(特殊普通合伙)出具的《验资报告》(中兴华验字(2020)第010006号),上述增资情况经审验无误。2019年12月26日,海天瑞声就本次股份转让及增加注册资本事宜修改了公司章程,办理了工商变更登记,领取了新的营业执照。自2019年12月股份转让、增加注册资本以来至本招股说明书签署日,发行人未再发生股本和股东变动的情形
  • 商业规划: 2024年上半年,受益于大模型技术的快速革新以及各国政策的持续推动,全球人工智能产业驶入加速发展轨道,国内外科技巨头持续加大人工智能领域投入,受此带动,相关训练数据需求快速增长。为更好拥抱新一轮市场机遇,公司持续加大全球市场投放力度,通过品牌升级、营销推广等多元化战略积极拓宽海外市场空间,带动境外业务收入强力复苏。此外,公司不断拓展智能驾驶服务能力边界,抢抓车企出海机遇,积极探索布局境外数据采集业务;同时继续保持有竞争力的研发投入,持续优化迭代智能驾驶数据处理平台以及智能化标注能力,以更好适应以BEV技术为主、稳步向OCC技术方向探索的高阶智能驾驶技术需求。与此同时,受益于多模态技术的发展,大模型业务板块收入快速提升,成为继智能驾驶业务后公司又一重要的增长引擎。受上述各项积极因素带动,公司整体营业收入实现同比增长。此外,由于标准化数据集产品收入占比大幅提升,同时公司整体数据交付能力在管理能力、平台技术提升、供应链进一步整合和扩展等因素的共同推动下,使训练数据定制服务的毛利率也同比显著增长,共同驱动公司整体毛利率增加至70.34%。同时,在研发投入方面,为积极应对产业需求的新兴变化,公司继续在大模型数据领域进行研发投入,但随着首发募投项目的结项,公司在传统深度学习数据集建设等方向已达到阶段性成熟状态,整体研发投入强度呈现自然回落;同时,在销售及管理投入方面为进一步提升整体运营效率,公司进行了资源的合理配置和流程优化,使得销售费用以及管理费用有效降低,以上因素共同驱动公司上半年净利润大幅增长,实现扭亏为盈。报告期内,公司实现营业收入9,242.64万元,较上年同期增长24.13%;归属于母公司所有者的净利润41.64万元,较上年同期增加1,765.78万元;归属于母公司所有者的扣除非经常性损益的净利润为-367.58万元,较上年同期增加1,942.87万元;经营性现金流净额1,567.69万元,较上年同期增加3,955.06万元。截至报告期末,公司总资产为7.88亿元,归属于母公司的所有者权益为7.53亿元,分别较期初减少4.45%和3.70%。2024年上半年公司具体经营情况如下:(一)核心业务板块经营情况1.训练数据全球化业务2024年上半年,受益于大模型技术的快速发展以及应用领域不断拓展,以智能终端厂商为代表的科技巨头纷纷加大多模态数据投入,全球数据服务市场持续增长。在此背景下,公司凭借多年来在语言研究以及自然语言方面的技术积累、以及全球领先的标准化数据集储备,进一步赢得了境外客户信赖。与此同时,《促进和规范数据跨境流动规定》等法规出台,为数据出境提供了更为高效简明的路径。截至报告期末,得益于行业发展以及政策环境的改善,公司境外业务收入较上年同期显著增长50.00%至4,369.53万元。此外,为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务、客户触达及服务能力。报告期内,公司持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括WebSummitQatar、ICASSP、AIEXPOTOKYO、AutosenseandInCabin及CVPR等全球知名行业及学术顶会,以及布局搜索广告投放、社交媒体矩阵等多类宣传渠道等方式,向全球市场展示公司先进技术实力及创新产品,提升行业影响力和美誉度。2024年上半年,公司全新发布海外官网,全面升级官网服务模式,通过搭建marketplace,便捷用户目标服务/产品的选择,有效提升新客户拓展以及订单转化率。截至报告期末,公司境外客户数量已超过250家。2.智能驾驶行业数据服务业务新能源汽车已成为国家发展新质生产力的重要抓手。政府工作报告中明确提出要巩固和扩大智能网联新能源汽车产业的领先优势,并在后续通过持续的立法支持、政策引导和投资激励等一系列措施,加速推进智能网联汽车的技术发展和商业化应用,推动行业进入新一轮的加速发展期。同时,从消费者角度,越来越多的购车客户更关注汽车的智能化水平。根据相关消费者调研结果,乘用车的智能化水平是影响购车的第二大因素,仅次于价格。2024年上半年,为更好抢抓智能驾驶行业机遇,同时应对更为复杂的数据处理需求,公司加大了对高级别数据标注工具的研发力度,截至报告期末,DOTS-AD平台新增3D动静分离标注工具,BEV多图层4D车道线标注工具,并升级点云分割工具支持连续帧叠加标注和4D分段加载等核心能力,有效支撑了自动驾驶BEV和OCC主流算法演进对数据标注工具的需求。此外,公司不断优化算法中台中枢能力,开发了2D-3D融合的动静分离检测追踪算法,在点云连续帧融合产线实现提效30%以上,迭代优化点云分割算法和地面检测算法,在点云分割产线实现提效20%以上。此外,为进一步支撑我国车企的国际化战略,公司在全球范围内扩展了道路采集业务,可提供包括采集方案设计、采集人员组织、车队管理、车辆改装及数据清洗与脱敏等在内的全链条服务。截至报告期末,公司采集业务已覆盖包括德国、西班牙、捷克等多个国家,为公司构建智能驾驶全球化数据服务能力奠定了基础。3.大模型数据业务随着大模型技术的持续突破,人工智能行业迈入加速发展期。数据作为驱动技术进步和构筑竞争壁垒的关键要素,价值更加凸显,相关数据需求快速增长。报告期内,公司通过大模型数据集产品及定制数据服务,服务客户从预训练、后期预训练、至指令微调、对齐、评测等全链条,服务范围已逐步覆盖至主要大模型厂商和研究机构。报告期内,公司持续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,已完成并持续建设包括“大语言模型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预训练及微调数据集”、“视觉大模型(图像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集。同时,针对大模型在特定行业的应用需求,公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库,为公司提供高质量行业数据服务奠定坚实基础。与此同时,为更好理解大模型技术方向,报告期内,公司通过前瞻性研究,探索大模型数据的规模化生产方式,全面助力公司大模型业务的扩张。公司已和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数据清洗技术,训练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。公司的算法团队联合清华大学语音与音频技术实验室充分利用公司海量高质量语音数据集储备(超过200个语种/方言,近30万小时自有知识产权的语音数据集),充分发挥各自所长,促进大模型技术在数据生产领域的更深层次的应用。(二)核心技术能力建设情况2024年上半年,按照技术+产品双轮驱动的定位,公司继续保持有竞争力的研发投入强度,不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性,持续巩固公司核心竞争力。报告期内,公司研发费用共计2,667.32万元,占当期营业收入的28.86%。截至报告期末,公司研发人员数量65人。1.算法及平台能力建设、大模型数据处理技术探索储备报告期内,公司持续加大基础研发投入,进一步提升人工智能基础算法、一体化数据处理平台、前沿技术研发等领域能力;在智能驾驶数据处理综合性平台上继续提升平台能力,并落地更多面向智能驾驶数据预处理的相关算法;同时,在面向大模型预训练、微调、对齐及评测技术上持续保持技术探索、储备,推动相关领域的数据服务,并形成了一些代表性成果:1.1算法智能语音领域,完成Whisper推理框架升级、显存占用降低59%、推理延迟降低59%,新增ASR模型11个、语音识别算法支持语种数增至130+个,大幅提升了算法在实际项目中的降本增效能力。在计算机视觉领域,引入Detzero-track、23DFusion-if、centpoint、Lane-Marking-Detection、facefusion等有代表性的计算机视觉框架或算法,上线3D点云目标检测多模型融合算法、4D大点云车道线检测算法、GDINO-零样本目标检测等算法,优化2D细分类视频跟踪算法、2D异形红绿灯跟踪算法、4D车道线长度动态自适应调整算法等多个智能驾驶场景下的模型,并新增超过27种不同场景的视觉类算法预处理技术。在大模型算法领域,针对公司自有知识产权的语音数据集,设计通用的数据清洗、模型训练、模型评测框架,已完成数据清洗pipeline搭建,并初步清洗出通用格式的语音数据数十万小时,同时完成语音大模型训练所需要的算力集群搭建、算法框架研发、模型训练pipeline搭建等。针对视觉大模型应用领域,搭建了美学评分模型与图文生成模型相结合的自动标注算法,已在项目中应用,并取得了良好的降本效果。1.2平台公司在训练数据生产与管理的一体化平台建设方向精耕细作,展现了一系列里创新成果,具体可归结为以下核心维度:(1)重点推进以数据为核心的一体化平台体系建设,全面提升一体化数据处理平台数据处理过程柔性管理能力,实现了十余类核心预处理算法模型自动化对接、数据切片、数据加工处理管道的快速搭建与灵活编排,以及数据处理算子集成与统一管理,共计超40个功能点。(2)实现贯穿数据采标、模型训练、模型效果展示全生命周期管理:重点优化多源多模态非结构化与结构化数据的标准化与一致性管理,以及点云与图像类算法模型对比与模型评测支撑能力。扩展了算法结果评测指标维度,提升算法结果可视化展示能力等超40个功能点,大幅提升公司对训练数据的一站式全生命周期管理能力。(3)持续优化一体化数据处理平台的智能化工作流程革新,实现数据采集质控设置精细化调优,多语种多模态算法灵活扩展,自动化处理效果精准探查,跨平台系统集成与数据流动生态建设,以及人员管理与协作机制创新等共计超200个功能点,助力公司业务向智能化、工程化、平台化迈进。通过上述投入,截至报告期末,公司共获得专利授权37项,获得登记的软件著作权173项。同时,公司实质性地提升了自身的算法能力、工程化数据研发及生产能力,形成了更为合理、高效的人机协同智能化解决方案,持续降低训练数据开发成本,以AI赋能训练数据开发,以训练数据赋能AI产业发展。2.标准化数据集产品标准化数据集产品,是公司区别于众多竞争对手以定制化服务为主的特有商业模式,也是公司核心竞争力之一,标准化产品不仅可以更好服务于客户需求,同时由于产品本身的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。为更好缩短AI产品研发周期以及降低研发成本,购入标准化数据集产品并完成模型训练的客户需求持续存在。为更好适应新的行业发展趋势,公司2024年上半年在产品研发方面持续投入,用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截止报告期末,公司新增研发超100个训练数据集产品,自有知识产权的训练数据产品储备超过1,650个,尤其在多语种及多音色语音数据集和发音词典、动作捕捉等多模态数据集、以及多语种OCR和手写体数据集等方面积累了更丰富的标准化产品资源,并建成包括“大语言模型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)预训练及微调数据集”、“视觉大模型(图像-文本)预训练及微调数据集”等在内的多领域大模型数据集。截止报告期末,公司标准化数据集产品储备情况如下:截止报告期末,公司已向下游客户提供了累计超过8,000次/个定制或标准化训练数据集,可覆盖生活交流、客服、家居、行车、办公、普通环境、噪声等多种特定场景中的语言现象和视觉呈现,构建成独具特色的训练数据资源及服务能力集群,并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域,赋能人工智能技术与实体经济的深度融合。3.语音语言学能力随着全球化扩张、通用AGI成为头部企业收入持续增长的重要引擎,多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求,公司持续保持语音语言学研究力度,在语音语言学基础研究方面,公司不断丰富合作语言学家团队资源,成员遍布世界各地的学校及研究机构,在语音语言学领域具备丰富经验和技术储备。截止报告期末,公司已经拥有超过205个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司建立了成熟的发音词典构建流程,公司已积累下超过130个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。(三)其他综合能力建设情况1.数据安全及合规2024年上半年,中央和地方出台了一系列有关数据要素、数字经济的法律法规和政策,同时,《促进和规范数据跨境流动规定》等法规出台,都对企业的数据安全水准和能力提出了更高要求,也为企业在数据要素、人工智能等领域的发展提供了新的机遇。公司一直以来非常重视数据安全管理以及相关能力的提升,并将其作为把握新发展机遇所必须练好的“基本功”。2024年上半年,公司在数据安全方面取得了多项工作成果。公司“AIGC训练数据业务的综合合规管理机制”案例荣获中国互联网协会首届“金灵光杯”中国互联网创新大赛企业合规赛道优秀奖。公司积极参与行业发展,提出立法建议、参与行业调研,数据安全能力获得广泛认可。公司也一直坚持统筹安全与发展并重的原则,在守住安全合规底线的前提下积极拓展包括数据跨境流通在内的数据要素业务。2.供应链体系2024年上半年,基于大模型需求的影响,公司重点开发了医疗、金融、法律、艺术等垂直领域的资源,通过与这些领域的专业机构及专家合作,增强了公司的供应链资源池,满足了特定领域的需求,提高了供应链的多样性和专业性。除此之外,公司重点培养和发展战略供应商,与其建立了长期稳定的合作关系,加强了与供应商的风险共担机制,共同应对市场波动和不确定性。公司也进一步优化了供应链网络,特别是在海外一手资源群体的扩展方面取得了重要进展。通过建设大型数据基地及精细化管理资源池,供应链的多样性和稳定性得到了显著提升,为实现可持续性产能扩张和成本优化奠定了坚实基础。在供应链管理体系建设方面,通过建立更细致的成本核算模型和流程监控节点,实现了对供应链各环节成本和效率的精准把控。同时,全面升级线上管理系统,实现了订单处理、资源配置和结算审批的一体化和实时化。3.人力资源报告期内,公司完成销售、生产、研发体系的绩效管理机制优化,并对内部反馈机制及奖金核算机制进行迭代,以期增强绩效牵引力实现更加公平和富于激励性的管理效果。上半年公司组织多种类专项培训及人才发展项目,在大模型领域的探索与应用进行广泛深入的内部交流,组织销售、生产、职能等多体系的软技能培训,对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划,以保障人才队伍的不断夯实。文化建设方面,强化高度敬业和持续创新文化,进行榜样之星等多样化的文化倡导和活动辐射,打造更加尊重信赖和追求卓越的组织基因。同时在人才引进方面,启动海外人才招募、研发专项人才和高潜毕业生吸引计划,引入多名欧美同业专家、优质研发人员、及卓越背景应届毕业生,充实销售、研发及项目交付队伍的人才密度,发展健康、可持续、多元化的人才队伍。
财务指标
财务指标/时间
总资产(亿元)
净资产(亿元)
少数股东权益(万元)
营业收入(亿元)
净利润(万元)
资本公积(万元)
未分配利润(亿元)
每股净资产(元)
基本每股收益(元)
稀释每股收益(元)
每股经营现金流(元)
加权净资产收益率(%)
主要股东
序号 股东名称 持股数(股) 持股比例
1 贺琳 12,137,615 20.12%
2 北京中瑞安投资中心(有限合伙) 6,935,780 11.50%
3 中移投资控股有限责任公司 4,797,881 7.95%
4 北京清德投资中心(有限合伙) 2,824,448 4.68%
5 宁波丰琬创业投资合伙企业(有限合伙) 2,033,324 3.37%
6 上海丰琬投资合伙企业(有限合伙) 1,880,374 5.86%
7 北京中瑞立投资中心(有限合伙) 1,871,560 5.83%
8 唐涤飞 1,452,125 2.41%
9 上海兴富创业投资管理中心(有限合伙) 1,323,112 4.12%
10 中国互联网投资基金(有限合伙) 1,290,000 4.02%
企业发展进程