《创客志》Tmxmall:国内最大语料大数据共享交易平台,技术创新颠覆传统翻译模式

SITI众创空间2019-02-10 12:52:34

一直以来,语言服务业 被认为是要靠人的技巧和智慧来提高质量、靠人海战术来扩大规模的行业,因此翻译市场虽然存在着巨大的空间却松散而不引人注目。进入2017年人工智能技术迅速发展,语言服务业这块人类最后的智慧高地正面受到了挑战,古老的翻译行业走到了分水岭前,一场革命正在发生。


借助互联网平台,聪明的“语料库”和“机器翻译”迅速崛起替代了人们日常生活中大量阅读级的翻译,甚至专业领域的翻译也变得更加简捷和大众化。在这场商机巨大的变革中,除了巨头谷歌、阿里在内的企业踊跃投入,更有一批创业企业应运而生。


本期《创客志》走进了SITI众创空间一家年轻的黑马团队——上海一者信息科技有限公司,其打造的Tmxmall语料商城已成为国内最大的语料数据共享交易平台,被业内称为“语言资产界的天猫”。对话创始人张井,聊一聊他的创业之路。


张井

1988年出生,江苏人,本科毕业于西北工业大学计算机学院,硕士毕业于天津大学信息管理专业,现任Tmxmall首席执行官。读研期间成立天津大学LateX团队,为天津大学编写本硕博学位论文模板,被称为“天津大学LateX第一人”。曾就职于百度钱包。

SITI:先聊一聊你个人的创业经历吧。

张:我是天津大学信息管理专业的硕士,毕业后在北京的百度工作了一年半的时间,我的合伙人陈件是我在西北工业大学的本科同学,他毕业后在华为、SAP工作了几年,后来我介绍他来百度工作,我们一起在百度钱包工作了大概一年不到的时间就决定从北京来上海创业了。来上海有几个原因,一个是气候环境比北京好很多,这个是很实际的。其次我是江苏人,上海离家近一些。


SITI:怎么想到要创业的呢?

张:我跟陈件的本科毕业设计是一起做的,还参加了当年腾讯“校园之星”互联网应用开发大赛,我们做的是跟信息检索、搜索引擎这个课题相关的。刚好我们现在做的语料库其实大量的都是要涉及匹配、检索,所以这块还是有很大相关性的。我们最开始来做这个事情也是有部分兴趣驱动在里面的。我们在大学里就对信息检索、搜索引擎的技术特别感兴趣,之后我们有个朋友说我们这项技术可以运用到语料库的检索跟匹配中来,因为整个翻译、语言服务行业里,语料库的挖掘和利用的效率还非常低,所以我们的技术如果能够运用上的话,会有比较大的市场空间在里面。2014年6月我们来到上海,9月成立了一者信息科技有限公司,带着自己的技术开始着手进入语言服务行业。

张井(左)陈件(右)


SITI:如何结缘SITI众创空间的呢?

张:我们是通过IPO CLUB的王俊推荐的,我们的天使投资方也是IPO CLUB的一个股东,刚好王俊跟SITI众创空间的孔老师关系也挺不错的,所以就推荐了我们。很幸运我们通过了评审顺利入驻了SITI众创空间。期间我们团队增加了一两个人,特别感谢SITI众创空间给我们场地的支持,这对于我们初创企业来说是很重要的。公司现在基本可以勉强收支平衡,这里的租金对我们来说是一笔不小的开支,最实际的是我们可以省下这些钱再招一个人,而多一个人就可以多做很多事情。

在这里也是要感谢孔主任对我们项目成长性的认可,我们现在做的是一个特别垂直细分的领域,但是翻译市场的空间还是很大的。我们公司这这个领域无论是理念、技术在国际上都是比较前沿的,我们现在做语料数据共享交易,如果能做好的话是可以影响甚至颠覆整个翻译行业的发展

TMXMALL团队@SITI众创空间 


SITI:介绍一下你们TMXMALL语料数据共享交易平台吧。

张:我们有一个网站www.tmxmall.com是做语料数据的共享交易平台,主要面向专业的翻译,就是那些付费的专业用户,比如说医疗、化工、法律等领域的专业翻译。我们的平台可以理解为跟“滴滴”的方式差不多,一个译员或者翻译公司他所翻译过、生产的数据另外一个译员如果想用的话可以通过我们的平台联系起来,比如A用了B的数据,A要付费给B,那么这个流水都是从我们平台上走,我们会从平台上抽取一定的交易流水,就有佣金。我们本身是不生产内容的,我们不做翻译业务没有翻译团队,我们平台上所有的数据都是译员、翻译公司提供来生产的,数据都是用户提供的。他们上传他们共享,我们只是一个平台,这样所有的数据都在我们平台上有沉淀。我们是一个垂直细分的行业,现在比较常见的像“今日头条”、“知乎”等其实都是内容驱动的,他们自己是不产生任何内容的,都是靠用户来产生内容的。

关注

TMXMALL全球首家多语言、多领域的语料交易平台,让您的数据帮您赚钱


另外我们还有个语料制作的工具是整个行业用的最多的,效率最高的,市场占有率很高。如果用户需要付费的话,可以购买单机版,单机版我们是卖LICENSE的,如果不愿意付费可以用在线版的。


SITI:叫TMXMALL是有什么特殊含义吗?

张:TMX是整个行业语料数据的标准数据交换格式。tmx格式是翻译行业通用的数据存储格式,存放一一对应的原文和译文,俗称翻译记忆。通过有效复用TMX数据,可减少大量重复劳动,极大提高生产效率,因而成为翻译企业、译员个人的核心语言资产不管是美国、英国各个国家他们所有交换的都是以TMX进行交换的,所以TMX就是专业的语料数据,MALL就是商城,我们名字的含义就是要做的语料数据共享的交易平台。翻译是个比较小众的行业,现在我们TMXMALL语料数据共享交易平台在整个行业已经有比较不错的知名度了。我们切的角度非常窄,但却是翻译行业整个产业链的核心



SITI:与行业内其他竞争对手比较,你们的优势是什么?

张:国际上有一家叫TAUS的企业也是在做语料数据的共享交易,但是模式比我们落后一点,他们提出的理念我们在16年下半年就已经在做了,我们基本上要领先他们半年左右的时间窗口。与业内竞争对手相比我们在垂直的细分领域更专业。我们做的比较多的像法律、财经、IT、新闻这些领域比较垂直的,因为只有垂直的领域语料数据才有更多的价值,那些通用的网络上都能抓出来的,他们的价值不大。需要人工翻译的垂直领域的数据价值比较大。目前,Tmxmall平台已有超3万专业译员注册,语料API覆盖90%以上主流辅助翻译软件用户,日API查询达50万次。自有产品“Tmxmall语料对齐”已做到行业第一,日对齐量超500万字,累计对齐超17亿字。SaaS语料管理平台存储数据超亿句对,并以每日 50万句对速度增长。就语种来说我们现在有19个语种,大语种中、英,小语种中的大语种包括日、韩、德、西、法、俄、葡、阿等等都是可以互译的,有306个语言方向,基本覆盖了翻译行业95%的需求。现在中英占70-80%的市场,我们因为团队人数不多,我们非常专注就做语料数据,还有翻译交易,其实翻译是一个特别长的生态链的,我们现在抓的是最核心的那块,其他等我们做成熟了,我们再扩展其他环节会比较容易。



SITI:公司目前的规模怎样?

张:我们团队一直比较稳定,现在有12人,开发人员占一半人员。我们公司有学英语专业的研究生,他们会有二外,我们团队普遍学历比较高有4、5个硕士,其他都是本科以上,硕士本科各占一半吧,北大、国防科大,也有上外毕业的,大连海事毕业的。

我们TEAM有优势也有劣势,我们都是技术出生所以做产品比较踏实,劣势是市场MARKETING,SALES这块偏弱一些。我们做互联网平台需要线上线下推广,线上也是互联网模式我们在百度有经验,线下这块稍微弱。后期下半年我们会做一些地推,让翻译公司把数据共享给我们平台。通过行业会议、客户拜访交流等等。我们现在接触的投资方也是想通过融资并且在市场资源方面给我们帮助。



SITI:项目最新的进展如何?

张:经过三年的发展我们公司已获六项国家软件著作权,申请四项国家技术专利,注册三个商标版权,并推出了系列语料产品来重塑、支持、规范语料采集、处理、管理、利用、交易全过程,真正打造全新语料共享模式。目前正处于PRE-A轮的融资阶段,预计能有大几百万的规模,正在跟几家投资方谈。这些投资方主要是我们行业相关的,对翻译或者说自动翻译这块想要布局整个生态链的,要做语音翻译、机器翻译并且背后需要有大量的专业数据来支撑,可以成为我们的战略投资方,这轮成功融资后我们会再招7到8个人把团队扩充到20个人。我们的目的是想要把全球人工翻译过的数据整合到我们平台上来,我们平台就会是全球最大的语料数据平台,今后我们给翻译公司给企业提供这些语料数据支持,甚至给机器翻译厂商像百度、有道、谷歌提供数据的话我们会是最有竞争力的。



SITI:Tmxmall的出现可以说是填补了国内语言资产管理市场的空白,跟我们聊聊公司今后的发展规划吧。

张:短期这段时间包括今年下半年和明年上半年我们还是要把语料共享交易平台做好,把平台上数据汇集越来越多,只有平台上有更多的数据才会有更多用户来使用它。这是一个买方跟卖方双方资源权衡的一个问题,如果平台上面的卖方也就是语料数据提供的越来越多才会有更多的人来买。我们近一年的主要精力还是做这个语料共享交易平台。

等我们平台上专业的数据沉淀足够多的时候,我们会去做垂直领域的机器翻译,我们提供引擎可以直接给翻译公司用也可以直接去切终端用户,终端用户就是翻译公司的用户。比如有一家外企需要翻译很多手册,他可能去找翻译公司,翻译公司再来用这些语料数据,如果我们推出一个医疗领域的机器翻译,这个机器翻译就可以直接给药企使用,这个是属于终端客户,他们有翻译的需求我们可以直接提供给他。

语料数据积累多的话,自动翻译引擎开发后会衍生出更多应用场景的APPS,现在这些都是趋势,比如说菜单拍照翻译,先图样识别,识别完文字再翻译,还是用的通用的翻译,其实就菜单的数据训练一个菜单的引擎。还有一个比较火的是跨境电商,翻译是个非常大的问题,这里面也有很大的商机。

 


SITI:今后你们推出的机器翻译与现在谷歌、百度、有道等巨头的机器翻译有什么不同呢?

张:机器翻译其实是巨头企业必备的基础能力建设。国内包括腾讯、阿里也都在做机器翻译,跟我们也聊过很多语料数据的需求。阿里需要大量跨境电商的语料,包括实时聊天的语料,他们做阿里巴巴网,中国的买家跟德国的卖家需要沟通,需要大量的商品信息翻译。腾讯对于聊天的语料需求也很大,他们都是有自己各个企业产品品牌相关的需求,跟我们都有接触。

我们今后要做的是垂直领域的机器翻译,用专业的数据去训练专业的引擎,核心还是语料库的数据。机器翻译其实就是我们输入一句话立刻就给一个输出,但这个输出不一定准确,这是有一个自动翻译的引擎的,这个自动翻译引擎是通过背后有海量的精准的翻译好的数据训练出来的,而我们目前在做的就是积累我们自己精准的语料库,数据做好之后这个就是壁垒,就是我们手里最大的资源以及核心的竞争力。

当我们这些专业数据积累的越来越多的时候对人工智能机器翻译发展会有很大的推动作用。举个例子来说我们现在看百度、谷歌、有道翻译通用的日常生活的效果还是不错的,但是让他们去翻译医疗、化工、机械翻译出来一定是乱七八糟的。而我们可以帮助他解决这个问题,比如要去翻译法律的时候,我们就拿法律的这些专业数据去训练一个法律的翻译引擎,他对法律的翻译效果就比现在好很多。

SITI:2017年被成为是AI人工智能的元年,我们也看到像科大讯飞这样的企业已经在做实时翻译了,随着技术的不断发展,翻译会被人工智能取代吗?

张:翻译公司是劳动密集型的公司,纯粹的劳动密集型的企业不管是在翻译行业还是其他行业,肯定会被现在人工智能大部分的替代掉,重复的低级的劳动一定会被机器替代,在翻译行业也是一样的。今后翻译需求会越来越大,很多企业都要出海面临中国企业走出去跟国外企业走过来、本地化和全球化的问题,但不一定完全都是靠人工翻译,翻译分不同等级需求:比如专业的药品使用说明书必须精准,不允许出错,必须人工翻译。机器翻译会出错,所以目前专业的翻译还都是人工的,而且在整个行业中符合要求的专业人才还是非常稀缺的。

现在谷歌的机器翻译一直在发展,这些初级、低水平的翻译,比如阅读级层面的翻译需求会直接被机器翻译替代,当然专业的会议同传在短期三到五年内还不能替代,但将来还是有可能替代掉的。



SITI:创业以来个人最大的收获?

张:创业其实这两三年的感受就是困难非常非常多,对人的精神意志包括体力的要求都非常高。收获就在于我们这样的团队虽然就10个人左右,但是特别精干的团队,我们开发出来的几款产品,包括语料的对齐、共享在整个行业还是很有影响力的,这几个产品能够积极地影响着整个翻译行业,并且能够推动翻译行业往前去发展,我觉得这是我们小团队比较有成就感的地方。我们通过自身的努力开发出来一些产品,虽然翻译不是一个很大众的行业,至少能影响一个行业去往一个积极地方向发展。我和陈件我们都是技术出身,在百度做技术,学的也是技术,我们很多产品都是技术驱动的,我们希望通过技术能够改变一些现有的工作方式,提升一些行业的生产效率。



创客说:


创业是一个ALL IN的过程,注定艰辛,我们一直都在努力用技术去改变一些人的生活和工作方式,希望所有的创业小伙伴们都能多一份坚持,不忘初心,方得始终。


——张井




采访后记


技术的发展,正在为打通人类语言的“巴别塔”,带来新的曙光。


人工智能时代悄然来临,这是一个人类高速发展的时代,我们更应该做的不是忧虑,而是如何学习和面对更新的生活。


愿更多年轻创客像张井这样拿起互联网高科技的武器提升传统行业的效率,用技术改变世界,以创新驱动中国!


《创客志》第十三期

创客团队:一者信息

创客编号:021903



Copyright © 古田计算器虚拟社区@2017