Android 开发者挑战赛获胜者
利用实用创新创造更美好未来
编辑:Luke Dormehl
插图作者:Hannah Perry
“机器学习方面的突破已经使我们的日常生活变得更轻松、更丰富多彩。”
一只红色的眼睛一眨不眨地回瞪着其使用者, 而后系统发出冷漠、不带感情的声音:“我很抱歉,Dave,”它说道,“恐怕我不能那么做。”这是《2001:太空漫游》的经典场景,主人公面对着世界上最没用的助理:HAL 9000。为了保护自己,这个 AI 系统违抗命令,导致了飞船乘员的死亡。 这并非我们想要看到的未来。 人们希望计算机能够帮助人类,而不是取代或阻碍人类。他们希望出现一个乌托邦式(而非反乌托邦式)的世界,在这种乌托邦式世界里,技术能够帮助人类寻找解决方案,而不是制造问题。如今的技术比以往任何时候都更强大,因此我们构建和使用技术的方式应该与技术的运作方式同样重要。 坚持以人为本,我们就可以构建出能够创造更美好未来的技术。
当然,这并不是说我们必须等着那样的世界来临。 机器学习方面的突破推动了大量辅助技术的发展,这些辅助技术已经使我们的日常生活变得更轻松、更丰富多彩。能够减少拥堵、污染和交通事故的自动驾驶汽车正在开始兴起。机器学习辅助翻译工具、医疗诊断软件和情境感知设备等其他技术也已成为很多人日常生活的一部分。Gmail 中的智能撰写功能可在用户输入信息时提供建议;Android 中的实时转写功能可帮助失聪或听障用户获得超过 70 多种语言和方言的即时语音转文字字幕;持续不断提供支持的 Google 助理可帮助数百万用户及时掌控自己的日常日程安排,这些功能展示了 Google 用技术创造更美好未来的愿景。
这种实用创新理念在移动设备上显得尤为重要。自 2008 年发布以来,Android 已成为全球最受欢迎的移动平台。 利用机器学习,图像识别技术取得了显著进步,用户可以将智能手机相机对准文字,通过 Google 翻译将这些文字翻译成 88 种不同的语言。随着手机逐渐成为全球首选设备,特别是在发展中国家快速增长的市场中,构建新工具时坚持以人为中心的应用理念至关重要。 实用创新有望改变我们获取、使用和解读信息的方式,让我们可以随时随地根据需要获取信息。
这意味着,我们可以预测洪水并直接向将会受洪水影响的人发出警告。或者,还可以快速拍摄某个物品(例如咖啡杯)的照片,并获取前往附近回收点的路线。 开发新技术绝非易事。它需要依赖于硬件的进步、软件的新发现以及构建这些新体验的开发者。通过专注于“实用创新”,Android 开发者挑战赛为用户提供运用机器学习的实际示例,并激励下一波开发者去解锁这项新技术的无限可能性。
设计以人为中心的体验
编辑:Christopher Katsaros
访谈:Joanna Goodman
插图作者:Ori Toor
如果您刚从大学毕业,就会清楚老鼠是一种令人讨厌的生物,它们有时会在夜晚的宿舍中四处爬行。学校里的计算机鼠标也像这些老鼠一样讨厌,连接的是位于学校图书馆地下室的过时系统,您用过几次就不想再用了。然而,您是否会相信,计算机鼠标是计算迈向个性化的重要一步,它让用户更容易与计算机互动。
Digital Equipment Corporation 是 20 世纪 60 年代至 90 年代美国的主要计算机生产商,其创始人曾说过:“没有理由让每一个人在家都拥有一台计算机”。然而,史蒂夫·乔布斯开创了以鼠标为核心的图形界面,引领了个人计算和设计的新时代。从那时起,计算设计经历了两场更重要的变革,每场变革都让我们与设备之间的关系更密切、更个性化而且更人性化。
随着移动设备浪潮来袭,Android 和 iOS 迎来了首个重大变更。一开始,移动设备意味着屏幕更小、功耗更低、功能更少。然而,开发者很快意识到移动设备有更大的发展空间。 滑动、点按、轻触、戳(移动设备术语)功能让他们的思维超越了屏幕,使移动设备更加出彩;现在,我们的画布不再局限于显示器的边界,而是可以提供层出不穷的信息,随时准备为您服务。 从那时起,得益于位置、身份等情景信息,计算设计经历了另外两场重要的变革,每次变革都进一步让我们与设备之间的关系更密切、更个性化而且更人性化。
随着移动设备浪潮来袭,Android 和 iOS 迎来了首个重大变更。一开始,移动设备意味着屏幕更小、功耗更低、功能更少。然而,开发者很快意识到移动设备有更大的发展空间。 滑动、点按、轻触、戳(移动设备术语)功能让他们的思维超越了屏幕,使移动设备更加出彩;现在,我们的画布不再局限于显示器的边界,而是可以提供层出不穷的信息,随时准备为您服务。 此外,得益于位置、身份、移动等情景信息,通过手机实现的人类体验日益发展,让桌面设备所提供的体验相形见绌。 机器学习是下一个重要变革,它使以人为中心的设计变革迅速成为焦点。
在那个时候,如果建议家庭配备计算机是一个很大胆的想法,那么想要能与计算机进行对话,肯定就是异想天开了。更别说将您的相机对准一朵美丽的花,使用 Google 智能镜头识别花的类型,然后设置为妈妈订购花束的提醒。然而,如今这都成为了现实,“Google 智能镜头能够使用计算机视觉模型来扩展搜索并加快搜索速度。”Google 高级用户调查员兼 People + AI 调研团队联席负责人 Jess Holbrook 说道,“您并非总是需要使用相机进行搜索,但如果您忘记某物的名称或不得不停下来输入一段很长的描述时,使用相机进行搜索就很有用。使用相机要快得多。”
解决人类的问题
编辑:Luke Dormehl
插图作者:Manshen Lo
Yossi Matias 是 Google 工程部副总裁、以色列 Google 研发中心创始执行总监,以及 AI 造福社会计划的联合负责人。
作为 AI 领域的杰出思想领袖,Matias 谈到了利用设备端的机器学习、智能环境和使用 AI 造福人类社会的潜力
问:哪些因素激发了您在 AI 领域的工作热情和兴趣?
答:我热衷于技术开发,希望利用技术来解决难题,发挥技术的影响力。我目前参与的项目包括对话式 AI 研究计划,例如 Google Duplex(一种自动化系统,用于使用自然语音在手机上执行预订餐厅等任务)、Read It(能让 Google 助理在手机上大声朗读网页文章)以及 Call Screen 和实时字幕等设备端技术。我还对 AI 造福社会(AI for Social Good)计划的普及使用非常感兴趣。相关示例包括利用机器学习、云计算、水力模拟及其他技术更准确地预测洪水。
问:AI 造福社会的计划是如何形成的?
答:我发现 Google 文化中有一种很好的特质,那就是很多人都热衷于想方设法利用技术解决重要问题。可在很多领域开展 AI 造福社会计划,这些领域包括健康、生物多样性、通过无障碍服务提供协助、灾难应对信息平台、可持续发展等。在 Google,我们这几个同事聚到了一起并找到了一些问题。如果我们能够帮助解决这些问题,就会以可持续的方式真正造福于人们的生活和整个社会。因此,我们发起了 AI 造福社会计划,意在为从事社会公益相关活动的所有人(包括 Google 内部和外部人员)提供支持。如今的机器学习技术可通过云端提供,这使得全球很多人都能获得相关工具来识别并潜在解决实际社会问题。这在历史上是前所未有的。
问:设备端技术可以发挥哪些作用?
答:如今的移动设备功能日益强大。这让我们有机会利用能够在设备上运行的机器学习技术。这一点之所以重要,原因有很多:例如,这样可以立即访问某些应用而不依赖于网络连接。在处理个人数据时,您会希望不要从设备中泄露任何信息,在这种情况下设备端技术也很重要。Call Screen、实时字幕和即时文字通话就是很好的例子,展示了如何在设备上利用对话式 AI 来帮助用户更好地控制来电,让听障人士看到对话内容的实时字幕,甚至还能进行电话对话。
问:为什么环境智能会带来如此具有颠覆性的变化?
答:有用技术的强大之处在于,在它融入我们的环境中后,无需我们投入大量精力,就可以正常发挥作用。很多技术一开始都会让我们感到惊讶,但是很快我们就会习以为常。对话式 AI 消除了情态和语言上的障碍,使人们能够更好地进行互动。让机器能够更好地理解我们并以自然的方式与我们交谈(实际上是融入到我们的环境中)后,用户就可以消除必须明确要求机器执行某任务的认知负担,更自然地与机器互动。
问:为什么普及机器学习工具如此重要?
答:Android 开发者挑战赛展示了开放云端和设备端技术的重要性。我们热切期待看到来自世界各地所有人的创新。我们希望能够尽可能地鼓励、支持、启发大家,为大家建言献策。我非常高兴能够看到该计划的参与者带来的各种创新。如果我们能够帮助他们把这份激情带到世界的各个角落并利用尖端技术,我们将看到很多令人惊叹且富有创意的成果,这对人类绝对大有裨益。
如何在移动设备上利用革命性的机器学习工具和功能?答案是 TensorFlow Lite。这一强大的机器学习框架可以帮助在通常无法支持机器学习模型的 Android 和 iOS 设备上运行机器学习模型。 如今,TensorFlow Lite 已在全球数十亿台设备上投入使用。它的一系列工具可用于各种功能强大的神经网络应用,包括从图像检测到语音识别,将最新的尖端技术融入我们随身携带的设备中。
借助 TensorFlow Lite,使用少量无需依赖于服务器或数据中心的计算密集型模型,即可在设备本身上进行大部分机器学习处理。 这些模型运行速度更快,可增强隐私保护,所需能耗更少(连接可能很耗电),而且最重要的是,在某些情况下,无需进行互联网连接。在 Android 上,TensorFlow Lite 通过神经网络 API 访问专家移动加速器,在降低功耗的同时提高性能。
“TensorFlow Lite 实现了以前由于服务器的往返延迟时间过长而无法实现的用例,”TensorFlow Lite 工程总监 Sarah Sirajuddin 说道,“相关示例包括设备端语音识别、实时视频互动功能以及照片拍摄过程中的实时增强功能。” “该领域的创新精彩纷呈,未来还会有更多相关的创新,”她又说道,“另一个有趣的方面是,它使机器学习变得更容易,而这有助于激发创造力和才能。”
编辑:Luke Dormehl
插图作者:Sarah Maxwell
ML Kit 将 Google 的设备端机器学习技术带给移动应用开发者,因此他们可以在自己的应用中打造自定义的互动式体验。其中包括语言翻译、文本识别、对象检测等工具。ML Kit 能够实时识别、分析并在一定程度上理解视觉化数据和文本数据,并且非常注重用户隐私,因为数据保存在设备上。产品管理总监 Brahim Elbouchikhi 表示:“该工具包使机器学习变得更易实现。”
“我们将 Google 一流的机器学习模型制作成一套简单的工具,因此开发者不再需要成为机器学习专家即可开发由机器学习提供支持的应用。所有复杂性都得以隐藏,因此开发者可以专注于开发自己的核心产品。”例如,Language ID 等工具可帮助您识别文本字符串所属的语言,“对象检测和跟踪”可帮助您实时定位并跟踪图像或实时摄像头画面中的一个或多个对象。
这也为 Android 开发者挑战赛中的获胜应用提供了助力。例如,帮助 Trashly 区分可回收材料和不可回收材料,帮助 UnoDogs 区分健康的狗和不健康的狗)。未来的目标是什么?Elbouchikhi 表示,我们的目标是让技术消失在背景中,让设备更好地理解我们的需求。“ML Kit 帮助我们兑现了这一承诺,使开发者能够为用户打造直观的自适用体验,同时更有效地保护了用户隐私并提高了用户信任度。”
编辑:Joanna Goodman
插图作者:Tor Brandt
如今,每天有超过 4 亿用户使用名为“移动支付”的服务,通过该服务,您可以使用 USSD(用手机发送的快速代码)从移动支付系统汇款、支付水电费或提取现金。尽管全球用户都在使用移动支付,但该服务对刚果民主共和国 (DRC) 等国家/地区的用户尤其有用。刚果民主共和国有 46% 的人口生活在既没有传统银行也未接入稳定互联网的农村地区。遗憾的是,这个过程非常耗时且难以使用,对于不认识数字和处理数字有困难的用户来说则更是如此。一旦出错,他们就得重新开始。
或者,如果使用了错误的代码,款项就会转给错误的用户。Esske 简化了流程,提升了用户体验,使其更加直观且更易于使用。在应用中,用户甚至可以查看和跟踪自己的实时交易。他们还可以转账、支付账单、购买订阅服务,以及支付因发送短信、使用流量和拨打电话而产生的基本话费。虽然大多数移动银行服务都要求用户手动输入手机的 USSD 代码,但 Eskke 的“快速取款”功能会自动处理这些信息。
借助 ML Kit 的离线文本识别和条形码扫描等工具,用户只需在移动支付系统中扫描二维码,即可快速取款。该应用已面向刚果民主共和国境内的用户推出,之后将拓展业务,向其他非洲国家/地区的移动支付运营商提供支持。
编辑:Arielle Bier
插图作者:Frances Haszard
arrow_upward随着全世界都感受到气候变化,人们希望减少自己的碳足迹和向垃圾填埋场输送的垃圾。
虽然大多数城市都提供回收服务,但许多地方都有不同的规则、限制和规定。由于回收的标签不明确以及政策不一致,不可回收物品占据了 25% 以上的回收箱。
利用 Trashly,消费者可以更轻松地回收垃圾。只需将设备端摄像头对准物品,然后利用物品检测功能,该应用就能够识别塑料及纸杯、袋子和瓶子等,并将其分类。通过自定义的 TensorFlow Lite 模型分析此类信息后,该应用会报告物品是否可回收以及如何回收(具体取决于当地规定),并分享有关附近回收箱的详细信息。
目前在伊利诺斯州、宾夕法尼亚州和加利福尼亚州,利用 Trashly 的“Near Me”功能可找到 1000 个回收中心。Trashly 计划在未来扩展到其他州和国家/地区,帮助人们保持正确回收垃圾的优良习惯,这将能够产生重大影响。
编辑:Arielle Bier
插图作者:Aless Mc
arrow_upward狗狗的日常锻炼、饮食和照料均由主人负责。然而,尽管是出于好意,许多狗狗都被喂养到超重,而这会使其寿命缩短 25% 以上。 UnoDogs 致力于通过提供个性化信息和健身计划,帮助狗主人更加关注宠物的健康。UnoDogs 会跟踪和衡量狗狗的健康状况并提供准确的建议,在狗狗出现健康问题之前预先予以解决。
通过使用 Google Cloud Platform AutoML Vision 功能来训练用于分析实时图片的对象检测模型,UnoDogs 能够计算出狗狗的身体状况分数,并为其保持理想体重和大小提供建议。未来版本将提供更多机器学习功能,例如食品推荐、敏捷性测试和健身计划。
然后,应用可将体重和运动跟踪详细信息与实时分析相结合,提供易于实行的饮食和运动计划,旨在确保狗主人坚定目标并保持动力,让他们的狗狗能够过上最好的生活。
编辑:Arielle Bier
插图作者:Choi Haeryung
arrow_upwardAgrifarm
开发者:Mirwise Khan、Samina Ismail、Ehtisham Ahmed、Hassaan Khalid
地点:巴基斯坦俾路支省
“我们正在帮助农民彼此建立联系,并利用 AI 来提高其生产力。”
作物病害会对世界各地的农民构成持续的威胁,而粮食不安全会对人类健康、社会和经济带来毁灭性的影响。 AgriFarm 可以帮助农民检测植物病害,预防发生重大损失。为了实现此目的,开发者在 Google Cloud AI Platform 上托管了用于识别病害类型的深度神经网络分类器。
其他功能包括天气报告、视频推荐和价格预测。 AgriFarm 是专为互联网接入受限的偏远乡村地区而设计的,覆盖了西红柿、玉米和土豆等水果和蔬菜,目前正在将数据集的运行范围扩展到全球。
编辑:Arielle Bier
插图作者:Buba Viedma
arrow_upwardAgroDoc 基于众包模式,帮助从具有类似地理位置和气候条件的农民那里收集数据,以便诊断植物病害并制定治疗方案。借助该应用,设备端摄像头会对受感染的叶子进行扫描,而 TensorFlow Lite 库会帮助检测病害类型。
该应用将结合关键症状对数据进行分析,并给出改善植物健康状况的简单步骤。
编辑:Arielle Bier
插图作者:Buba Viedma
arrow_upward压力以多种形式存在,不管是正面压力还是负面压力都是如此。幸运的是,我们的身体天生就能自我调节和适应不断变化的环境。但是,当极端事件或状况带给我们巨大的压力时,我们的负面情绪就会高涨,导致出现焦虑、抑郁并对我们的身体健康造成长期损害。Stila(在学习活动中进行压力跟踪)会监测和跟踪身体的压力水平,以便用户可以更好地了解和管理生活中的压力。为了实现这一目标,这款智能手机应用可与穿戴式设备(例如 Fitbit 腕带或搭载 Wear OS by Google 谷歌的设备)搭配使用,以记录用户的生物反馈信息。
Firebase 自定义模型会检测压力并对其进行分类,而通过 TensorFlow Lite 解释器可以实现信息的离线处理。该应用会跟踪身体的压力水平,并且会结合利用用户的生活事件和环境的简短报告。然后,计算压力水平得分,帮助评估用户在特定活动期间的压力。由于每个人对压力源和刺激因素的反应方式不一,因此 Stila 会通过这些报告进行学习并调整其工作方式。然后,它会根据每个用户的节奏和需求提供反馈。
通过迁移学习,个体特征可以进一步帮助打造个性化的用户体验。通过随时检测和监控压力水平,用户有机会更好地管理生活中的压力。
编辑:Arielle Bier
插图作者:Linn Fritz
arrow_upwardMixPose 是一款供瑜伽教师和健身专业人士开展教学、跟踪学员动作是否符合标准并提供实时反馈的直播平台。 静态健身视频仅单向共享信息。但利用该款应用,教师可以自定义课程并直接与学生互动。 使用姿势跟踪功能可检测每个用户的动作情况,而使用 ML Kit 和 PoseNet 则可以对体位进行分类。
然后,实时传感器和反馈系统会告知用户他们的动作是否符合标准。 添加了 Chromecast 等视频输出功能,可轻松连接到更大的屏幕,以实现更身临其境的观看体验。 MixPose 是为 3700 万喜爱瑜伽的美国用户设计的,目前已招募超过 100 名瑜伽教师参与该平台的启动。该平台通过在 Edge、5G 和智能电视上利用 AI 进行创新,让用户可在舒适的家庭环境中直接体验互动瑜伽课程。
编辑:Arielle Bier
插图作者:Rachel Levit Ruiz
arrow_upward在印度,有超过 700 万人患有听力障碍和语言障碍,其中很少有人能接受手语教育。由于语言和方言的范围极具多样化,因此创建标准交流形式几乎是不可能的。
借助 Leepi,学生可以学习美国手语的手势和符号。 该应用使用字母、符号、面部表情和意图识别,并提供互动练习和实时反馈。 它采用了 TensorFlow Lite 库和 MediaPipe 框架,可提高设备端处理的准确性和简洁性。 更重要的是,它是为离线使用而设计的,便于更多学生无障碍地进行学习。
编辑:Arielle Bier
插图作者:Xuetong Wang
arrow_upward良好的睡眠对于人体休息和恢复健康至关重要。然而,25% 的成年人经常打鼾,这可能会导致睡眠中断和潜在的慢性健康问题。
Snore and Cough 应用可利用 TensorFlow Lite 捕获和分析音频并进行分类,识别打鼾和咳嗽,从而帮助用户寻求医护人员的帮助。
编辑:Arielle Bier
插图作者:Xuetong Wang
arrow_upwardPath Finder
开发者:Colin Shelton、Jing Chang、Sam Grogan、Eric Emery
地点:美国德克萨斯州爱迪生镇
“我们希望利用机器学习技术来实现公益成果。”
当您在公共环境(例如购物中心或拥挤的街道)中穿行时,移动障碍物会以意想不到的方式不断移位和变化。视觉、声音和触觉等感官体验有助于避免碰撞和意外事故的发生。但对于视障人士而言,在公共环境中穿行意味着面临一系列未知情况。Path Finder 可通过识别和计算物体在其路径中的移动轨迹,帮助视障人士感知此类复杂的状况。
然后,自定义提醒会告知用户如何避免这些障碍物,并为其提供安全地操作建议。 此应用使用 TensorFlow Lite 中的物体检测功能来计算周围物体的距离。其旨在提高用户体验、共享信息,并在困难情况下为用户提供支持(而非为其造成过多的负担)。因此,Path Finder 的设置过程是会话式的,专为视障用户以及为其提供帮助的用户而定制。
听觉反馈和触感反馈是屏障警报系统的一部分,而音高和频率范围用于传达每个物体的距离和方向。音频模式(例如摩斯电码)将分层并组合,以便分享更多信息。Path Finder 可帮助视障用户获得先见优势,使公共环境更易于感知。
编辑:Arielle Bier
插图作者:Sonya Koshenboym
arrow_upward