Sources
随着我们手机的相机功能和用户体验日益提升,我们也在想,在现有的功能基础上我们还能做些什么,因此本次黑客松我们提出了两个项目:“为你写诗”图生文项目,和“一个也不能少”拍照功能支持。 第一个项目:“为你写诗” 最近有一个说法是“我们的生活是毛坯的,但我们的朋友圈是精装的”,因此本次黑客松我们提出一个帮忙精装朋友圈的方案,我介绍我们的项目——“为你写诗”,图片生成文案的本地解决方案。 出去玩,在高铁飞机上,在高速上,相信很多人会p图发朋友圈,p完图了总得来点文案吧,想要分享旅行照片时,却常常为找不到合适的文案而苦恼;有时诗兴大发,拍到一张好看的图片,想搞点文艺,吟诗一首分享在社交媒体上;有时,我们家长想通过图片故事来激发孩子的想象力和学习兴趣。 为你写诗能够理解您上传的美图,并生成与之相匹配的文案,为您的分享提供灵感。 通过微软的Florence 2 生成图片描述,再使用最新的qwen 2.5的3B模型来得到想要的风格文本,我们做了个APP demo,可以从相册照片跳转至APP,后续计划再实现从APP跳转到社交媒体软件。 为你写诗的亮点一是它的易用性。只需上传图片,一键即可生成文案。无需专业知识,点击按钮使用预设的提示词能快速上手,生成生成旅行小记录、诗歌、故事等多样化风格文案。 第二个亮点是本地的pipeline,所有处理都在本地设备上完成,不需要经由第三方访问,或用于其他用途,因此在飞机高铁上也不受影响。 从落地的角度来说,对于阿里qwen的大模型的支持,1.5版本在2024年已经用在了慧眼识屏和电话摘要上,2.5的模型在新的手机上也即将集成。 未来优化的方向包括:提升推理速度;实现从本app到社交app的跳转;DIY提示词。 第二个项目:“一个也不能少” 拍合照时,很难拍出让每个人都满意的照片。有人在眨眼、有人没有笑、或者有人在照片中被遮挡。 为了解决这些常见问题,我们提出了一个创新的解决方案,通过人脸检测技术来辅助拍照。我们的系统能够在拍照时检测镜头前的人数,监测每个人的位置、微笑状态以及眼睛是否睁开,从而自动判断最佳的拍照时机。 结合人脸识别技术,我们能够提供精准的拍照提示。例如,如果拍照前,我们相册中已经有马冬梅以前的照片,系统能直接提醒“马冬梅,请保持微笑”,确保每个人都能在照片中展现出最佳的状态。 此外,配合折叠屏使用,还能达到解放双手的效果,在一个人出去玩时,可以使用后置屏幕轻松拍照,无需手持,摆好姿态就ok啦,免除寻求别人帮助拍照的尴尬,对社恐人士友好。
Podcast Editor
Podcast.json
Preview
Audio
