柴门醒客
人工智能以人类未曾预料的速度迅速崛起,以OpenAi为代表的智能工具以迅雷不及掩耳的态势进入社会生活。图片软件startai应运而生,目前已进入测试阶段(贝他版)。出于新奇我从startai的官网上下载了此电脑软件,并且用若干实例试试其“本领”,感觉挺有意思。Startai的文字生成图片功能只限输入英文,由软件根据文字的意思生成512X512像素png格式的图片,可以导出保存。
希望读者通过下面几个例子找到一点对此软件的“感觉”。开始试用时使用没有经验,所以给出的文字有点啰嗦,生成的图片也与文意不很吻合。尽管不如意,为了使读者“有感觉”,本文还还是罗列于此。
例1 文字:If you want to enter into an official building you have to show your ID for the doorkeeper(当进入某办公机构时你要向门卫出示证件)。
此句生成图1左。
图1左和文字意思似乎吻合得不好。于是改一个说法。改成文字:A man is showing his ID for the customs official(男子向海关人员显示入关证件)。生成图1右。这次比较靠谱了。看来,软件对相对具体的描述比较容易把握。那就具体一点试试。
例2 文字:China Town in New York is very prosperous(纽约市的中国城很繁荣)。
这句生成图2左。如果把句中New York换成Sydney,则生成图2右。看来还真有那么点意思。实际上纽约和悉尼的中国城风格确实很不一样。请留意,所给的图片上的店招名之类的信息都模糊掉了。
例3 文字:Nowadays too many articles are excessively packaged (现在很多物品有过度包装的问题)。
上述文字生成图3A。如果把文字中的too many articles换成hat(帽子),并将句首的Nowadays去掉,则生成图3B。把hat(帽子)换成toy(玩具)生成图3C。再换成cup(杯子)则是图3D。这个例子再次说明,描述越具体,越容易得到吻合度较高的图片。
至于对excessively packaged(过度包装)的理解和图片化,和我们想象中的过度包装实际相去甚远。这个恐怕怨不得软件,毕竟国与国之间的文化差异很大,其他国家的人对过度包装的理解与我们所处环境下的过度包装恐怕就是很不一样的。从此例也可以看出,任何一个生活环境下,身处于此的人脑中会留下无数“图片”,这些图片真实反映了他所在的世界。
下面试一下更理性一点的,看看软件的表现如何。
例4 文字:The action and the reaction are always equal and opposite (作用力和反作用力总是大小相等方向相反)。
上述文字生成图4左。看上去和文字内容相关性很差。那就改一下吧。
文字改成:According to Newton's Third Law of Motion action and reaction are equal and opposite(根据牛顿运动第3定律,作用力和反作用力大小相等方向相反)。于是生成图4右。这个图离文意远了点,猜想软件对motion一词看得过重了,那就去掉试试。改成:According to Newton's Third Law,action and reaction are equal and opposite.(根据牛顿第3定律,作用力和反作用力大小相等方向相反)。此段文字生成图5左。
图5左与文字的吻合度依然很不令人满意。那就再直白一点。改成:Two forces which are action and reaction respectively, are always equal and opposite. (作用力和反作用力两者总是大小相等方向相反)。于是有了图5右。看来要让此软件以图形描述出一个简单的科学定律眼下是太难了。
下面来一个文学性的描述试试。
例5 文字:There are two trees before my house (我家门前有两棵树)。
此句生成图6左。来点花哨的试试。文字改成:There are two trees before my house. One is date tree. The other is also date tree (我家门前有两棵树,一棵是枣树,另一棵也是枣树)。此句生成图6右。估计软件认为你先说一棵,又说另一棵,肯定两棵树不一样,于是给了一高一低两棵不同的树。显然软件还没有足够的“文学意识”,还不能够体会这种表示寂寞、无奈的文学意境。这个要求或许高了点,别说机器,就是读者,对这段文字的质疑也颇不少见。更何况机器还没看到文章的全文。
除了将文字生成图形,该软件还有生成相似图、局部重绘、线稿上色、无损放大、扩图、艺术融合、高清修复等功能。无疑是个强大的图形工具。本文只使用了其中的文字生图形功能,未涉及其他功能。本文给出的图片均是将png原图拼合后保存的jpg格式,对原图未做其他任何处理。但是同样的文字,你过一会儿重新试,得到的图和第一次的就不一样。说明机器并不是靠“死记硬背”将文字和图形对照后给出的,说明机器确实是靠理解出图的。不管如何,一个软件能做到现在这个水平已经很不容易了,当然还存在很大的改进余地。只要看到了问题,离改进就近了不少。特别提醒一下,下载startai软件需要提供一个码,此码可以由QQ得到,所以你如果需要下载,在点开官网前不妨先打开QQ。此码可以给其他人用,意思是可以多次使用。
startai软件将人类从拍照为主的“记录时代”推进到按想法产生图形的“生成时代”,无疑是伟大的创举。开启了人人是画家的时代。
眼看就到2024元旦了,手机上传来琳琅满目的祝贺新年的视频和图案,不妨也让startai来两张图(图7),以此向读者表示新年快乐之祝贺。