范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

Python3深度学习库KerasTensorFlow打造自己的聊天机器人

  聊天机器人(ChatRobot)的概念我们并不陌生,也许你曾经在百无聊赖之下和Siri打情骂俏过,亦或是闲暇之余与小爱同学谈笑风生,无论如何,我们都得承认,人工智能已经深入了我们的生活。目前市面上提供三方api的机器人不胜枚举:微软小冰、图灵机器人、腾讯闲聊、青云客机器人等等,只要我们想,就随时可以在app端或者web应用上进行接入。但是,这些应用的底层到底如何实现的?在没有网络接入的情况下,我们能不能像美剧《西部世界》(Westworld)里面描绘的那样,机器人只需要存储在本地的"心智球"就可以和人类沟通交流,如果你不仅仅满足于当一个"调包侠",请跟随我们的旅程,本次我们将首度使用深度学习库Keras/TensorFlow打造属于自己的本地聊天机器人,不依赖任何三方接口与网络。
  首先安装相关依赖: pip3 install Tensorflow pip3 install Keras pip3 install nltk pip3 install pandas
  然后撰写脚本test_bot.py导入需要的库: import nltk import ssl from nltk.stem.lancaster import LancasterStemmer stemmer = LancasterStemmer()  import numpy as np from keras.models import Sequential from keras.layers import Dense, Activation, Dropout from keras.optimizers import SGD import pandas as pd import pickle import random
  这里有一个坑,就是自然语言分析库NLTK会报一个错误: Resource punkt not found
  正常情况下,只要加上一行下载器代码即可 import nltk nltk.download("punkt")
  但是由于学术上网的原因,很难通过python下载器正常下载,所以我们玩一次曲线救国,手动自己下载压缩包: https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/tokenizers/punkt.zip
  解压之后,放在你的用户目录下即可: C:Usersliuyue	okenizers ltk_datapunkt
  ok,言归正传,开发聊天机器人所面对的最主要挑战是对用户输入信息进行分类,以及能够识别人类的正确意图(这个可以用机器学习解决,但是太复杂,我偷懒了,所以用的深度学习Keras)。第二就是怎样保持语境,也就是分析和跟踪上下文,通常情况下,我们不太需要对用户意图进行分类,只需要把用户输入的信息当作聊天机器人问题的答案即可,所这里我们使用Keras深度学习库用于构建分类模型。
  聊天机器人的意向和需要学习的模式都定义在一个简单的变量中。不需要动辄上T的语料库。我们知道如果玩机器人的,手里没有语料库,就会被人嘲笑,但是我们的目标只是为某一个特定的语境建立一个特定聊天机器人。所以分类模型作为小词汇量创建,它仅仅将能够识别为训练提供的一小组模式。
  说白了就是,所谓的机器学习,就是你重复的教机器做某一件或几件正确的事情,在训练中,你不停的演示怎么做是正确的,然后期望机器在学习中能够举一反三,只不过这次我们不教它很多事情,只一件,用来测试它的反应而已,是不是有点像你在家里训练你的宠物狗?只不过狗子可没法和你聊天。
  这里的意向数据变量我就简单举个例子,如果愿意,你可以用语料库对变量进行无限扩充: intents = {"intents": [         {"tag": "打招呼",          "patterns": ["你好", "您好", "请问", "有人吗", "师傅","不好意思","美女","帅哥","靓妹","hi"],          "responses": ["您好", "又是您啊", "吃了么您内","您有事吗"],          "context": [""]         },         {"tag": "告别",          "patterns": ["再见", "拜拜", "88", "回见", "回头见"],          "responses": ["再见", "一路顺风", "下次见", "拜拜了您内"],          "context": [""]         },    ] }
  可以看到,我插入了两个语境标签,打招呼和告别,包括用户输入信息以及机器回应数据。
  在开始分类模型训练之前,我们需要先建立词汇。模式经过处理后建立词汇库。每一个词都会有词干产生通用词根,这将有助于能够匹配更多用户输入的组合。 for intent in intents["intents"]:     for pattern in intent["patterns"]:         # tokenize each word in the sentence         w = nltk.word_tokenize(pattern)         # add to our words list         words.extend(w)         # add to documents in our corpus         documents.append((w, intent["tag"]))         # add to our classes list         if intent["tag"] not in classes:             classes.append(intent["tag"])  words = [stemmer.stem(w.lower()) for w in words if w not in ignore_words] words = sorted(list(set(words)))  classes = sorted(list(set(classes)))  print (len(classes), "语境", classes)  print (len(words), "词数", words)
  输出: 2 语境 ["告别", "打招呼"] 14 词数 ["88", "不好意思", "你好", "再见", "回头见", "回见", "帅哥", "师傅", "您好", "拜拜", "有人吗", "美女", "请问", "靓妹"]
  训练不会根据词汇来分析,因为词汇对于机器来说是没有任何意义的,这也是很多中文分词库所陷入的误区,其实机器并不理解你输入的到底是英文还是中文,我们只需要将单词或者中文转化为包含0/1的数组的词袋。数组长度将等于词汇量大小,当当前模式中的一个单词或词汇位于给定位置时,将设置为1。 # create our training data training = [] # create an empty array for our output output_empty = [0] * len(classes) # training set, bag of words for each sentence for doc in documents:     # initialize our bag of words     bag = []      pattern_words = doc[0]         pattern_words = [stemmer.stem(word.lower()) for word in pattern_words]      for w in words:         bag.append(1) if w in pattern_words else bag.append(0)            output_row = list(output_empty)     output_row[classes.index(doc[1])] = 1          training.append([bag, output_row])  random.shuffle(training) training = np.array(training)  train_x = list(training[:,0]) train_y = list(training[:,1])
  我们开始进行数据训练,模型是用Keras建立的,基于三层。由于数据基数小,分类输出将是多类数组,这将有助于识别编码意图。使用softmax激活来产生多类分类输出(结果返回一个0/1的数组:[1,0,0,...,0]--这个数组可以识别编码意图)。 model = Sequential() model.add(Dense(128, input_shape=(len(train_x[0]),), activation="relu")) model.add(Dropout(0.5)) model.add(Dense(64, activation="relu")) model.add(Dropout(0.5)) model.add(Dense(len(train_y[0]), activation="softmax"))   sgd = SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True) model.compile(loss="categorical_crossentropy", optimizer=sgd, metrics=["accuracy"])   model.fit(np.array(train_x), np.array(train_y), epochs=200, batch_size=5, verbose=1)
  这块是以200次迭代的方式执行训练,批处理量为5个,因为我的测试数据样本小,所以100次也可以,这不是重点。
  开始训练: 14/14 [==============================] - 0s 32ms/step - loss: 0.7305 - acc: 0.5000 Epoch 2/200 14/14 [==============================] - 0s 391us/step - loss: 0.7458 - acc: 0.4286 Epoch 3/200 14/14 [==============================] - 0s 390us/step - loss: 0.7086 - acc: 0.3571 Epoch 4/200 14/14 [==============================] - 0s 395us/step - loss: 0.6941 - acc: 0.6429 Epoch 5/200 14/14 [==============================] - 0s 426us/step - loss: 0.6358 - acc: 0.7143 Epoch 6/200 14/14 [==============================] - 0s 356us/step - loss: 0.6287 - acc: 0.5714 Epoch 7/200 14/14 [==============================] - 0s 366us/step - loss: 0.6457 - acc: 0.6429 Epoch 8/200 14/14 [==============================] - 0s 899us/step - loss: 0.6336 - acc: 0.6429 Epoch 9/200 14/14 [==============================] - 0s 464us/step - loss: 0.5815 - acc: 0.6429 Epoch 10/200 14/14 [==============================] - 0s 408us/step - loss: 0.5895 - acc: 0.6429 Epoch 11/200 14/14 [==============================] - 0s 548us/step - loss: 0.6050 - acc: 0.6429 Epoch 12/200 14/14 [==============================] - 0s 468us/step - loss: 0.6254 - acc: 0.6429 Epoch 13/200 14/14 [==============================] - 0s 388us/step - loss: 0.4990 - acc: 0.7857 Epoch 14/200 14/14 [==============================] - 0s 392us/step - loss: 0.5880 - acc: 0.7143 Epoch 15/200 14/14 [==============================] - 0s 370us/step - loss: 0.5118 - acc: 0.8571 Epoch 16/200 14/14 [==============================] - 0s 457us/step - loss: 0.5579 - acc: 0.7143 Epoch 17/200 14/14 [==============================] - 0s 432us/step - loss: 0.4535 - acc: 0.7857 Epoch 18/200 14/14 [==============================] - 0s 357us/step - loss: 0.4367 - acc: 0.7857 Epoch 19/200 14/14 [==============================] - 0s 384us/step - loss: 0.4751 - acc: 0.7857 Epoch 20/200 14/14 [==============================] - 0s 346us/step - loss: 0.4404 - acc: 0.9286 Epoch 21/200 14/14 [==============================] - 0s 500us/step - loss: 0.4325 - acc: 0.8571 Epoch 22/200 14/14 [==============================] - 0s 400us/step - loss: 0.4104 - acc: 0.9286 Epoch 23/200 14/14 [==============================] - 0s 738us/step - loss: 0.4296 - acc: 0.7857 Epoch 24/200 14/14 [==============================] - 0s 387us/step - loss: 0.3706 - acc: 0.9286 Epoch 25/200 14/14 [==============================] - 0s 430us/step - loss: 0.4213 - acc: 0.8571 Epoch 26/200 14/14 [==============================] - 0s 351us/step - loss: 0.2867 - acc: 1.0000 Epoch 27/200 14/14 [==============================] - 0s 3ms/step - loss: 0.2903 - acc: 1.0000 Epoch 28/200 14/14 [==============================] - 0s 366us/step - loss: 0.3010 - acc: 0.9286 Epoch 29/200 14/14 [==============================] - 0s 404us/step - loss: 0.2466 - acc: 0.9286 Epoch 30/200 14/14 [==============================] - 0s 428us/step - loss: 0.3035 - acc: 0.7857 Epoch 31/200 14/14 [==============================] - 0s 407us/step - loss: 0.2075 - acc: 1.0000 Epoch 32/200 14/14 [==============================] - 0s 457us/step - loss: 0.2167 - acc: 0.9286 Epoch 33/200 14/14 [==============================] - 0s 613us/step - loss: 0.1266 - acc: 1.0000 Epoch 34/200 14/14 [==============================] - 0s 534us/step - loss: 0.2906 - acc: 0.9286 Epoch 35/200 14/14 [==============================] - 0s 463us/step - loss: 0.2560 - acc: 0.9286 Epoch 36/200 14/14 [==============================] - 0s 500us/step - loss: 0.1686 - acc: 1.0000 Epoch 37/200 14/14 [==============================] - 0s 387us/step - loss: 0.0922 - acc: 1.0000 Epoch 38/200 14/14 [==============================] - 0s 430us/step - loss: 0.1620 - acc: 1.0000 Epoch 39/200 14/14 [==============================] - 0s 371us/step - loss: 0.1104 - acc: 1.0000 Epoch 40/200 14/14 [==============================] - 0s 488us/step - loss: 0.1330 - acc: 1.0000 Epoch 41/200 14/14 [==============================] - 0s 381us/step - loss: 0.1322 - acc: 1.0000 Epoch 42/200 14/14 [==============================] - 0s 462us/step - loss: 0.0575 - acc: 1.0000 Epoch 43/200 14/14 [==============================] - 0s 1ms/step - loss: 0.1137 - acc: 1.0000 Epoch 44/200 14/14 [==============================] - 0s 450us/step - loss: 0.0245 - acc: 1.0000 Epoch 45/200 14/14 [==============================] - 0s 470us/step - loss: 0.1824 - acc: 1.0000 Epoch 46/200 14/14 [==============================] - 0s 444us/step - loss: 0.0822 - acc: 1.0000 Epoch 47/200 14/14 [==============================] - 0s 436us/step - loss: 0.0939 - acc: 1.0000 Epoch 48/200 14/14 [==============================] - 0s 396us/step - loss: 0.0288 - acc: 1.0000 Epoch 49/200 14/14 [==============================] - 0s 580us/step - loss: 0.1367 - acc: 0.9286 Epoch 50/200 14/14 [==============================] - 0s 351us/step - loss: 0.0363 - acc: 1.0000 Epoch 51/200 14/14 [==============================] - 0s 379us/step - loss: 0.0272 - acc: 1.0000 Epoch 52/200 14/14 [==============================] - 0s 358us/step - loss: 0.0712 - acc: 1.0000 Epoch 53/200 14/14 [==============================] - 0s 4ms/step - loss: 0.0426 - acc: 1.0000 Epoch 54/200 14/14 [==============================] - 0s 370us/step - loss: 0.0430 - acc: 1.0000 Epoch 55/200 14/14 [==============================] - 0s 368us/step - loss: 0.0292 - acc: 1.0000 Epoch 56/200 14/14 [==============================] - 0s 494us/step - loss: 0.0777 - acc: 1.0000 Epoch 57/200 14/14 [==============================] - 0s 356us/step - loss: 0.0496 - acc: 1.0000 Epoch 58/200 14/14 [==============================] - 0s 427us/step - loss: 0.1485 - acc: 1.0000 Epoch 59/200 14/14 [==============================] - 0s 381us/step - loss: 0.1006 - acc: 1.0000 Epoch 60/200 14/14 [==============================] - 0s 421us/step - loss: 0.0183 - acc: 1.0000 Epoch 61/200 14/14 [==============================] - 0s 344us/step - loss: 0.0788 - acc: 0.9286 Epoch 62/200 14/14 [==============================] - 0s 529us/step - loss: 0.0176 - acc: 1.0000
  ok,200次之后,现在模型已经训练好了,现在声明一个方法用来进行词袋转换: def clean_up_sentence(sentence):     # tokenize the pattern - split words into array     sentence_words = nltk.word_tokenize(sentence)     # stem each word - create short form for word     sentence_words = [stemmer.stem(word.lower()) for word in sentence_words]     return sentence_words  def bow(sentence, words, show_details=True):     # tokenize the pattern     sentence_words = clean_up_sentence(sentence)     # bag of words - matrix of N words, vocabulary matrix     bag = [0]*len(words)       for s in sentence_words:         for i,w in enumerate(words):             if w == s:                  # assign 1 if current word is in the vocabulary position                 bag[i] = 1                 if show_details:                     print ("found in bag: %s" % w)     return(np.array(bag))
  测试一下,看看是否可以命中词袋: p = bow("你好", words) print (p)
  返回值: found in bag: 你好 [0 0 1 0 0 0 0 0 0 0 0 0 0 0]
  很明显匹配成功,词已入袋。
  在我们打包模型之前,可以使用model.predict函数对用户输入进行分类测试,并根据计算出的概率返回用户意图(可以返回多个意图,根据概率倒序输出): def classify_local(sentence):     ERROR_THRESHOLD = 0.25          # generate probabilities from the model     input_data = pd.DataFrame([bow(sentence, words)], dtype=float, index=["input"])     results = model.predict([input_data])[0]     # filter out predictions below a threshold, and provide intent index     results = [[i,r] for i,r in enumerate(results) if r>ERROR_THRESHOLD]     # sort by strength of probability     results.sort(key=lambda x: x[1], reverse=True)     return_list = []     for r in results:         return_list.append((classes[r[0]], str(r[1])))     # return tuple of intent and probability          return return_list
  测试一下: print(classify_local("您好"))
  返回值: found in bag: 您好 [("打招呼", "0.999913")] liuyue:mytornado liuyue$
  再测: print(classify_local("88"))
  返回值: found in bag: 88 [("告别", "0.9995449")]
  完美,匹配出打招呼的语境标签,如果愿意,可以多测试几个,完善模型。
  测试完成之后,我们可以将训练好的模型打包,这样每次调用之前就不用训练了: model.save("./v3u.h5")
  这里分类模型会在根目录产出,文件名为v3u.h5,将它保存好,一会儿会用到。
  接下来,我们来搭建一个聊天机器人的API,这里我们使用目前非常火的框架Fastapi,将模型文件放入到项目的目录之后,编写main.py: import random import uvicorn from fastapi import FastAPI app = FastAPI()   def classify_local(sentence):     ERROR_THRESHOLD = 0.25          # generate probabilities from the model     input_data = pd.DataFrame([bow(sentence, words)], dtype=float, index=["input"])     results = model.predict([input_data])[0]     # filter out predictions below a threshold, and provide intent index     results = [[i,r] for i,r in enumerate(results) if r>ERROR_THRESHOLD]     # sort by strength of probability     results.sort(key=lambda x: x[1], reverse=True)     return_list = []     for r in results:         return_list.append((classes[r[0]], str(r[1])))     # return tuple of intent and probability          return return_list  @app.get("/") async def root(word: str = None):          from keras.models import model_from_json,load_model     model = load_model("./v3u.h5")      wordlist = classify_local(word)     a = ""     for intent in intents["intents"]:         if intent["tag"] == wordlist[0][0]:             a = random.choice(intent["responses"])        return {"message":a}  if __name__ == "__main__":     uvicorn.run(app, host="127.0.0.1", port=8000)
  这里的: from keras.models import model_from_json,load_model     model = load_model("./v3u.h5")
  用来导入刚才训练好的模型库,随后启动服务: uvicorn main:app --reload
  效果是这样的:
  结语:毫无疑问,科技改变生活,聊天机器人可以让我们没有佳人相伴的情况下,也可以听闻莺啼燕语,相信不久的将来,笑语盈盈、衣香鬓影的"机械姬"亦能伴吾等于清风明月之下。

激光点云三维技术提取作物表型参数研究进展本文节选自智慧农业(中英文)2021年第3卷第1期,翟瑞芳博士团队的文章利用多时序激光点云数据提取棉花表型参数方法,其引用格式如下,欢迎大家阅读引用。引文格式阳旭,胡松涛,王应华,原来你是这样的重庆人来源央视新闻这次山火,让我重新认识了重庆人01hr原来你是这样的重庆人,看上去悠哉游哉插科打诨,但骨子里是袍哥性格,江湖侠义。火,再无情再凶险,你义无反顾地扑到前面,不是孤零的一个享年62岁,前广州恒大功勋教练突然离世,孙兴慜高度评价就在近日,意大利突然传来了一则噩耗,曾经在广州恒大工作过的体能教练温特罗尼因病逝世,享年62岁。随后不久,广州队官方卡纳瓦罗私人账号分别发文悼念了这位功勋教练。广州队广州足球俱乐部人工智能还是人工智障?大雨夜高德导航带我多绕了65公里国庆到湖北走亲戚,本来准备7号一早回上海,结果亲戚在6号下午接到了要全员核酸的命令,相传隔壁的花桥镇发现了什么,担心被封在那里,6号晚上连夜开车返沪。路线很简单,全程走沪渝高速。设你都读过哪些很有力量的文字?1希望现在的你,别害怕现状,也别试图强迫自己。世事无常,总要有一段日子是用来浪费的,总会有无能为力的不愉快,让你短暂停留,让你在今后闪闪发亮的时候,能感谢这些糟糕的日子。糟糕的日子一个人的街,在一个人的夜,享受着一个人的孤单夜幕降临,所有城市的繁华在一天的忙碌中逐渐落幕,人来人往的街道也一点点变得凄凉。夜深时分,总是伤感蔓延的时候,充斥着蓝色的天空,在一点一点蚕食着一个人的神经,酒精色的身影在昏黄的路爱心相互传递,才能使快乐放大,才能使幸福增值电影楚门的世界中有句台词有时候世界虽然是假的,但并不缺少真心对待我们的人。每一个来到世上的人,都希望得到人们的尊重,都希望得到人们的关爱,这种愿望,这种心理,都是很正常的。但是,我明日寒露,建议大家吃3食做2事,老传统别丢,安康过秋天寒露是反应气候变化的节气之一,随着寒露节气的到来,气温由凉转寒,大家纷纷套上厚衣服。树上的叶子开始泛黄飘落,不知不觉迎来深秋的萧瑟。自古以来,就有根据节气转换调整饮食起居的习俗。明今年秋天流行一种穿法风衣烟管裤,优雅减龄显瘦还显气质秋天是到了穿风衣的时候了,风衣有着很好挡风效果,在穿着上也利落有型,内里搭配一些小内搭或者烟管裤都是不错的选择,尤其是搭配烟管裤,在显瘦效果上很强。为什么喜欢风衣烟管裤的搭配呢?这太平洋即将形成新的超大陆太平洋即将形成新的超大陆据科学家称,太平洋面积的持续缩小最终将形成一个名为Amasia的新超大陆。澳大利亚专家表示,根据他们的预测,太平洋正在慢慢向自身靠近并缩小约2。5厘米。尽管高端新机iPhone15UItra曝光,iPhone14上演降价狂潮不只超冰点随着iPhone14系列的发布,行业焦点也逐渐从这款手机上,转移到了明年将会发布的iPhone15系列上了,对于今年不会购买iPhone14的用户来讲,有关明年的iPhone15系
败光近百亿,又一造车新势力危矣?造车大洗牌,这次轮到零跑了?在新能源的浪潮驱使下,这两年我们见证了一个又一个国产汽车品牌的诞生与崛起,100多家新能源车品牌百舸争流如今随着新能源车渗透率逼近30,行业高增长红利结你会不会让你老公陪产?你会不会让你老公陪产?武汉市中心医院副主任医师沈健。很多孕妇也很纠结,让自己的老公去陪产,这是非常纠结的。一个事情会担心阴道分娩的过程,对老公造成心理阴影,影响夫妻的感情。另外一方最佳睡眠时间出炉!睡太早或睡太晚,都有健康风险睡眠时长这个问题,本身就没有固定答案。睡眠质量是最重要的,而且从事不同职业的人对睡眠的要求本身就不同。最佳入睡时间是什么时候呢?欧洲一项研究表明22点至22点59分入睡的人,心血管小米手机和华为手机他们的区别是什么小米和华为比到底有什么区别?小米和华为的区别主要体现在品牌形象生态链产品定位质量产品品牌销售策略市场份额和售后服务等多个方面。虽然它们在某些方面存在差异,但它们都是中国科技行业的杰蔡振华清廉曾被网友怀疑,其妻子做法不可取,还好如今没事了前段时间,由于国家体育总局党组成员副局长杜兆才被查,网友讨论引发轩然大波。杜兆才作为中国足协党委书记,一把手,被爆出腐败问题严重。很多球迷表示难以接受。随着多位足协官员被查,网友们人工智能热带火这场讲座,主办方说第一次碰上这种情况邀请浙大沈华清教授作AI生成艺术讲座,火爆程度远超预期。地点从30人教室换到70人还是人满为患,挤满走廊,又紧急协调换到几百人的阶梯教室。讲座很精彩,沈老师魅力依旧。浙江科技学院艺前所未有,第一批iphone15将部分从印度首发,网友不出意外,今年的iPhone将迎来一波抵制潮。为什么呢?在iPhone15系列发布后,直接从印度发货。今年第一批买到iPhone15的小伙伴拿到手上的可能是印度制造。出现这种情况,80后妈妈带儿子旅行60国,用旅行陪伴孩子成长她是非典型中国妈妈儿子小锟4个月大就带着出国旅游更是在儿子4岁时决定辞职带孩子环游世界跨越北极圈,去冰岛追极光,环南太平洋46天,探访食人族面对他人的质疑她说孩子如果没看过世界又怎库里砍267无缘今日最佳!西部排名终确定,季后赛首轮威少碰KD北京时间4月10日,NBA常规赛进入了最后一天的争夺,今天所有球队都有比赛,此前大家备受关注的西部季后赛对阵已经出炉了一部分,而且西部附加赛的排名也已经出炉,接下来我们就来聊聊今天都是肩膀痛,但越锻炼越严重!这种病和肩周炎症状相似,治疗相反问上了年纪总感觉肩痛,是不是肩袖损伤?可在家里做两个动作筛查。肩袖损伤,是指肩关节周围4条肌腱(包括冈上肌冈下肌肩胛下肌和小圆肌)或者组织发生病变的损伤。第一个动作,将大拇指朝下,3岁以后不常伴孩子,就没有管教的心理资本,所以无论如何千万别让老人带娃后果很严重!李茜,国家认证心理咨询师。我现在是特别不主张老人带孩子回老家的,很多人就说没办法没条件,你们就首先要有接纳这个后果的准备。孩子可能跟你不亲,孩子可能有很