news center

性别定位工具可能会出现隆隆的假博客

性别定位工具可能会出现隆隆的假博客

作者:闻人崩  时间:2018-02-02 08:05:19  人气:

作者:Paul Marks软件猜测作家的性别本可以阻止世界被欺骗,相信一个反对叙利亚政府的博客,并且正在寻找同性恋权利的博客是由一个生活在该国的年轻女同性恋者写的事实证明,该博客的作者“大马士革的同性恋女孩”是一个男人 - 这是网上性别检查员会接受的当“新科学家”将最后一篇博客文章的内容反馈到软件中时,它说作者有63.2%可能是男性由Na Cheng及其同事在新泽西州霍博肯的史蒂文斯技术研究所开发,不断改进的软件很快就会揭示在线作家的性别 - 无论是博客,电子邮件,Facebook写作还是推特该团队表示,该软件可以帮助保护儿童免受在网上隐瞒性别的掠食者的修饰假博客强调了人们在网上屏蔽自己身份的问题关于阿米娜·阿卜杜拉的真相只有在博客消失时才会出现,据说被民兵抢走了在线联系人意识到他们都没有见过Amina,结果发现她的博客照片是从Facebook页面上偷来的然后,一位住在英国爱丁堡的40岁的美国人汤姆麦克马斯特承认他一直在写博客为了确定作家或博主的性别,Cheng和她的同事Rajarathnam Chandramouli和Koduvayur Subbalakshmi撰写的软件允许用户上传文本文件或粘贴50个字或更多的段落进行性别分析(更新:自我们发布此文章,服务器享受的流量超出了他们的处理量如果您无法通过点击本段中的链接获得响应,我们建议您在一天的不同时间再次尝试片刻之后,该计划吐出了性别判断:男性,女性或中立中性选项指出有多少文本被剥夺了任何性别指标研究人员表示,这在科学文献中尤为普遍为了编写他们的计划,该团队首先转向了路透社新闻档案和破产能源公司安然公司的庞大电子邮件数据库中的大量文本文本他们在这些文件中搜索了以前的研究小组已经确定的“心理语言”因素,例如特定的单词和标点符号样式 Chandramouli说,他们总共找到了545个这些因素,然后他们将这些因素分解为157个具有性别意义的因素其中包括标点符号样式或男女之间段落长度的差异其他性别重要因素包括使用表明作者的情绪或情绪的词语,以及他们使用“情绪密集的副词和情感形容词(如真,迷,或可爱)”的程度,女性更常使用这些词, Chandramouli例如,男性更可能使用“我”这个词,而女性更常使用问号最后,软件使用贝叶斯算法组合这些线索,贝叶斯算法基于指示因子建议的概率平衡来猜测性别这项工作将出现在即将出版的“数字调查”杂志上但是,它并不总是有效当软件被输入文本时,它对男性或女性作家的判断只有85%的准确时间 - 但随着更多人使用它,这种情况会有所改善这是因为用户有机会告诉系统何时猜错,帮助算法学习下一个版本将分析推文和Facebook更新英国牛津互联网研究所社交网络技术专家Bernie Hogan认为,这种技术有一个很有用的作用 “能够为作家的性别提供一些额外的线索是一件好事 - 它只会有所帮助”即使是“中立”的决定也可能表明有人试图用性别的声音来写一些不自然的他说,他们 “这可能很有说服力”三位着名作家的性别标识符是什么我们给它提供了一些示例文本以找出答案诺贝尔文学奖获得者V. S. Naipaul声称,他只能通过阅读两段文字来讲述女性的写作,并且有争议地认为女性作者与他的写作不相符该软件对他的书“The Enigma of Arrival:88.4%男性”的摘录作出了判决玛丽·埃文斯(Mary Evans)是一位女性小说家,他以男性名字乔治·艾略特(George Eliot)的名义写作不过,该软件还有她的标准它从米德尔马契的第一段分析了作家的性别:94.6%的女性上周,阿拉斯加州发布了超过14,000封Sarah Palin的电子邮件,此前各种媒体机构为了获取访问权而进行了长时间的宣传存档中的一封电子邮件是通过该系统发出的,但软件错了:70.77%是男性更多关于这些主题: