网站首页 > 医学论文> 文章内容

给正在写Paper的你:如何在成千上万的arXiv论文中脱颖而出?

※发布时间:2018-3-19 0:35:28   ※发布作者:habao   ※出自何处: 

  今天是1月28号,我现在应该正在完成我的论文,你应该也是!但是当我们可以不写的时候为什么要写呢?ICML 的截止日期距今只有仅仅12天,KDD 紧随其后。ACL, COLT, ECML, UAI, 和NIPS 所有的都在放暑假之前截止,时间安排很紧几乎没有放松的时候。每一个期刊都会有成千上万的论文投递。

  开源软件、YouTube的课程、可获得的预印论文,都让机器学习变得越来越触手可及,这也激发了大众对机器学习的巨大兴趣。在接下来一个月的时间里,投递给arXiv的成千上万的文章中,很多都不值一读。 如果写得不好肯定会被拒,还有一些论文也达不到它预期的影响力。即使在被接受和具有影响力的论文中,不用心的写作后期也会引发质疑,甚至会有人说这样的论文并不值得获。(你最好期待Ali Rahimi 和 Ben Recht 不会赢得其他的经得起时间的项)。

  但是等等,还是希望的!你的论文水平有救。在我的学术生涯中,我对于如何写论文建立了强有力的观点(你可能不会同意所有这些观点)。 我最早跟着Charles Elkan读PHD时,获得很多重要的科学论文写作的,把它们总结为精辟的格言,虽然这些格言可能有点过时。这段时间,我和更年轻的学生们一起工作,教他们如何写清晰的科学散文,我发现自己在重复这些格言,偶尔还会发现新的。

  以下列举了一些很好记的,每一个都有简短的解释。有一些解释了语言,另一些交代了定位,还有一些涉及到美学。大部分都只是我的个人所感,所以你可以选择性地接受它们,特别是当它们有争议的时候。当时如果你想要反对他们,请给出有力的理由。

  你不可能在摘要中把什么都写了,也别这么做。把摘要当做2分钟的聚光灯下的宣讲。要点要条理清晰,这有一个经过的准则:

  “混合高斯模型是最基本的广泛使用的统计模型。目前的技术对于学习混合数据基本依赖于表现一般的局部搜索式算法。我们提供了第一个正确的用于学习混合高斯模型的算法。这个算法非常简单,而且能以很高概率返回由用户自定义精度的高斯模型真正的中心。“

  优点:更加精炼。 缺点:用关键词“Mixtures of Gaussians” (混合高斯模型)开头比现在的版本更夺人眼球

  如果你有很棒的定量结果,一定要把数据放在摘要和引言;如果你的文章推导出一个可以操作的公式,放在引言。人们会继续阅读是因为他们感兴趣而不是因为你通过隐藏了信息来调戏他们。

  如果你不相信存在问题,就很难对解决方案感到兴奋。如果你的文章非常抽象与现实世界没什么关系,那么它应该被视作纯数学的工作。那这篇文章大概不会成功。如果可以,用现实中引人注目的例子开头,提炼出抽象问题,用实验证明来解释这个激励人的实例。

  有时候你需要提出对比,但是不要陷入负面描述观点,尤其是你自己的观点。当其他条件都一样(语义上地),不要拐弯抹角,直接准确地说某个事物是什么,而不要去管它不是什么。这个对于你自己的方法来说尤其如此。

  1.词组不是句子,句子不是段落,段落不是小节。 一个章节包括至少一个(或零个)小节。 一篇论文至少有一个章节。

  一个作者糟糕的信号就是,在一字未读的时候,你就知道文章不好。 章节,就像PPT上的重点一样应该是平衡的。如果你只是列出章节标题,他们需要与所属的范围一样有意义。同样的规则适用于所有的组织结构。有时一个段落可以只有2句话,但是更稳妥的做法是一个段落至少有三句线.读者应该只看图或者不看图就能理解你的论文

  读者应该能通过你的论文准确地了解你的研究,即使他们错过了一些图片里的数据。任何重要的观察或者技术细节一定要放在论文的正文里,这样就可以引用图片来印证。类似地,图片应该与文章紧密相连。如果读者跳过了图片(

  ),他们应该有可以做到大致了解研究过程并且理解新发现的重要性。如果很难看出Y值越大结果越好还是Y值越小结果越好,那么应该在插图里说明它。

  但也不要太过,插图说明不应该是一大段话。好的插图说明应该在一到三行。注意:在计算机视觉圈子,图片十分难处理。有时一个图片就会占满整个页面,并且有100多个关于草稿中缺失的细节的单词,我不喜欢这种风格,但是你要提交的会议是这种标准,你得自己决定。

  作为一名年轻的博士生,一个机器学习的圈外人,我很沮丧,因为只写论文是不够的,所以我尝试让圈外人能完全理解每篇论文。这让我赢得了一些普者,但是也导致了一些早期的会议被拒。对于会议论文来说首页

  (期刊不太适用),因为以下原因:(1)审稿人在相似的领域,每个会议读5-10篇论文,每年会读50-100篇论文,太基础的东西会让他们觉得非常枯燥。(2)如果你做的工作在第5页才开始(总共8页),对于没有达到审稿人的要求你就不应该有任何借口。

  有两个关成败的点:了解你的读者并且聪明地排版。成句的摘要,成段的引言,成页的论文应该能清楚地说明你的研究。

  一个好的审稿人会试图提出性的问题来挑战提交的文章,这个方法能成功可能是因为X吗?如果答案是“我不知道”或者“不” 会很。

  科学写作中,用可数名词“我们”叙述,有的作用:“我们”包含了“你(读者)”和“我/我们(读者)”。在这种情况下,当需要表达你的想法时,你需要通过上下文说清楚。

  任何一个有资格的读者阅读完你的整篇文章,即使他们生活中不会分享你的观点,方法或者价值,也不会单独否认任何句子。“X方式比Y方式在大多数的数据集上表现更好” 大部分的什么数据集?你的审稿人会不会选择一些数据集,验证发现是错的?更好的方法是说“许多”数据集。这个定义更严谨而且

  与相似:如果你不能100%确定你的判断,就不要写上去。审稿人很少会因为你少写一两句话你的论文,但是很容易因为结论写错而驳回。

  年轻人总是错误的以为句子写得越长越能显示出自己的水平。然而优秀的科学文献作者却更常用短句来写作。当你想用一句话来表达你的观点时,可能用多句话来表达更好一些。科技写作的特点是越清晰明了越好,所以能简洁就尽量简洁。 你的论文的价值是其中精妙的观点,而不是华丽的词藻。

  写作中一个常见的错误是把动词和修饰词用于错误的主语,例如, “the algorithm tries to X(算法尝试在X上使用)”, 或者 “ the data is biased(数据是有的) ”。算法不能用尝试做动词,因为它并不能思考。如果我们想表达想法或偏好这样的动词,应该用‘we’做主语,即它们是设计模型人的想法而不是算法的想法。听起来这是个常识性的错误,但是这样不一致的错误存在于所有学科的学术写作中。在一些领域中,例如机器学习的解释性和公平性领域,因为还没有标准化的定义,写作时不注意上述问题会导致整个领域的发展受阻。推论:每个行为都应明确其由何而来。

  (句中动词是“to be”)。例如,“LSTMs are claimed to X, Y, Z(LSTMs被声称...)”是谁声明了这一观点? 最好能将这一信息在其他地方说明。一种方法是加括号来注解,或者更好的方法是用直接引语来清楚的说明哪位作者声明了这一观点。

  你应该引用的一些文章很有可能就是你的审稿人写的文章。 一个常见的很无语的审稿意见就是有匿名审稿人问你为什么没有引用A\B\C的工作(其实全是一个人做的)。 所以不相关的工作就不要引用。但如果有相关的工作,一篇都别落下,这样做百利而无一害。这样做潜在的两点好处是: (1) 你

  审稿人通常都很懒也不能过目不忘。如果你的工作是基于别人的贡献时, 注意不要只把引用写在相关工作进展 这一部分 – 即在文献中说明研究背景的那部分。 你文章中哪里用到了前人提出的方法,就要把引用写在哪。这点对于近几年 (5-10年) 的文章尤为重要, 因为这些文章所讲的内容还没成为常识,因此人们会局限性地把引文全写在 相关工作进展部分。

  这是一个比较实用的技巧主要适用于引用页数(通常1到2页)的会议文章。 如果你忘记引用最相关的文献,审稿人无论如何都不会放过你这一错误。 但是如果你遗漏了一些不是特别相关的文章,当他们提醒你时,你就可以借口说没地方写那篇引文了。但是如果你的引文页还空着,那就别指望审稿人会理解你了。

  

关键词:论文怎么写